Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Guia 1 Estadistica Ejercicios
Guia 1 Estadistica Ejercicios
1. El Método Estadístico
1.1. Introducción 5
1.2. El Método Estadístico 5
1.3. Conceptos y definiciones básicas 7
2. Introducción a las funciones estadísticas en Excel
2.1. Funciones en Excel 9
2.2. Gráficos 10
2.3. Tablas y gráficos dinámicos 13
2.4. Las macros “Análisis de datos” para el tratamiento estadístico 17
3. Análisis de distribuciones
3.1. Introducción 23
3.2. Distribuciones de frecuencias unidimensionales 23
3.3. Medidas de posición en una distribución de frecuencias unidimensional 31
3.4. Características de las medidas de dispersión 44
3.5. Distribuciones de frecuencias bidimensionales 47
3.6. Distribuciones de probabilidad. Algunas distribuciones de interés 51
4. Medidas de desigualdad y concentración
4.1. Medidas de forma 55
4.2. Medidas de concentración: índice de Gini y Curva de Lorenz 57
4.3. Cálculo e interpretación de los índices de concentración 57
5. Modelo de regresión lineal
5.1. El método de los mínimos cuadrados ordinarios 61
5.2. Bondad del ajuste 65
5.3. Inferencia acerca de los estimadores 66
5.4. Predicción en el modelo de regresión 68
5.5. Violación de los supuestos del modelo lineal de regresión 69
6. Regresión lineal múltiple
6.1. Introducción 79
6.2. Deficiencias muestrales: multicolinealidad y errores de medida 82
6.3. Modelo con variables cuantitativas y cualitativas como regresores 84
6.4. El empleo de variables cualitativas para el tratamiento de la estacionalidad 88
6.5. El modelo probabilístico lineal 92
7. Números índices
7.1. Introducción 95
7.2. Índices simples y complejos 96
7.3. Índices ponderados 97
7.4. Índices de precios 98
7.5. Enlaces y cambios de base 99
7.6. Deflactación de series económicas 101
7.7. Principales índices de precios españoles 102
8. Series temporales
8.1. Introducción a las series temporales 107
8.2. Componentes de una serie temporal 110
8.3. Análisis de la tendencia 111
8.4. Análisis de la estacionalidad 121
1.1.- Introducción
Aunque la palabra Estadística proviene del latín “status” o “estado”, esta palabra sólo describe
en parte su significado real, es decir, solo describe la función de la Estadística de llevar
registros ordenados de datos para describir el “estado” de las cosas. Sin embargo, la
Estadística va más allá de esta simple función.
Esta es importante, ya que antes de que la mente humana pueda interpretar (hacer inferencias
es interpretar) un conjunto de datos, especialmente cuando estos son demasiados, es
necesario resumirlos o representarlos de manera clara, simplificada o reducida.
El conjunto de individuos o entidades que se desea describir se denomina población, mientras
que una muestra es un subconjunto de individuos seleccionados de la población.
Analicemos ahora cuales son los pasos que se han de seguir en cualquier investigación
estadística o lo que es lo mismo, vamos a ver en que consiste el método estadístico, que es
un método científico.
Es tarea propia de la ciencia, observar adecuadamente los hechos, discernir que elementos
son constantes en ellos y determinar las leyes que lo rigen, es decir, sus relaciones constantes
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01
Verificación de la hipótesis
La verificación puede hacerse, sobre todo en las ciencias exactas, mediante
demostraciones teóricas basadas en relaciones aceptadas en el estado actual del
conocimiento.
Poniendo todo lo anterior en relación a lo que nos ocupa en el curso podemos ver cuales son
las etapas del Método Estadístico.
Podemos decir que es un conjunto de procedimientos aplicados en secuencia lógica a la
obtención y análisis de datos. Es el método estadístico el que nos proporciona las técnicas
necesarias para recolectar y analizar la información requerida. Podríamos distinguir en él una
etapa de Planificación y otra de Ejecución
Etapa de Planificación
En esta etapa debemos considerar las siguientes fases:
- Definición del Universo: Se debe definir el grupo del cual se extraerá la información
y a la cuál se referirán los resultados.
Continuas: son las que, en general, pueden tomar cualquier valor real dentro de un
intervalo (por ejemplo: el peso o la estatura de una persona, la temperatura de un
cuerpo, la velocidad de un móvil, etc.)
Notemos que, con frecuencia, la distinción entre estos dos tipos de variables es más teórica
que práctica, en el sentido de que una misma variable puede ser considerada discreta o
continua, dependiendo de la precisión de los aparatos de medida. Así, muchas variables
continuas serán tratadas como discretas y viceversa.
En este tema se van a introducir un conjunto de aplicaciones de Excel útiles para realizar
ejercicios de Estadística: funciones estadísticas, gráficos, tablas dinámicas y las herramientas
para el análisis de datos.
Una función es una fórmula definida en Excel, que usaremos para realizar operaciones
complejas sobre valores numéricos, de texto o de otro tipo. Podremos aplicar funciones a datos
ubicados en celdas individuales o conjuntos de datos (filas, columnas, matrices). Una función
siempre devuelve un valor, que puede ser un texto, un número o un valor lógico. Podemos
utilizar funciones escribiendo directamente una expresión o bien utilizando el asistente , una
vez posicionados en la celda en la que deseamos que aparezca el resultado de la función.
Veamos un ejemplo de escritura directa de una función: supongamos que deseamos calcular la
suma de las cantidades que figuran en la columna A, fila 10, columna B desde la fila 5 hasta la
10, y las constantes 50 y 37, y que este resultado aparezca en la celda A20. Para ello,
hacemos clic sobre la celda A20 y escribimos
=SUMA(A10;B5:B10;50;37)
Los argumentos de una función pueden ser constantes, variables, rangos de celdas u otras
funciones o expresiones, siempre y cuando su resultado sea un valor del mismo tipo que el
argumento requerido. Los argumentos de una función se separan por punto y coma.
Si utilizamos el asistente de fórmulas nos aparecerá el cuadro de diálogo “Insertar función”. Las
funciones se encuentran agrupadas por categorías, que podemos ver en la lista desplegable, o
bien podemos utilizar la búsqueda para localizar la función que nos interesa. Para cada una de
las funciones, Excel dispone de un texto de ayuda con la descripción de la función, de sus
argumentos y ejemplos de uso.
Excel 2003 dispone de 80 funciones estadísticas para cálculo de medidas de tendencia central,
dispersión y forma, para series de datos, así como distribuciones de probabilidad, recuentos y
valores del estadístico en contrastes de hipótesis. En este curso veremos como aplicar las más
habituales para obtener una descripción de nuestros datos.
2.2. Gráficos
Excel permite crear gráficos a partir de los datos contenidos en un libro. Los gráficos permiten
visualizar la información de la hoja para poder comparar datos y deducir conclusiones.
TIPOS DE GRÁFICOS
• COLUMNAS: Muestra los cambios que han sufrido los datos en el transcurso de un
período de tiempo.
• BARRAS: Ilustran las comparaciones entre elementos individuales.
• LÍNEAS: Muestran las tendencias de los datos a intervalos temporales y compara
categorías.
• CIRCULAR: Muestran el tamaño proporcional de los elementos que conforman un todo.
• GRÁFICO XY O DIAGRAMA DE DISPERSIÓN: Muestran las relaciones entre valores
numéricos de varias series de datos.
• ÁREAS: Destacan la magnitud de los datos en el transcurso del tiempo.
• ANILLOS: Al igual que un gráfico circular muestra la relación de las partes con un todo,
aunque puede contener más de una serie de datos.
• RADIALES: Compara los valores de series de datos. Cada categoría tiene su propio eje de
valores. Las líneas conectan todos los valores de las mismas series.
• SUPERFICIE: Son útiles para conocer las combinaciones óptimas (máximos o mínimos)
entre dos conjuntos de datos.
• BURBUJAS: Es un gráfico de dispersión pero con tres variables.
• COTIZACIONES: Se utiliza para ilustrar la cotización de acciones. Requieren entre tres y
cinco series de datos (máximo, mínimo y cierre; apertura, máximo, mínimo y cierre;
volumen, máximos, mínimos y cierre; volumen, apertura, máximo, mínimo y cierre).
• CÓNICOS, CILÍNDRICOS Y PIRAMIDALES: Son equivalentes a los gráficos de columnas
y barras, cambiando únicamente la presentación.
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01
Resumen de gastos
Título del
Marca de graduación gráfico
12.000
10.000
9.735
9.246 Área de trazado
Eje de valores 8.000
5.500 Est e año
6.000 Leyenda
4.139 Pasado año
Área del gráfico 4.000
2.000
1.488
2.000
1.500 Rótulos de datos
2.000
0
Líneas de división Personal Alquiler Viajes Suminist ros
Eje de categorías
Series de datos
CREAR UN GRÁFICO
Seleccionamos el rango de datos que vamos a representar y pulsamos el asistente de gráficos
o en el menú “Insertar” seleccionamos “Gráfico”. Seleccionamos el tipo de gráfico, para
cada categoría de gráfico se nos ofrece un subtipo.
En la ficha Tipos personalizados podemos encontrar gráficos combinación de dos tipos de
gráficos, por ejemplo, líneas y columnas, y gráficos con diseños más vistosos.
Para crear una tabla dinámica, acudiremos al menú “Datos” -> “Informe de tablas y gráficos
dinámicos”
Una vez hecho esto, la tabla se muestra sin contenidos. Debemos especificar en qué posición de
la tabla se presentarán los datos agregados. Para ello, seleccionaremos cada uno de los
elementos de la lista y lo agregaremos a una de las áreas de filas, columnas, datos o página.
En el ejemplo se han elegido para las columnas las variables AÑO y MUNICIPIO, y para las filas
las variables GRUPO_EDAD y SEXO. Como valor agregado se ha añadido la suma de
POBLACION.
- Actualizar los datos desde el origen. Esta opción es especialmente útil si los datos
proceden de una base de datos externa, puesto que nos permitirá actualizar el informe
sin tener que realizar los pasos previos de importar los datos desde la fuente
- Seleccionar un conjunto de filas o columnas para ocultar/mostrar el detalle o agregar y
desagregar elementos
- Especificar la función o funciones de agregación que aplicamos en el área de datos
Los principales desarrollos estadísticos que contiene la hoja de cálculo de Excel 2003
se encuentran en el menú “Herramientas” -> “Análisis de datos”. En caso de no encontrar esta
opción activada en nuestro ordenador entonces tendremos que cargar la macro Herramientas
para análisis desde el apartado “Complementos”, tal como se muestra en la figura siguiente.
Realiza un análisis simple de varianza para comprobar la hipótesis según la cual dos o
más muestras son iguales (extraídas de poblaciones con la misma media). Esta técnica
profundiza en las pruebas para dos medias, por ejemplo, la prueba t. El ANOVA, creado por
R.A. Fisher en 1925 para resolver diversos problemas agrícolas, tiene por objetivo
descomponer la variabilidad de los datos asociados a un experimento en componentes
independientes, las cuales son asignables a distintas causas.
Realiza una extensión del análisis de varianza de un factor con más de una muestra
por cada grupo de datos.
Realiza un análisis de dos factores con una sola muestra por grupo que comprueba la
hipótesis según la cual las medias de dos o más muestras son iguales (extraídas de
poblaciones con la misma media). Esta técnica profundiza en las pruebas para dos medidas
como, por ejemplo, la prueba t.
d) Coeficiente de correlación
Mide la relación entre dos conjuntos de datos que han sido calculados en escala para
ser independientes de la unidad de medida. El cálculo de la correlación de población devuelve
la covarianza de dos conjuntos de datos dividida por el producto de sus desviaciones estándar.
Covarianza
Podrá utilizar la herramienta Covarianza para determinar si dos rangos de datos varían
conjuntamente, es decir, si los valores altos de un conjunto están asociados con los valores
altos del otro (correlación positiva), si los valores bajos de un conjunto están asociados con los
valores bajos del otro (correlación negativa) o si los valores de ambos conjuntos no están
relacionados (correlación tiende a cero).
Estadística descriptiva
Genera un informe de estadísticas de una sola variable para datos del rango de
entrada, y proporciona información acerca de la tendencia central y dispersión de los datos.
Suavización exponencial
Realiza una prueba F de dos muestras para comparar las varianzas de dos
poblaciones. Por ejemplo, puede utilizar una prueba F para determinar si los tiempos de una
carrera de atletismo difieren en la varianza de las muestras de dos corredores.
Análisis de Fourier
Histograma
Media móvil
Jerarquía y percentil
Crea una tabla que contiene los rangos ordinales y porcentuales de cada valor de un
conjunto de datos. Podrá utilizar este procedimiento para analizar la importancia relativa de los
valores en un conjunto de datos.
Regresión
Muestra
Crea una muestra de la población tomando los datos del rango de entrada como
población. Es posible utilizar una muestra en lugar de toda la población cuando ésta sea
demasiado grande para procesarla o para presentarla gráficamente. Además, si cree que los
datos de entrada son periódicos, puede crear una muestra que contenga sólo los valores de
una parte determinada de un ciclo. Por ejemplo, si el rango de entrada contiene cifras de
ventas trimestrales, la muestra realizada con una tasa periódica de 4 permitirá colocar los
valores del mismo trimestre en la tabla de resultados.
Realiza una prueba t de Student en dos muestras emparejadas para determinar si las
medias de una muestra son distintas. En este tipo de prueba no se supone que las varianzas
de ambas poblaciones sean iguales. Puede utilizar la prueba emparejada cuando exista un par
de observaciones de las muestras, por ejemplo, cuando un grupo de muestra se somete dos
veces a prueba, antes y después de un experimento.
Realiza una prueba t de Student en dos muestras. En este tipo de prueba se supone
que las varianzas de ambos rangos son iguales, y se conoce con el nombre de prueba t
homoscedástica. Se emplea para determinar si las medias de dos muestras son iguales.
Realiza una prueba t de Student en dos muestras. En este tipo de prueba se supone
que las varianzas de ambos rangos son desiguales, y se conoce con el nombre de prueba t
heteroscedástica. Utilícela para determinar si las medias de dos muestras son iguales y a partir
de qué momento se diferencian los grupos sometidos a estudio. Utilice una prueba emparejada
cuando exista un grupo antes del tratamiento y después de él.
Realiza una prueba z en las medias de dos muestras con varianzas conocidas. Esta
herramienta se emplea para comprobar las hipótesis acerca de la diferencia existente entre las
medias de dos poblaciones, por ejemplo, puede utilizarla para estudiar las diferencias en el
rendimiento de dos modelos de vehículos.
3.1.- Introducción
En este tema y los siguientes se van a introducir técnicas estadísticas para una sola variable,
es decir, que con lo que se va a tratar es una serie de valores {x1, x2, … , xn} que se habrán
obtenido de medir una variable en una serie de individuos. Si la serie corresponde a una
variable medida en un individuo a lo largo del tiempo tendremos una “serie temporal”, y si es
una variable medida en diversas localizaciones geográficas tendremos una “serie espacial”.
Estas dos últimas, aunque se les puede aplicar algunas de las técnicas explicadas, no
constituyen el objetivo de este capítulo.
Si la variable que se está tratando es cualitativa ordinal o bien cuantitativa se pueden definir
otros dos tipos de frecuencias. Este tipo de frecuencias se pueden calcular para variables
cualitativas nominales, pero en ese caso el sentido de las mismas es escaso, ya que no existe
un orden natural para los valores de este tipo de datos.
xi ni Ni fi Fi
x1 n1 N1 f1 F1
x2 n2 N2 f2 F2
x3 n3 N f3 1
Σni=N 1
Cuando nos encontramos con una distribución con un gran número de valores, se suelen
agrupar en intervalos para facilitar la comprensión de los datos. Esta práctica tiene en cambio
un inconveniente: se pierde información sobre la propia distribución.
[Li-1 , Li)
Se indica por Li-1 al extremo inferior del intervalo y por Li al extremo superior. Cerramos el
intervalo por la izquierda y abrimos por la derecha. Es una manera de organizarse, pudiendo
ser al contrario.
Para operar utilizaremos la marca de clase, el punto medio de un intervalo. Para calcularla
podemos definirla como la semisuma de los valores extremos del intervalo, esto es sumar los
extremos, y dividir entre 2.
L ++L
ci == i −−1−− ++ i
== 2
NOTA: ¿Cómo obtener, a partir de los datos, una tabla de frecuencias agrupada?
Nº de intervalos: A partir de la raíz cuadrada del número de datos
redondeando podemos obtener el número de intervalos.
Recorrido: Valor mayor, menos valor menor de los datos. Re= xn-x1
Amplitud: División entre el Recorrido y el número de intervalos que hayamos
decidido. Se puede redondear también.
Re
ai =
N º de int ervalos
NOTA: Si los intervalos no son de la misma amplitud hay que calcular la densidad de
frecuencia del intervalo -iésimo, como el cociente entre el número total de observaciones de
un intervalo y la amplitud del mismo
n
di = i
ai
3.2.3.- Ejemplos
Ejemplo 1
El gobierno desea averiguar si el número medio de hijos por familia ha descendido respecto de
la década anterior. Para ello ha encuestado a 50 familias respecto al número de hijos, y ha
obtenido los siguientes datos:
2 4 2 3 1 2 4 2 3 0 2 2 2 3 2 6 2 3 2 2 3 2 3 3 4
Se pide:
Solución:
c) El tipo de variable es discreta ya que el número de hijos solo puede tomar determinados
valores enteros (es imposible tener medio o un cuarto de hijo).
d) Para construir la tabla de frecuencias tenemos que ver cuantas familias tienen un
determinado número de hijos. Podemos ver que el número de hijos, toma los valores existentes
entre 0 hijos, los que menos y 6 hijos, los que más y tendremos:
xi ni Ni fi Fi
0 2 2 0,04 0,04
1 4 6 0,08 0,12
2 21 27 0,42 0,54
3 15 42 0,30 0,84
4 6 48 0,12 0,96
5 1 49 0,02 0,98
6 1 50 0,024 1
N = 50 1
f) El número de familias que tienen más de un hijo pero tres como máximo es: 21 + 15 = 36
Por último el porcentaje de familias que tiene más de tres hijos, son aquellos que tienen 4; 5 y 6
es decir 6+1+1= 8
El porcentaje será el tanto por uno multiplicado por cien es decir, la frecuencia relativa de
dichos valores multiplicado por 100: ( 0,12+0,02+0,02)* 100 = 0,16 + 100 = 16 %
Ejemplo 2
Un nuevo hotel va a abrir sus puertas en cierta ciudad. Antes de decidir el precio de sus
habitaciones, el gerente investiga los precios por habitación de 40 hoteles de la misma
categoría de esa ciudad. Los datos obtenidos en euros fueron
Se pide:
SOLUCIONES:
[Li-1,, Li) ni Ni fi Fi
[19 - 22) 2 2 0,05 0,05
[22 - 25) 6 8 0,15 0,2
[25 - 28) 12 20 0,3 0,5
[28 - 31) 11 31 0,275 0,775
[31 - 34) 4 35 0,1 0,875
[34 - 37) 5 40 0,125 1
N= 40
e) 2
f) 20
g) %=F2*100=0,2*100=20
Para apreciar a golpe de vista la magnitud o posición de las variables, se suelen efectuar una
representación gráfica, los sistemas de gráficos más usuales son:
Diagrama de puntos
Este tipo de representación se suele utilizar con variables cuantitativas continuas, y consiste en
representar sobre una recta los valores obtenidos.
Permite apreciar la distribución de los datos a lo largo de su recorrido.
-2 -1 0 1 2 3 4 5
Diagrama de tallo-hojas
Este tipo de diagrama permite visualizar la distribución de una variable numérica.
Si se tienen los datos:
52 23 36 45 11 20 40 26 38 54 12 18 43 38 46 57
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01
El diagrama es el siguiente:
1246888
011233445667789
11245688
003445569
222233344455679
22244589
En la parte izquierda está el primer dígito de los datos (pueden ser 2 o más dígitos). En la
parte derecha se encuentra el dígito final, de forma que cada dígito corresponde a un valor
(podrían ser también grupos de dos o más dígitos).
Diagrama de barras
Se utiliza para frecuencias absolutas o relativas, acumuladas o no, de una variable. En el eje
horizontal, situaremos los diferentes valores de la variable. En el eje vertical la frecuencia.
Levantaremos barras o columnas separadas de altura correspondiente a la frecuencia
adecuada.
18
16
14
12
10
8
6
4
2
0
a b c d e
0 5 10 15 20
Este tipo de diagramas se puede utilizar para cualquier tipo de variables, pero para variables
continuas se han de agrupar en clases.
Diagrama de sectores
El área de cada sector es proporcional a la frecuencia que se quiera representar, sea absoluta
o relativa.
Para calcularlo podemos decir que el área depende del ángulo central, mediante la siguiente
proporción: ni/N=α/360
Como resulta ni /N = fi , tendremos que α = f i * 360
9%
a
b
c
d
24% e
36%
Este tipo de diagramas se puede utilizar para cualquier tipo de variables, pero para variables
continuas se han de agrupar en clases.
Histograma
Cuando la variable es continua se puede utilizar un histograma para su representación. En este
caso se dibujan rectángulos cuya base corresponde a la amplitud del intervalo (clase) y de
forma que el área del rectángulo corresponde a la frecuencia relativa de la clase.
200
150
Frecuencia
100
50
0
-4 -2 0 2 4
0.15
0.10
0.05
0.00
-4 -2 0 2 4
Polígono de frecuencias
Es la recta que une los extremos superiores de un diagrama de barras (que no se dibuja
normalmente), o bien los puntos centrales de la base superior de los rectángulos de un
histograma.
18
16
14
12
10
8
6
4
2
0
a b c d e
0
1 2 3 4 5
0
1 2 3 4 5
Pictograma
Se suele utilizar para expresar un atributo. Se suelen utilizar iconos que se identifiquen con la
variable (ejemplo un pez) y su tamaño suele guardar relación con la frecuencia
Cartograma
Se representa la información mediante un diagrama convencional insertado en un mapa. Este
tipo se aplica a variables en la que los individuos son regiones geográficas.
Si las frecuencias o el valor de la variable se representa con colores tenemos lo que se llama
un mapa temático.
Se pueden también representar barras con las frecuencias en cada una de las zonas,o bien
diagramas de sectores o cualquier otro.
3.3.1.- Introducción
En este tema y el siguiente vamos a obtener unos números que cuantifiquen las
propiedades fundamentales de la distribución de frecuencias. Estos números podemos
clasificarlos en:
MEDIA ARITMÉTICA: Es la suma de todos los valores de la variable dividida entre el número
total de elementos.
n
x + x2 + x3 + ....xn −1 + xn ∑x i
X = 1 = i =1
n n
Si el valor xi de la variable X se repite ni veces, aparece en la expresión de la media
aritmética de la forma:
X =
∑xn i i
,
n
n
ni
Como fi = otra posible expresión será X = ∑ xi fi
N i =1
X=
∑x n i i
=
601
= 60,1 kg
n 10
NOTA: A la media aritmética se la denomina también CENTRO DE GRAVEDAD de la
distribución.
Si la variable esta agrupada en intervalos (variable continua), se asignan las frecuencias a las
marcas de clase y se procede como si la variable fuera discreta. En el futuro consideraremos
indistintamente ci = xi
Ejemplo:
[Li-1,Li) xi = ci ni ci ni
[30 , 40) 35 3 105
[40 , 50) 45 2 90
[50 , 60) 55 5 275
10 470
X=
∑x n i i
=
470
= 47
n 10
Es la media aritmética que se utiliza cuando a cada valor de la variable (xi) se le otorga una
ponderación o peso distinto de la frecuencia o repetición. Para poder calcularla se tendrá que
tener en cuenta las ponderaciones de cada uno de los valores que tenga la variable
∑w n i i
Xi ni Wi xi wi
5 1 1 5
8 1 2 16
7 1 3 21
3 N=6 42
X=
∑x n i i
=
5+8+7
= 6, 67 .
n 3
Ahora bien, si calculamos la media ponderada, obtendremos:
( 5 x1) + ( 8 x 2 ) + ( 7 x3) 5 + 16 + 21 42
xw = = = =7
(1 + 2 + 3) 6 6
n
Veamos que resulta al operar la siguiente expresión: ∑ (x
i =1
i − X ) . Tendremos que
( ∑ x n − ∑ X n ) n1 = ( ∑ x n − X ∑ n ) n1 = ( ∑ x n − X n ) n1 =
n
ni 1
∑ (x
i =1
i − X)
ni
= ∑ ( xi ni − X ni ) =
ni
i i i i i i i i
i i i
xi ni 1 1
∑ xi ni − ∑ . n = 0 = 0
n ni ni
∑( x )
2
∑( x − k ) ni − x ni
2
ni
D (k ) =
i
= = prop 1 = 0 =0
i
n n n
Para k = x (media aritmética) el valor de las desviaciones será mínima.
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01
∑yn i i
∑(x + k ) ni ∑( x n + kni ) ∑ x n + ∑ kn ∑ x n + ∑ kn
y= i =1
= = = = =
i i i i i i i i i
n n n n n n
=
∑ xi ni +
kn
=
∑ xi ni +k
n n n
como
∑xn i i
= X si sustituimos tendremos Y = X + k
n
PROPIEDAD 4: Si todos los valores de la variable se multiplican por una misma
constante la media aritmética queda multiplicada por dicha constante. La demostración
se realizaría de manera análoga a la anterior.
y=
∑yn i i
=
∑ (ax i + b)ni
=
∑ (ax n i i + bni )
=
a ∑ xi ni
+
b∑ ni
= ax + b
n n n n n
Podemos utilizar esta metodología para calcular la media de la siguiente distribución.
Xi ni
38432 4
38432 8
38436 4
38438 3
38440 8
xi − 38436
Si efectuamos un cambio de variable yi = tomando como nueva variable el
2
valor más centrado, tendremos:
xi ni yi yi ni
38432 4 (38432 - 38436)/2 = -2 -8
38432 8 (38432 - 38436)/2 = -1 -8
38436 4 (38436 - 38436)/2 = 0 0
38438 3 (38438 - 38436)/2 = 1 3
38440 8 (38440 - 38436)/2 = 2 16
n = 27 3
yi ni 3 1
y= = =
n 27 9
∑x N i i
X = I =1
n
Siendo xi la media de cada subconjunto y Ni el núm. de elementos de cada subconjunto.
Veamos la demostración de la propiedad: Sea la distribución x1, x2,…, xn, xn+1, xn+2,…,xk,
observando que habrían como dos subconjuntos de n y k-n elementos cada uno. Si
X =
∑x n i i
y calculamos los sumatorios
consideramos la media aritmética de la distribución:
n
para los dos subconjuntos, la expresión de la media quedaría:
n k n k
∑x n
j =1
j j + ∑xn
r = n +1
r r ∑x n
j =1
j j ∑xn r r
X = = + r = n +1
n n n
Si multiplicamos numerador y denominador de cada una de las fracciones por una misma
cantidad el resultado no varía, por tanto, multiplicaremos la primera por N1 que es su número
de elementos del primer subconjunto y la segunda por N2 que es el correspondiente, la
expresión quedará:
n n
∑ x jnj ∑ x jnj
j =1 j =1
N1 N2 n
n
N1 N2
∑
k
N1 ∑ x j n j N 2 ∑ x r nr
xjnj
j =1 =
+ r = n +1 = x1 y
j 1
X= = + como
N 1n N 2n n n N1
kn
∑x rj n jr
r = n +1
= x2 son la media del primer y segundo subconjunto, la expresión la podemos
N2
N1 N X N + X 2 N2
expresar de la siguiente manera: X = X1 + X2 2 = 1 1 que es lo que
n n n
queríamos demostrar ya que si las frecuencias se multiplican o dividen por un mismo número,
la media no varía
IMPORTANTE: Hay que tener en cuenta que la media aritmética es muy sensible a los
valores extremos, es decir, a valores numéricos muy diferentes, (tanto por lo grandes, o
pequeños que sean), al resto de la muestra. Esto puede resultar un problema. Hay formas de
resolverlo, que veremos más adelante.
Suele utilizarse cuando los valores de la variable siguen una progresión geométrica.
También para promediar porcentajes, tasas, nº índices, etc. siempre que nos vengan dados en
porcentajes.
xi Ni
100 10
120 5
125 4
140 3
n = 22
lg G =
∑ n lg x
i i
n
por lo tanto será conveniente ampliar la tabla con lo que nos quedará
xi ni lg xi ni lg xi
100 10 lg 100 = 2 20
120 5 lg 120 = 2.079 10,396
125 4 lg 125 = 2.097 8,387
140 3 lg 140 = 2.146 6,438
n = 22 45.221
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01
n n
H= =
n n n n
∑ xi x1 + x 2 + x3 + ....
i 1 21 3
Se utiliza para promediar velocidades, tiempos, rendimiento, etc. (cuando influyen los valores
pequeños).
Su problema: cuando algún valor de la variable es 0 o próximo a cero no se puede calcular.
xi Ni
100 10
120 5
125 4
140 3
H=
n
=
22
= 112,82 X=
∑ x i ni =
2520
= 114,545
ni 0,195 n 22
∑x
i
MEDIANA: Me
La mediana o valor mediano será el valor de la variable que separa en dos grupos los valores
de las variables, ordenadas de menor a mayor. Por tanto es una cantidad que nos indica orden
dentro de la ordenación.
n
El lugar que ocupa se determina dividiendo el nº de valores entre 2:
2
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01
xi Ni Ni
1 3 3
2 4 7
5 9 16
7 10 26
10 7 33
13 2 35
N = 35
n 35
lugar que ocupa = = 17,5
2 2
n
como se produce que N i −1 < < N i ⇒ 16 < 17,5 < 26 ⇒ Me = xi ,por lo tanto Me = 7
2
El otro caso lo podemos ver en la siguiente distribución:
xi Ni Ni
1 3 3
2 4 7
5 9 16
7 10 26
10 6 32
N= 32
x1 + xi +1 5 + 7
Lugar que ocupa = 32/2 = 16 ==> Me = = =6
2 2
Notar que en este caso se podría haber producido que hubiera una frecuencia absoluta
acumulada superior a 16. En este caso se calcularía como en el ejemplo anterior.
Ejemplo:
[ Li-1, Li) ni Ni
[20 , 25) 100 100
[25 , 30) 150 250
[30 , 35) 200 450
[35 , 40) 180 630
[40 , 45) 41 671
N = 671
MODA: Mo
Será el valor de la variable que más veces se repite, es decir, el valor que tenga mayor
frecuencia absoluta.
Pueden existir distribuciones con más de una moda: bimodales, trimodales, etc.
En las distribuciones sin agrupar, la obtención de la moda es inmediata.
Ejemplo:
xi ni
1 2
2 7
3 5
4 7
5 4
Moda {2, 4}, en este caso tenemos una distribución bimodal.
En los supuestos que la distribución venga dada en intervalos, es decir, sea agrupada, se
pueden producir dos casos: que tengan la misma amplitud, o que esta sea distinta.
Si tienen la misma amplitud, en primer lugar tendremos que encontrar el intervalo modal, será
aquel que tendrá mayor frecuencia absoluta [ Li −1 , Li ) . Posteriormente realizaremos el
siguiente cálculo:
ni +1
Mo = Li −1 + ai
ni −1 + ni +1
Siendo:
Cuando los intervalos sean de distinta amplitud, el intervalo modal será el de mayor densidad
ni
de frecuencia , es decir di = ,ya que consideraremos la “calidad” del intervalo en función
ai
de la frecuencia y de la amplitud. Para realizar el cálculo, tendremos en cuenta la siguiente
di +1
expresión: Mo = Li −1 + ai
di −1 + di +1
Nota:
1.- Cuando hay una única moda, la mediana suele estar comprendida entre x y Mo.
2.- Cuando la distribución es simétrica (con 1 moda) se cumple que: x = Me=Mo
Ejemplo: Hallar la moda de la siguiente distribución
[Li-1,Li) ni Di = ni/ai
[0 , 25) 20 0.8
[25 , 50) 140 5.6
[50 , 100) 180 3.6
[100 , 150) 40 0.8
[150 , 200) 20 0.4
Son medidas de localización similares a las anteriores. Se las denomina CUANTILES (Q). Su
función es informar del valor de la variable que ocupará la posición (en tanto por cien) que nos
interese respecto de todo el conjunto de variables.
Podemos decir que los Cuantiles son unas medidas de posición que dividen a la distribución en
un cierto número de partes de manera que en cada una de ellas hay el mismo de valores de la
variable.
Existe un valor en cual coinciden los cuartiles, los deciles y percentiles es cuando son iguales a
la Mediana y así veremos
2 5 50
= =
4 10 100
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01
Ejemplo:
DISTRIBUCIONES NO AGRUPADAS: En la siguiente distribución
xi ni Ni
5 3 3
10 7 10
15 5 15
20 3 18
25 2 20
n = 20
Calcular la mediana (Me); el primer y tercer cuartil (C1,C3); el 4º decil (D4) y el 90 percentil (P90)
Mediana (Me)
Lugar que ocupa la mediana lugar 20/2 = 10
Como es igual a un valor de la frecuencia absoluta acumulada, realizaremos es cálculo:
xi + xi +1 10 + 15
Me = = = 12, 5
2 2
Primer cuartil (C1)
Lugar que ocupa en la distribución ( ¼). 20 = 20/4 = 5 Como Ni-1 < (25%).n < Ni , es decir 3
< 5 < 10 esto implicara que C1 = xi = 10
Recorrido: Se define como la diferencia entre el mayor y menor valor de las variables de
una distribución:
R = xn − x1
D Me =
∑x i − Me ni
n
Varianza: Es la media aritmética de los cuadrados de las desviaciones de los valores de
la variable con respecto de la media de la distribución. Responde a la expresión
S2 =
∑ (x i − X )2 ni
n
Cuando se trabaja con muestras se suele utilizar la cuasi-varianza, que se obtiene como la
anterior pero en el divisor aparece n-1. Esta medida tiene mejores propiedades asintóticas
(muestras grandes) que la varianza.
NOTA: Su problema son las unidades ya que minutos al cuadrado no existen, y si hablamos de
longitud m x m nos daría metros al cuadrado o sea superficie. El valor de la varianza no lo
podemos tomar, pues, como la cantidad que resulta, en las unidades que nos proporcionan los
datos. Para hacernos una idea aproximada, nunca exacta, hay que obtener la raíz cuadrada, y
así esta nueva medida, es la desviación típica:
S 2
=
∑ (x i − X )2 ni
=
∑x n 2
i i
− X2
n n
Propiedades de la varianza :
1ª.- Es siempre un valor no negativo, que puede ser igual o distinta de 0. Será 0 solamente
cuando todos los valores de la variable sean iguales.
2ª.- Si a todos los valores de la variable se le suma una constante la varianza no se
modifica. Veámoslo:
S 2
=
∑ (x i − X ) 2 ni
n
Si a xi le sumamos una constante xi ’ = xi + k tendremos (sabiendo que x' = x + k )
S 2
=
∑ ( x ' − X ') n = ∑ [( x
i
2
i i + k ) − ( X '+ k )]2 ni
=
∑ (x i − X ) 2 ni
= S2
n n n
3ª.- Si todos los valores de la variable se multiplican por una constante la varianza queda
multiplicada por el cuadrado de dicha constante. Veámoslo:
Si a xi’ = xi · k tendremos (sabiendo que X ' = X ·k )
S 2
=
∑ ( x ' − X ') n = ∑ [( x ·k ) − ( X '·k )] n
i
2
i i
2
i
=
∑ [k ( x
i − X )]2 ni
=
N N N
=
∑ k ( xi − X )2 ni
2
=
k ∑ ( xi − X ) 2
2
= k 2 ·S 2
n n
4ª.- Si en una distribución obtenemos una serie de subconjuntos disjuntos, la varianza de la
distribución inicial se relaciona con la varianza de cada uno de los subconjuntos mediante la
expresión
S 2
=
∑N S i i
2
x
n
Siendo Ni el nº de elementos del subconjunto (i) y S2i la varianza del subconjunto (i)
S = + S2 = +
∑ (x i − X ) 2 ni
N
A su vez la desviación típica, también tiene una serie de propiedades que se deducen
fácilmente de las de la varianza (ya que la desviación típica es la raíz cuadrada de la varianza):
1ª.- La desviación típica es siempre un valor no negativo S será siempre ≥0 por definición.
Cuando S = 0 X = xi (para todo i).
2ª.- Si a todos los valores de la variable se le suma una misma constante la desviación
típica no varía.
Para construir un Diagrama de caja se utiliza la mediana y los cuartiles. En el gráfico siguiente
se indica la forma de hacerlo.
F1 f1 Q1 Me Q3 f2 F2
Me es la mediana
Q1 y Q3 son el primer y tercer cuartil
f1 es Q1-1,5(Q3-Q1) o el mínimo (el que sea más grande)
f2 es Q3+1,5(Q3-Q1) o el máximo (el que sea más pequeño)
F1 es Q1-3(Q3-Q1)
F2 es Q3+3(Q3-Q1)
Los puntos entre f1 y F1 se representan de una forma, lo mismo que los que están entre f2 y F2
Los puntos menores de F1 o mayores que F2 se representan de otra.
Ambos tipos de observaciones son lo que se conoce como observaciones atípicas.
A B C D E F G H
El problema de las medidas de dispersión absolutas es que normalmente son un indicador que
nos da problemas a la hora de comparar. Comparar muestras de variables que entre sí no
tienen cantidades en las mismas unidades, de ahí que en ocasiones se recurra a medidas de
dispersión relativas. El coeficiente de variación de PEARSON es una de las más significativas y
lo podemos definir, como el cociente entre la desviación típica y la media aritmética de
una distribución.
Es necesario tener en cuenta que al efectuar el cociente eliminamos las unidades por tanto V
es adimensional.
S
Vx =
X
De forma general, si se estudian sobre una misma población y se miden por las mismas
unidades estadísticas una variable X y una variable Y, se obtienen series estadísticas de las
variables X e Y.
Considerando simultáneamente las dos series, se suele decir que estamos ante una variable
estadística bidimensional.
Y y1 y2 ….. yj ….. yk ni .
X
x1 n11 n12 ….. n1j ….. n1k n1 .
x2 n21 n22 ….. n2j ….. n2k n2 .
. . . . . . . .
. . . …. . …. . .
. . .
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01
En este caso, n11 nos indica el número de veces que aparece x1 conjuntamente con y1;
n12, nos indica la frecuencia conjunta de x1 con y2, etc.
Y
X y1 Y2 Y3 y4 ni.
X Y
xi ni. yj n.j
x1 n1. y1 n.1
x2 n2. y2 n.2
x3 n3 . y3 n.3
x4 n4. y4 n.4
n n
n N
∑n j. = ∑n. j = ∑∑nij = n
i =1 j =1
Independencia estadística
Se dice que dos variables X e Y son independientes estadísticamente cuando la frecuencia
relativa conjunta es igual al producto de las frecuencias relativas marginales en todos los
casos, es decir:
nij ni. n. j
= ·· Para todo i, j
n n n
Si esto no se cumple para todos los valores se dice que hay dependencia estadística.
Gráficamente, indicaría la Covarianza, que los datos, se ajustan a una recta, en los
siguientes casos:
PROPIEDADES DE LA COVARIANZA:
1.- Si a todos los valores de la variable x, les sumamos una constante k y a todos los valores
de la variable y les sumamos una constante k’, la covarianza no varía.
2.- Si a todos los valores de una variable x los multiplicamos por una constante k y a todos los
valores de la variable y los multiplicamos por una constante k’, su covarianza queda
multiplicada por el producto de las constantes.
3.- A partir de las anteriores: si tenemos dos variables x, y con la covarianza Sxy, y
transformaciones lineales de las variables de la forma z=ax+b, y t=cy+d, la nueva
covarianza se relaciona con la anterior de la forma: Szt=acSxy.
NOTA: Cuando las variables x e y son independientes, Sxy =0, y por tanto rxy=0. Es decir, si
dos variables son independientes su covarianza vale cero. No podemos asegurar lo
mismo en sentido contrario. Si dos variables tienen covarianza cero, no podemos
decir que son independientes. Sabemos que linealmente no tienen relación, pero
podrían tener otro tipo de relación y no ser independientes.
Ejemplo:
A partir de los siguientes datos, vamos a calcular la Covarianza y el coeficiente de correlación:
Altura 175 180 162 157 180 173 171 168 165 165
Peso 80 82 57 63 78 65 66 67 62 58
77
Pesos (kg.)
72
67
62
57
150 155 160 165 170 175 180
Alturas (cm.)
Para indicar el número de coincidencias, o bien ponemos símbolos diferentes, o bien indicamos
entre paréntesis, el número nii.
x
1) P ( X ≤ x) ≥ 0∀x si la v.a. es discreta o bien ∫ f ( x)dx ≥ 0∀x si es continua
−∞
∞
2) ∑ P( X = x) = 1 si es discreta o ∫ f ( x)dx =1 si es continua
−∞
F ( x) =P ( X ≤ x)
Distribución binomial
La distribución binomial es una distribución de probabilidad discreta del número de éxitos en
una secuencia de n experimentos independientes, cada uno de los cuales tiene probabilidad θ
de ocurrir. Su función de densidad de probabilidad está dada por:
Por ejemplo, la distribución binomial se usa para encontrar la probabilidad de sacar 5 caras y 7
cruces en 12 lanzamientos de una moneda. En este caso se tiene que
y resulta:
Distribución hipergeométrica
Una v.a. X que toma todos los valores comprendidos entre 0 y n, sigue una distribución
hipergeométrica cuando:
Np Nq
x n − x
[
P X n =x = ]
N
x
Distribución Normal
Se hace necesario, para la teoría siguiente, conocer la distribución normal , ya que tiene gran
importancia al querer estudiar el apuntamiento o curtosis. Se dice que una distribución tiene un
apuntamiento u otro, siempre en comparación con la distribución normal.
También es conocida como “campana de Gauss”, debido a su forma. Esta “campana” responde
a la representación gráfica de la función de densidad de la distribución:
(x−µ)
2
1 −
f ( x) = e 2σ
2
σ 2π
• Características biométricas
Γ es la función gamma.
La esperanza matemática es igual a k y la varianza es 2k.
2
La distribución X es asimétrica y su propiedad fundamental es que, si sumamos dos variables
2 2
aleatorias X independientes de grados de libertad n y m, se obtiene una nueva v.a. X con
n+m grados de libertad.
Esta distribución tiene muchas aplicaciones en inferencia estadística, por ejemplo en el test ji-
cuadrado y en la estimación de varianzas. También está involucrada en el problema de estimar
la media de una población normalmente distribuida y en el problema de estimar la pendiente de
una recta de regresión lineal, a través de su papel en la distribución t de Student, y participa en
todos los problemas de análisis de varianza, por su papel en la distribución F de Snedecor, que
es la distribución del cociente de dos variables aleatorias de distribución ji-cuadrado e
independientes.
4.1.1.- Asimetría
Cuando al trazar una vertical, en el diagrama de barras o histograma, de una variable, según
sea esta discreta o continua, por el valor de la media, esta vertical, se transforma en eje de
simetría, decimos que la distribución es simétrica. Diremos pues, que es simétrica, cuando a
ambos lados de la media aritmética haya el mismo nº de valores de la variable, equidistantes
de dicha media dos a dos, y tales que cada par de valores equidistantes tiene la misma
frecuencia absoluta. En caso contrario, dicha distribución será asimétrica o diremos que
presenta asimetría.
Para calcular la asimetría, una posibilidad, es utilizar el llamado coeficiente de FISHER que
representaremos como g1 y responderá a la siguiente expresión matemática:
g1 =
∑ (x i − x)3 ni
ns 3
Según sea el valor de g1, diremos que la distribución es asimétrica a derechas o positiva, a
izquierdas o negativa, o simétrica, o sea:
4.1.2.- Curtosis
g2 =
∑ (x i − X ) 4 ni
−3
ns 4
Las infinitas posibilidades que pueden adoptar los valores, se encuentran entre los dos
extremos:
1.- Concentración máxima, cuando uno solo percibe el total y los demás nada, en este
caso, nos encontraremos ante un reparto no equitativo:
x1 = x2 = x3 = ………… = xn-1 = 0 y xn.
2.- Concentración mínima, cuando el conjunto total de valores de la variable esta
repartido por igual, en este caso diremos que estamos ante un reparto equitativo
x1 = x2 = x3 = ………… = xn-1 = xn
De las diferentes medidas de concentración que existen nos vamos a centrar en dos:
Indice de Gini, Coeficiente, por tanto será un valor numérico.
Curva de Lorenz, gráfico, por tanto será una representación en ejes coordenados.
1.- Los productos xi ni, que nos indicarán la renta total percibida por los ni rentistas de
renta individual xi.
2.- Las frecuencias absolutas acumuladas Ni .
3.- Los totales acumulados ui que se calculan de la siguiente forma:
u1= x1 n1
u2 = x1 n1 + x2 n2
u3 = x1 n1 + x2 n2+ x3 n3
∑( p i − qi )
IG = i =1
k −1
∑p
i =1
i
Frecuencia
marca xini Σ un qi =(ui/un) 100 pi = (Ni/n) 100 pi - qi
Li-1 – Li xi ni Ni
0 – 50 25 23 23 575 575 1,48 8,85 7,37
50 – 100 75 72 95 5400 5975 15,38 36,54 21,16
100 – 125 62 157 7750 13725 35,33 60,38 25,06
150
150 – 175 48 205 8400 22125 56,95 78,85 21,90
200
200 – 225 19 224 4275 26400 67,95 86,15 18,20
250
250 – 275 8 232 2200 28600 73,62 89,23 15,61
300
300 – 325 14 246 4550 33150 85,33 94,62 9,29
350
350 – 375 7 253 2625 35775 92,08 97,31 5,22
400
400 – 425 5 258 2125 37900 97,55 99,23 1,68
450
450 – 475 2 260 950 38850 100,00 100,00 0,00
k −1
∑( p i − qi )
125, 48
IG = i =1
k −1
= = 0,193
651,15
∑p
i =1
i
Curva de Lorenz
La curva la obtenemos cerca de la diagonal, lo que indica que hay poca concentración:
100,0
90,0
80,0
70,0
60,0
50,0
40,0
30,0
20,0
10,0
0,0
0,0 10,0 20,0 30,0 40,0 50,0 60,0 70,0 80,0 90,0 100,0
Yt = a + bX t + et
Nuestra labor consiste en estimar los parámetros a y b de la ecuación anterior a partir de los
datos muestrales de los que disponemos. Para ello utilizaremos el método de los Mínimos
Cuadrados Ordinarios (MCO), pero antes de ver en que consiste este método debemos hacer
ciertas hipótesis sobre el comportamiento de las variables que integran el modelo.
De lo anterior se desprende que, a la hora de estimar los parámetros del modelo, resultará de
vital importancia que dicho término de error no ejerza ninguna influencia determinante en la
explicación del comportamiento de la variable dependiente. Por ello, cuando se aplica el
método de mínimos cuadrados ordinarios, se realizan las siguientes hipótesis de
comportamiento sobre el término de error:
2. La covarianza entre ei y ej es nula para i ≠ j tal que E(ei·ej) = 0. Ello quiere decir que el
error cometido en un momento determinado, i, no debe estar correlacionado con el
error cometido en otro momento del tiempo, j, o dicho de otro modo, los errores no
ejercen influencia unos sobre otros. En caso de existir correlación, nos encontraríamos
ante el problema de la autocorrelación en los residuos, el cual impide realizar una
estimación por mínimos cuadrados válida.
3. La matriz de varianzas y covarianzas del término de error debe ser escalar tal que
Var(ei) = σ I, i=1,…,n, donde I es la matriz unidad. Dado que siempre que medimos
2
una variable, se produce un cierto error, resulta deseable que los errores que
cometamos en momentos diferentes del tiempo sean similares en cuantía. Esta
condición es lo que se conoce como supuesto de homocedasticidad que, en caso de
no verificarse, impediría un uso legítimo de la estimación lineal por mínimos cuadrados.
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01
2. Las variables explicativas, Xi, son no estocásticas, es decir, son consideradas fijas en
muestreos repetidos.
Veamos a continuación, suponiendo que se verifican los supuestos anteriores, como se realiza
la estimación de los parámetros a y b. Gráficamente, el resultado que obtendremos al estimar
dichos parámetros será una recta que se ajuste lo máximo posible a la nube de puntos definida
por todos los pares de valores muestrales (Xi,Yi), tal y como se puede apreciar en el gráfico 5.1.
El término de error, ei, puede ser entendido, a la vista del gráfico anterior, como la distancia
que existe entre el valor observado, Yi, y el correspondiente valor estimado, que sería la
imagen de Xi en el eje de ordenadas. El objetivo de la estimación por Mínimos Cuadrados
Ordinarios es, precisamente, minimizar el sumatorio de todas esas distancias al cuadrado; es
1
decir :
n n n
Min ∑i =1
ei2 = ∑
i =1
(Yi −Yˆi ) 2 = ∑ (Y
i =1
i − aˆ − bˆX i ) 2
1
Los parámetros y variables que llevan encima un símbolo de acento circunflejo (^) indican que son estimadas por lo
que no se corresponden con el valor real de la variable sino que con el calculado por nosotros.
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01
n n
∑
i =1
Yi = na + b ∑X
i =1
i ⇒ Y = aˆ + bˆX
n n n
∑
i =1
Yi X i = aˆ ∑
i =1
X i + bˆ ∑X
i =1
i
2
∑( X
i =1
i − X )(Yi − Y )
b= n
∑( X
i =1
i − X )2
a = Y − bX
Ejemplo 5.1.
Se pretende estimar el siguiente modelo:
Yt = a + bX t + et
Año Yt Xt
1988 10 19
1989 12 18
1990 13 16
1991 14 15
1992 15 15
1993 17 14
1994 20 14
1995 21 13
1996 22 12
1997 20 13
∑( X
i =1
i − X )(Yi − Y )
− 79.6
b= n
= = −1.7728
44.9
∑( X
i =1
i − X )2
Finalmente, sustituyendo en la expresión anterior los valores de Xt, podemos obtener los
valores de Yˆi y el valor de los términos de error, ei:
Yˆi ei = Yi − Yˆi
9.13140312 0.86859688
10.9042316 1.09576837
14.4498886 -1.44988864
16.2227171 -2.22271715
16.2227171 -1.22271715
17.9955457 -0.99554566
19.7683742 1.23162584
21.5412027 0.45879733
19.7683742 0.23162584
donde:
− SCT: es la Suma de Cuadrados Totales y representa una medida de la variación de la
variable dependiente.
− SCE es la Suma de Cuadrados Explicados por el modelo de regresión.
− SCR es la Suma de Cuadrados de los Errores
Cada una de estas sumas viene dada por las siguientes expresiones:
n
SCT = Y ' Y − nY 2 = ∑Y
i =1
2
− nY 2
n
SCR = ∑ ei2 = Y ' Y − β ' X ' Y = SCT − SCE
i =1
A partir de las expresiones anteriores es posible obtener una medida estadística acerca de la
bondad de ajuste del modelo mediante lo que se conoce como coeficiente de determinación
2
(R ), que se define como:
SCR
R2 = 1− 2
, 0≤R ≤1
SCT
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01
SCE
R2 = 2
, 0≤R ≤1
SCT
Mediante este coeficiente es posible seleccionar el mejor modelo de entre varios que tengan el
mismo número de variables exógenas, ya que la capacidad explicativa de un modelo es mayor
cuanto más elevado sea el valor que tome este coeficiente. Sin embargo, hay que tener cierto
2
cuidado a la hora de trabajar con modelos que presenten un R muy cercano a 1 pues, aunque
podría parecer que estamos ante el modelo “perfecto”, en realidad estaría encubriendo ciertos
problemas de índole estadística como la multicolinealidad que veremos más adelante.
Por otra parte, el valor del coeficiente de determinación aumenta con el número de variables
exógenas del modelo por lo que, si los modelos que se comparan tienen distinto número de
2
variables exógenas, no puede establecerse comparación entre sus R . En este caso debe
emplearse el coeficiente de determinación corregido R 2 , el cual depura el incremento que
experimenta el coeficiente de determinación cuando el número de variables exógenas es
mayor.
R2 =1−
SCR n − k
SCT n − 1
=1−
n −1
n−k
1 − R2 ( )
cuyo valor también oscila entre 0 y 1
Intervalos De Confianza
a) Intervalo de confianza para el parámetro βˆi
Su cálculo se realiza mediante la siguiente expresión:
IC βi : ( βˆi ± S βi t n −k )
∑e 2
i
obtenidos a partir de la expresión S βˆβˆ = S e2 ( X ' X ) , donde
−1
S e2 = i =1
es la estimación de la
n−k
varianza del término de error y ( X ' X )
−1
la inversa de la matriz de productos cruzados de los
regresores utilizados (ver Tema 7).
S 2 ( n − k ) S 2 ( n − k ) SCR SCR
IC : e
; e
≡ ;
σ e2 χ α2 χ 2 α χ α2 χ 2 α
1− 1−
2 2 2 2
Contrastes de Hipótesis
Formulación de la hipótesis: H 0 : β j = β *j
H 1 : β j ≠ β *j
βˆ j − β *j
Estadístico experimental: t exp =
S βˆ
j
Formulación de la hipótesis: H0 : β j = 0
H1 : β j ≠ 0
βˆ j
Estadístico experimental: t exp =
S βˆ
j
Formulación de la hipótesis: H 0 : Rβ = r
q
Estadístico experimental: Fexp =
SCR
n−k
SCE R2
= k − 1 = k −1
Estadístico experimental: Fexp
SCR
n−k
1 − R2( )
n−k
Una vez estimado y validado el modelo, una de sus aplicaciones más importantes consiste en
poder realizar predicciones acerca del valor que tomaría la variable endógena en el futuro o
para una unidad extramuestral. Esta predicción se puede realizar tanto para un valor individual
como para un valor medio, o esperado, de la variable endógena, siendo posible efectuar una
predicción puntual o por intervalos. Su cálculo se realiza mediante las expresiones que figuran
a continuación:
a) Predicción individual: se trata de hallar el valor estimado para la variable Y un periodo hacia
delante. En este caso basta con sustituir el valor de las variables exógenas en el modelo en
el siguiente periodo y calcular el nuevo valor de Y.
Si se construye una gráfica de los resultados de una estimación mínimo cuadrática (en abcisas)
frente al valor absoluto de los residuos (en ordenadas), cuando éstos últimos presentan una
distribución Normal de media cero y varianza constante, N (0, σ ), el resultado obtenido (gráfico
2
6.2.) muestra que el tamaño del error es independiente del tamaño de la variable estimada, ya
que errores con valor elevado se corresponden con valores bajos y altos de la variable
dependiente estimada; sin embargo, una distribución de residuos con problemas de
heteroscedasticidad da lugar a una figura como la que puede observarse en el gráfico 6.3., en
donde se manifiesta una clara relación de dependencia entre la variable estimada y el tamaño
del error. En este caso los errores de mayor tamaño se corresponden con los valores más altos
de la variable estimada.
3500
3000
2500
2000
1500
1000
500
0
0 200 400 600 800
R e si d u o s v a l o r a b so l u to (e )
R e s id u o s c o n h e te ro c e d a s tic id a d
V a ria b le e s tim a d a (y )
3500
3000
2500
2000
1500
1000
500
0
0 200 400 600 800 1000
R e s id u o s va lo r a b s o lu to (e )
1000
500
0
-5001940 1950 1960 1970 1980 1990 2000 2010
-1000
1000
500
0
1940 1950 1960 1970 1980 1990 2000 2010
-500
-1000
Estos problemas asociados a los errores pueden detectarse con test estadísticos diseñados
para ello. A continuación se describen dichos test y la forma en que debe procederse para
estimar modelos en donde la estimación mínimo-cuadrática presenta problemas de este tipo
asociados a los residuos.
Heteroscedasticidad
Decimos que el término de error de una estimación mínimo-cuadrática presenta
heteroscedasticidad cuando la varianza del mismo es diferente para las distintas
observaciones que integran la muestra, lo que implica que la variabilidad de los errores
mínimo-cuadráticos obtenidos están relacionados de alguna manera con los datos utilizados en
el modelo, ya sea por estar relacionados con la escala temporal de los datos recogidos o por
presentar alguna relación de dependencia con alguna de las variables exógenas utilizadas. Las
consecuencias para la estimación mínimo-cuadrática son que los estimadores de los
coeficientes seguirán siendo insesgados y lineales pero ya no serán de mínima varianza o
eficientes.
Test de Bartlett
El test de Bartlett se basa en de que la suposición de que las n observaciones de los datos de
la variable a estimar por el modelo pueden agruparse en G grupos (g=1, 2, ..., G), cada uno de
los cuales se caracteriza por tener un distinto tipo de observaciones asociadas a la variable
explicativa, de tal manera que n1 sería el número de observaciones correspondientes al primer
grupo, n2 el número de observaciones asociadas al segundo grupo y, en general, nG es el
número de observaciones asociadas al grupo g-ésimo. A cada grupo le corresponde un valor
medio de la variable dependiente y una varianza para este valor medio.
El test contrasta si dicha varianza es igual o no entre los distintos grupos que se han construido
para la variable dependiente, admitiéndose la hipótesis de existencia de heteroscedasticidad si
la varianza es significativamente diferente entre los grupos formados.
Los pasos a seguir en la práctica para realizar el test de Bartlett son los siguientes:
2
1. Se estima la varianza ( sg ) de cada grupo de observaciones, g=1, 2, ..., G mediante la
siguiente expresión:
ng
∑( y
g =1
i − yg )2
s g2 =
ng
2. Se calcula el estadístico S:
G ng 2 G
n log ∑ ∑
s − n log sg2
g =1 n g g =1 g
S=
1 G
1 1
1+ ∑
−
3(G − 1) g =1 n g n
2
Bajo el supuesto de homocedasticidad, S se distribuye como una chi-cuadrado (χ ) con G–1
grados de libertad. Por lo tanto, se rechazará la hipótesis de igual varianza en todos los grupos
si S es mayor que el valor crítico de la distribución chi-cuadrado al nivel de significación
estadística fijado.
Contraste de Goldfeld-Quant
El contraste de Goldfeld-Quant se utiliza para contrastar la homocedasticidad cuando la forma
de la heteroscedasticidad no es conocida, aunque se intuye que la varianza guarda una
relación monótona –creciente o decreciente– respecto a alguna variable exógena (que
denominaremos variable z). La operativa de este test es la siguiente:
1. Ordenar todas las observaciones de las variables del modelo, de menor a mayor, en
función de la variable z.
4. Denominando SR1 y SR2 a las sumas de los cuadrados de los residuos de ambas
submuestras (de manera que el subíndice 1 corresponda a la submuestra con la menor
suma) se define el estadístico F:
SR1
F=
SR2
Contraste de White
El contraste de White se desarrolló también para evitar la necesidad de considerar una forma
específica para la heteroscedasticidad. El contraste se basa en que, bajo la hipótesis nula de
homocedasticidad, la matriz de varianzas y covarianzas de los estimadores MCO de β es:
σ 2 ( X ' X ) −1
Por ello, basta con contrastar la hipótesis nula de que todas estas diferencias son iguales a
cero, lo que equivale a contrastar que no hay heteroscedasticidad.
Los pasos a seguir para realizar el contraste de White son los siguientes:
eˆt2 =α +ϕ1X1 +...+ϕk Xk +η1X12 +...+ηk Xk2 +ω1X1X2 +...+ωk X1Xk +ν1X2 X3 +...+νk X2 Xk +...+ ρ1Xk−1Xk
2
3. Al aumentar el tamaño muestral, el producto nR (donde n es el número de
2
observaciones y R es el coeficiente de determinación de la última regresión) sigue una
distribución Chi-cuadrado con p – 1 grados de libertad, donde p es el número de
variables exógenas utilizadas en la segunda regresión. Se aceptará la hipótesis de
Corrección de la heteroscedasticidad
Los problemas de heteroscedasticidad se resuelven utilizando una técnica de estimación lineal
que recibe el nombre de Mínimos Cuadrados Generalizados (MCG). El uso de Mínimos
Cuadrados Generalizados equivale a redefinir las variables utilizadas en el modelo original de
regresión tal que todas ellas quedan divididas por la desviación típica de los residuos:
Yi X ji ei
Yi * = , X *ji = , j = 2,..., k , ei* =
σe σe σe
La transformación descrita del modelo original requiere del conocimiento previo de una
estimación de la varianza de los residuos. Si no se dispone de una estimación previa de dicha
varianza, ésta puede estimarse mediante la siguiente expresión:
∑ eˆ 2
t
σ MCG
2
= i =1
T −k
Autocorrelación
Contraste de Durbin-Watson
Si se sospecha que el término de error del modelo econométrico tiene una estructura como la
siguiente:
eˆt = ρ ·eˆt −1 + ut
∑ (eˆ − eˆ
i=2
i i −1 )
2
d= n
∑ eˆ
i =1
2
i
El valor del estadístico d oscila entre 0 y 4, siendo los valores cercanos a 2 los índicativos de
ausencia de autocorrelación de primer orden. La interpretación exacta del test resulta compleja,
ya que los valores críticos apropiados para contrastar la hipótesis nula de no autocorrelación
requieren del conocimiento de la distribución de probabilidad bajo el supuesto de cumplimiento
de dicha hipótesis nula, y dicha distribución depende a su vez de los valores de las variables
explicativas, por lo que habría que calcularla en cada aplicación. Para facilitar la interpretación
del test Durbin y Watson derivaron dos distribuciones: di y ds, que no dependen de las variables
explicativas y entre las cuales se encuentra la verdadera distribución de d, de forma que a
partir de un determinado nivel de significación, se adopta la siguiente regla de decisión:
Ejemplo 5.2.
En el siguiente ejercicio planteamos una regresión lineal entre el consumo de energía eléctrica
en España y el PIB a precios de mercado valorado en moneda constante (millones de euros).
Con los datos de la tabla anterior la estimación MCO entre el consumo de energía eléctrica y el
PIB sería la siguiente:
Yt=-6234.4+0.043Xt+εt
Estadísticas de la regresión
Coeficiente de correlación 0.9961969
múltiple 9
2
Coeficiente de determinación R 0.9924084
4
2
R ajustado 0.9918661
9
Error típico 233.80585
3
Observaciones 16
2
Como vemos las estadísticas de la regresión realizada son buenas, se obtiene un R muy
elevado, y los parámetros son estadísticamente significativos, ya que el valor teórico de la t-
Student es 2.51 al 95% de probabilidad.
600,0
500,0
400,0
300,0
200,0
100,0
0,0
-100,01986 1988 1990 1992 1994 1996 1998 2000 2002 2004
-200,0
-300,0
-400,0
2 2
Y* et et et-et-1 (et-et-1)
1987 8933 494.2 354817.8
1988 9705 170.5 373241.5 -323.6 104742.4
1989 10475 -65.2 391508.2 -235.7 55551.6
1990 11107 -133.3 406385.3 -68.2 4645.2
1991 11548 -176.3 416758.3 -43.0 1845.5
1992 11714 -225.9 420687.9 -49.6 2462.8
1993 11529 40.2 416085.8 266.1 70804.9
1994 11952 46.9 425994.1 6.8 45.6
1995 12453 8.5 437778.5 -38.4 1474.9
1996 12909 -81.9 448538.9 -90.5 8185.4
1997 13680 -348.7 466861.7 -266.8 71161.5
1998 14545 -255.1 487040.1 93.6 8769.2
1999 15423 -58.8 507404.8 196.3 38536.6
2000 16335 -25.9 528739.9 32.9 1079.7
2001 16977 305.4 543440.6 331.3 109776.4
2002 17451 305.3 554546.7 -0.1 0.0
Total 0.0 7179830.0 -188.8 479081.7
∑ (eˆ i − eˆi −1 ) 2
479,081.7
d= i =2
n
= = 0.0667
7,179,830.0
∑ eˆ
i =1
2
i
Los valores teóricos del estadístico para n=16 observaciones y k=1 variables explicativas, son
dD=0.98 y dU=1.24. Dado 0.0667 < 0.98 no podemos rechazar la hipótesis de la existencia de
autocorrelación positiva.
6.1.- Introducción.
Pasamos a continuación a generalizar el modelo anterior al caso de un modelo con varias
variables exógenas, de tal forma que se trata de determinar la relación que existe entre la
variable endógena Y y variables exógenas, X1 ,X2,…, Xk. Dicho modelo se puede formular
matricialmente de la siguiente manera:
Y = X ·β + e = β 1 X 1t + β 2 X 2 t + ... + β k X kt + et , i=1,2, …, n
donde:
Y1
Y2
Y = es el vector de observaciones de la variable endógena
...
Yn
X11 X12 ... X1k
X X 22 ... X 2k
X = 21 = [X1 X2 ... Xk ] es la matriz de observaciones de las variables
... ... ... ...
X n1 X n2 ... X nk
exógenas
β1
β
β = 2 es el vector de coeficientes que pretendemos estimar
...
βK
e1
e2
e = es el vector de términos de error
...
en
Si en la expresión anterior se considerara que existe término independiente, α, la matriz X
quedaría como:
1 X 12 ... X 1k
= [1 X 2 Xk ]
1 X 22 ... X 2 k
X = X 3 ...
... ... ... ...
1 X n2 ... X nk
Yi = α + β1 X i1 + β 2 X i 2 + ... + β k X ik + ui i=1,2,..., n
Suponiendo que se verifican las hipótesis que veíamos antes, el problema a resolver
nuevamente es la minimización de la suma de los cuadrados de los términos de error tal que:
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01
X ' X ·β = X ' Y
en donde basta con despejar β premultiplicando ambos miembros por la inversa de la matriz
( X ' X ) para obtener la estimación de los parámetros del modelo tal que:
βˆ = ( X ' X ) −1 X ' Y
donde:
n 2 n n
n
i =1
∑X i1 ∑X
i =1
i1 X i 2 ... ∑X
i =1
i1 X ik
∑
i =1
X i1Y i
n n n n
i =1
∑
X ' X = X i 2 X i1 ∑X
i =1
2
i2 ... ∑
i =1
X i 2 X ik
X `Y = ∑
i =1
X i 2 Y i
..... ..... ... ..... ....
n n n n
∑
X ik X i1 ∑X ik X i2 ... ∑ 2
X ik ∑ X ik Y i
i =1 i =1 i =1 i =1
n n
n
n
∑i =1
X i1 ... ∑
i =1
X ik
i =1
∑ Yi
n n n n
X ' X = X i1
i =1
∑ ∑X
i =1
2
i1 ... ∑
i =1
X i1 X ik
X `Y = ∑
i =1
X i 1Y i
..... ..... ... ..... ....
n n n n
X ik∑ ∑X ik X i2 ... ∑ X ik2 ∑
X ik Yi
i =1 i =1 i =1 i =1
−1
n 2 n n
n
i =1
X i1 ∑ ∑X i =1
i1 X i 2 ... ∑
i =1
∑
X i1 X ik X i1Yi
i =1 βˆ
n n n n 1
β = ( X ' X ) X ' Y = X i 2 X i1
ˆ −1
i =1
∑ ∑X i =1
2
i2 ... ∑
i =1
∑
X i 2 X ik ⋅ X i 2Yi = βˆ2
i =1 ...
..... ..... ... ..... ....
n n n n βˆk
X ik X i1 ∑ ∑X ik X i2 ... ∑ 2
∑
X ik X ik Yi
i =1 i =1 i =1 i =1
Cada uno de los coeficientes estimados, βˆi , son una estimación insesgada del verdadero
parámetro del modelo y representa la variación que experimenta la variable dependiente Y
Ejemplo 6.1.
Tabla 6.1.
Viajeros, pernoctaciones y estancia media. Año 2003
Datos por comunidades autónomas y provincias
Empleo (en Número de viajeros Estancia
miles) (miles) media
Andalucía 28,4 11.902,5 3,1
Aragón 3,6 1.848,0 2,1
Asturias (Principado de) 2,4 1.088,2 2,3
Balears (Illes) 25,9 6.716,0 7,2
Canarias 27,2 4.875,7 7,8
Cantabria 2,0 933,8 2,4
Castilla y León 6,2 3.647,6 1,7
Castilla-La Mancha 2,8 1.805,1 1,7
Cataluña 23,5 10.771,7 3,4
Comunidad Valenciana 13,4 5.579,7 3,9
Extremadura 2,2 1.000,7 1,7
Galicia * 6,3 3.040,5 2,1
Madrid (Comunidad de) 10,7 5.748,9 2,1
Murcia (Región de) 2,0 882,5 3,0
Navarra (Comunidad Foral
de) 1,1 557,7 2,0
País Vasco 3,2 1.540,6 1,9
Rioja (La) 0,7 446,2 1,8
161,8 62.385,5 50,3
Fuente:INE.
En consecuencia:
− 5,702
βˆ = ( X ' X ) X ' Y = 0,002
−1
2,672
donde βˆ1 = 0,002 indica el efecto, sobre el grado de ocupación hotelera, de las variaciones
unitarias del número medio de turistas y βˆ 2 = 2,67 mide la variación que se produciría en el
grado de ocupación hotelera si la estancia media aumentara en una unidad. En consecuencia
un aumento de las estancias medias de los turistas en Cantabria de 2,4 días a 3 día significaría
un aumento del empleo del sector en 1.607 personas.
βˆ = ( X ' X ) −1 X ' Y
la matriz ( X ' X ) no será invertible por lo que resultará imposible hallar la estimación de los
parámetros del modelo y la varianza de los mismos. Esto es lo que se conoce por el nombre de
multicolinealidad exacta.
Sin embargo, en la práctica no nos encontraremos con un caso tan extremo como el que
acabamos de exponer, sino que generalmente nos encontraremos ante multicolinealidad
aproximada, siendo una de las columnas de la matriz ( X ' X ) , aproximadamente, una
combinación lineal del resto por lo que será una matriz aproximadamente singular. Al no ser el
determinante de ( X ' X ) igual a cero, existirá inversa y podrán estimarse los parámetros pero
con las siguientes consecuencias:
Por otro lado, la matriz de covarianzas del estimador MCO, S βˆβˆ = S e2 ( X ' X ) , al
−1
−
ser un múltiplo de ( X ' X ) −1 , será muy grande por ser el determinante de ( X ' X )
− Una posibilidad, sugerida por Johnston (1984) consiste en excluir aquella variable
exógena que puede estar muy correlacionada con el resto y posteriormente estimar el
coeficiente asociado a dicha variable mediante otro procedimiento para incluirlo en el
modelo.
Errores de medida
Cuando hablamos de errores en las variables nos referimos a los errores de medición de las
mismas. Como el alumno ya debería conocer, al medir las relaciones existentes en Economía
recurrimos a variables obtenidas, la mayoría de las veces por medio de estimaciones
muestrales, esto es, a través de un muestreo representativo de las unidades que las generan
(consumo interior de un país, producción, etc.) o derivadas de éstas (Producto Interior Bruto,
etc.). Estas estimaciones de las variables macroeconómicas van asociadas a un error de
muestreo. Las variables cuantificadas a través de muestreos representativos, no sólo se dan al
trabajar con macromagnitudes, encontrándoselas también el investigador en todas las
disciplinas (Marketing, Contabilidad, etc.)
Es importante, por tanto, que al efectuar cualquier tipo de investigación y análisis, se conozca
la fuente y origen de los datos, así como sus características básicas (error de muestreo, nivel
de confianza, tipo de muestreo, tamaños muestrales, universo de referencia, influencia o sesgo
de la no respuesta, etc.).
El hecho de que los errores en las variables a medir existan, ha producido una controversia a lo
largo del tiempo entre los económetras, existiendo partidarios de su tratamiento así como
partidarios de no tenerlos en cuenta.
A estos errores se les propuso como los causantes de las discrepancias en los valores
observados y la regresión, fundamentándose en la diferencia existente entre las variables
teóricas y las variables empíricas.
En estos casos se utiliza la definición de variable latente, como la variable real, que no siempre
coincidirá con la variable empírica u observada. La variable latente se describe como la
variable observada más el término de error.
Llevado el problema a un modelo concreto, se puede observar como sustituyendo las variables
a analizar (siempre se supone que se desea trabajar con variables reales “latentes”) por las
variables observadas más el error de medida, se llega al problema descrito.
• Variables ficticias o dummy: estas variables toman únicamente (en principio) dos
valores arbitrarios según se de o no cierta cualidad en un fenómeno. Habitualmente a
la variable ficticia se le asigna el valor 1 si ocurre un determinado fenómeno y 0 en
caso contrario. Estas variables, a su vez, pueden ser de dos tipos:
1 si t ≤ T1 0 si t ≤ T1
D1t = D 2 t = (1 − D 2 t ) =
0 si t > T1 1 si t > T1
1 0
. .
. .
1 0
D1 = D 2 =
0 1
. .
. .
0 1
D1 tienen tantos 1 como observaciones hay hasta T1 y D2 tiene tantos 1 como observaciones
hay entre T1 y T.
Analizar el efecto del suceso extraordinario sobre la regresión, puede realizarse de forma
separada para cada periodo de 1 a T1 y T1 a T o conjuntamente para todo el periodo, bien
sobre el termino constante B1 o sobre la pendiente B2.
Para el análisis del término constante tendremos que plantear los siguientes modelos de
regresión:
Yt=β1+α1D1t+β2Xt+εt (2)
Yt=β1+α2D2t+β2Xt+εt (3)
Yt=α1D1t+α2D2t +β2Xt+εt (4)
En este caso :
Para el análisis del término constante tendremos que plantear los siguientes modelos de
regresión:
En cuyo caso:
Las variables dummy también pueden ser utilizadas para modelizar variables definidas por su
pertenencia o no a un grupo. Supongamos ahora que estamos modelizando la relación que
existe entre la renta disponible y las primas de seguro contratadas por un grupo “N” de
individuos, a partir de datos del importe de las primas de seguro contratadas por cada individuo
Yi, y la renta o los ingresos que declara cada uno de ellos Ri:
De este grupo de individuos conocemos algunas otras características que pueden ser
transcendentes a la hora de nuestro análisis, por ejemplo el nivel de estudios. En concreto
disponemos de información sobre el nivel de estudios que han completado: sin estudios,
primarios, secundarios o universitarios. Utilizando dicha información creamos las siguientes
variables dummy:
Si por ejemplo la muestra de individuos que tenemos es de 10 (N=10), de los cuales tres de
ello tienen estudios universitarios, las variables dummy tendrían la siguiente estructura:
Al igual que en el ejemplo anterior el investigador puede estar interesado en analizar el efecto
que tiene el nivel de formación en el gasto en primas de seguros de los diferentes individuos. Al
igual que en el ejemplo anterior podemos contrastar el efecto que tiene el nivel de estudios en
el termino independiente (α), o en el coeficiente (β) que relaciona el nivel de renta con el
importe pagado en primas.
El planteamiento del problema para el análisis del término constante sería entonces:
Yi=β1+α1D1i+β2Ri+εi (9)
Yi=β1+α2D2i+β2Ri+εi (10)
Yi=α1D1i+α2D2i +β2Ri+εi (11)
En este caso:
Para el análisis de la pendiente tendremos que plantear los siguientes modelos de regresión:
Las variables dummy para ajuste estacional son variables artificiales que asumen valores
discretos, generalmente de 0 y 1. Estas fueron originalmente aplicadas por Lovell a inicios de
los años 60 y sirven para "explicar" la estacionalidad en las series de tiempo, la cual, como se
señalo en el apartado 6.3, es un patrón de comportamiento regular de una serie a lo largo de
cada año, que puede obedecer a factores tales como costumbres, días festivos decretados,
vacaciones de verano, época de navidad y otros factores similares que ocasionan incrementos
o disminuciones en las magnitudes de ciertas variables, como por ejemplo la producción, las
ventas, etc.
Si se trabaja con datos trimestrales, cabría pensar en utilizar una variables artificial para cada
trimestre, que definidas como: q1, q2, q3 y q4; su representación matricial para dos años
cualesquiera sería:
1 0 0 0 1 x1
0 1 0 0 1 x 2
0 0 1 0 1 x3
0 0 0 1 1 x4
X = 1 0 0 0 1 x5
0 1 0 0 1 x6
0 0 1 0 1 x7
0 0 0 1 1 x8
. . . . 1 .
No obstante hay que tener presente que las columnas correspondientes a las variables
estacionales darían lugar a una combinación lineal exacta con la constante, lo cual produciría
que el determinante de la matriz X'X fuera igual a cero y, por tanto, singular (no invertible), lo
que impide estimar los coeficientes del modelo de regresión.
Para evitar este inconveniente se utilizan únicamente tres de las cuatro variables dummy y por
supuesto la constante. Así, si se excluye la variable q4 en la matriz X, el efecto estadístico de la
variable omitida estaría implícitamente recogido con la columna de la constante. En definitiva,
la matriz de variables exógenas estaría determinada por las tres dummy: q1, q2, q3 y la
constante, y las variables exógenas cuantitativas con lo cual la matriz sería:
S1 = q1 - q4
S2 = q2 - q4
S3 = q3 - q4
1 0 0 1 x1
0 1 0 1 x 2
0 0 1 1 x3
− 1 − 1 − 1 1 x4
X =1 0 0 1 x5
0 1 0 1 x6
0 0 1 1 x7
− 1 − 1 − 1 1 x8
. .
. . 1
Como se observa en la matriz anterior, los vectores de las variables dummy estacionales han
sido definidos de forma tal que su suma sea cero en cada año, por lo que este sistema permite
que el efecto estacional se anule en el año y que se obvie el problema de singularidad de la
matriz.
A manera de ejemplo, considérese un modelo de regresión con cifras trimestrales, en donde la
variable Y depende de la variable X y en el que se incorporan tres variables dummy
trimestrales (Si, para todo i = 1, 2, 3) y un término de error ( ). Este modelo estaría
representado de la siguiente manera:
La estimación se llevaría a cabo con las tres variables dummy trimestrales S1, S2 y S3. Los
coeficientes de las tres variables dummy identifican las diferencias con respecto al cuarto
trimestre.
No obstante hay que tener presente que el uso de las variables estacionales presenta
problemas cuando la estacionalidad de la serie Y es móvil, es decir, cuando varía año con año.
En este caso, es difícil que modelos de este tipo capturen de una forma adecuada la
estacionalidad de la variable dependiente.
Ejemplo 6.2.
Se disponen de datos trimestrales correspondientes a los ejercicios 1996-2003, relativos al
consumo de electricidad en GWh en España (Yt) y al PIB a precios de mercado en millones de
euros constantes de 1995.
Tabla 7.2
Demanda de Electricidad PIB (millones de
Año Q
(GWh) euros)
1996 1 40919 109275
2 37275 111875
3 38070 111211
4 39981 116096
1997 1 40246 113396
2 39070 115566
3 40464 115744
4 42602 121807
1998 1 43263 118399
2 41535 120735
3 43273 121472
4 45010 126179
1999 1 46551 122424
2 43735 126471
3 45908 126474
4 48160 131977
2000 1 49922 129443
2 46861 133021
3 48208 130743
4 50020 135507
2001 1 52029 134079
2 49314 135900
3 50887 134475
4 53405 139292
2002 1 53928 136892
2 51523 138746
3 51950 137060
4 53762 142154
2003 1 57156 140080
2 53231 141861
3 56516 140207
4 56990 146163
Fuente: Ministerio de Economía
60.000
55.000
50.000
45.000
40.000
35.000
30.000
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
1996 1997 1998 1999 2000 2001 2002 2003
Los trimestres de mayor consumo son los terceros y cuartos (otoño e invierno) y los de menor,
el segundo y tercero (primavera y verano).
Para evitar la multicolinealidad estimamos con las cualitativas de los tres primeros trimestres:
Estadísticas de la regresión
Coeficiente de correlación 0.9908421
múltiple 7
0.9817682
2
Coeficiente de determinación R 1
0.9790672
2
R ajustado 1
854.45583
Error típico 1
Observaciones 32
Coeficiente Estadístico
s Error típico t
Intercepció - -
n 24705.2227 1999.20037 12.3575521
PIB 0.55474441 0.01492667 37.1646554
Q1 3087.18799 439.461556 7.024933
- -
Q2 996.097068 432.19015 2.30476578
Q3 1066.19716 434.284718 2.45506488
De acuerdo con la expresión (1) el hecho de que la variable endógena tome valores discretos
(1 ó 0), el término de perturbación εi, únicamente puede tomar dos valores:
Dado que la esperanza del término de error ha de ser nula E(εi)=0, entonces se demuestra que
p= 1-β1-β2Xi y (1-p) = β1+β2Xi , lo que permite evaluar la probabilidad de que la variable
endógena tome el valor correspondiente:
Una problemática inherente a los estimadores MCO de estos modelos, son los siguientes:
− El mayor problema que plantean estos modelos es no obstante que las predicciones
realizadas sobre la variable endógena no siempre se encuentran en el intervalo [0,1],
ya que pueden ser mayores que cero y menores que 1. Este problema tiene dos
soluciones, una es tomar como valor 0 todas las estimaciones de la variable
endógena con valores negativos, y 1 cuando estas resulten mayores que 1. La
segunda, solución es utilizar funciones de distribución que estén acotadas entre cero y
uno. Según sea esta distribución tendremos las distintas versiones de los modelos con
variable dependiente dicotómica. Las más utilizadas son los modelos Probit y Logit.
7.1. Introducción
El número índice es un valor expresado como porcentaje de una cifra que se toma como
unidad base. Por ejemplo, cuando decimos que el índice de precios de consumo (base media
de 1992=100) correspondiente al mes de diciembre de 1997 es 122,9, estamos señalando que
los precios en diciembre de 1997 eran un 22,9 más elevados que los que estaban en vigor a lo
largo de 1992.
Los números índices no tienen unidades y pueden referirse tanto a precios (índice de precios
de consumo, índice de precios percibidos por los agricultores, índice de precios industriales)
como a cantidades (índice de producción industrial).
El número índice es un recurso estadístico para medir diferencias entre grupos de datos.
Un número índice se puede construir de muchas formas distintas. La forma de cada
índice en particular dependerá del uso que se le quiera dar.
Los números índices se elaboran tanto con precios (p) como con cantidades (q). El año en que
se inicia el cálculo de un número índice se denomina año base y se nombran por p0 o q0 según
tratemos de precios o de cantidades, a los precios o las cantidades de los años sucesivos los
indicamos por pt o qt . Si trabajamos con diferentes tipos de mercancías utilizamos los
subíndices (i) para referirnos a un tipo de mercancía, de modo que utilizamos los símbolos pit o
qit para señalar el precio o la cantidad de la mercancía i en el período t. Si hubiese N
mercancías el valor total de la cesta de productos durante el periodo t se expresa :
N
Valor total durante el periodo t = ∑ pit qit
i =1
A la hora de elaborar un número índice hay que tener presente una serie de propiedades que el
índice debe de cumplir. Dichas propiedades son:
b) Identidad: Si se hacen coincidir el período base y el período actual el valor del índice tiene
que ser igual a la unidad (o 100 si se elabora en porcentajes).
c) Inversión: El valor del índice ha de ser invertible al intercambiar los períodos entre sí. Es
1
decir : I to = el índice del año o calculado con la base del año t, ha de ser igual al inverso
I ot
del índice del año t calculado en base del año o.
Considerado un período determinado (por ejemplo, enero de 1990) como período base del
índice, se elabora el índice simple a partir de la razón de precios (precios relativos) o
cantidades (cantidades relativas) respecto al valor de aquéllos en el período base multiplicados
por 100:
xit
Iit = 100
xio
xi ( t +1)
Ii ( t + 1) = 100
xio
Al comparar los números índice Iit e Ii(t+1) se ve el incremento del precio de dicho producto en
cuestión. Los índices simples pueden agregarse de diferentes formas, a dichas
agregaciones se les conoce como índices complejos. Si suponemos que tenemos “N”
diferentes productos, obtendríamos operando los siguientes índices complejos:
a) índice media aritmética de índices simples cuando operamos del siguiente modo :
I1 + I 2 +...+ I N
∑
i =1
Ii
I= =
N N
b) índice media geométrica de índices simples cuando operamos del siguiente modo :
N
I = N I1 . I 2 .... I N = N ∏ I i
i =1
c) índice media armónica de índices simples cuando operamos del siguiente modo :
N N
I= = N
1 1 1 1
+ +...+
I1 I 2 IN ∑I
i =1 i
d) índice media agregativa de índices simples cuando operamos del siguiente modo :
x + x 2t + ... + x Nt ∑x it
I = it = i =1
x1o + x 2 o + ... + x No N
∑x
i =1
io
Una ponderación wi es un valor de referencia para cada producto que determina su importancia
relativa en el índice total. Al ser el ponderador un valor relativo lo normal es que se presente
calculado en tanto por uno, por ciento ó por mil, expresando así el porcentaje que representa
dicho producto en la cesta de productos que cubre el índice:
pi 0 qi 0
Wi = n
∑p q i0 i0
Una vez obtenidos los ponderadores (wi) se calculan el índice media aritmética ponderada de
índices simples cuando operamos del siguiente modo :
I w + I w +...+ I N wN ∑ I .w
i =1
i i
I= 1 1 2 2 =
w1 + w2 +...+ wN N
∑w
i =1
i
Ejemplo 7.1.
En la tabla 7.1 aparece la información que disponemos sobre una cesta de productos:
2000 2001 2002
Productos Precio venta Unidades Precio venta Unidades Precio venta Unidades
M1 1 3000 1,2 4000 1,4 5500
M2 1,5 4000 1,5 3000 1,6 4500
M3 2 2500 2 2500 2,4 2000
M4 4 2000 4,5 1500 4,5 2000
El ponderador sería tanto por uno el valor del producto, es decir el precio por la cantidad
vendida, en el total vendido:
a) Índice de Laspeyres
El índice de Laspeyres es una media aritmética ponderada de índices simples, cuyo criterio de
ponderación es wi=pio.qio. La fórmula que define el índice de Laspeyres es la siguiente:
N N
∑I w ∑p i i it qio
i =1 i =1
Lp = N
= N
∑I
i =1
i ∑p
i=1
io qio
Se suele utilizar este índice a la hora de elaborar los índices de precios por cuestiones
prácticas ya que únicamente requiere investigar en el año base el valor de los ponderadores,
que es la parte mas costosa de la elaboración del índice, (téngase en cuenta que en el IPC se
realiza una encuesta de presupuestos familiares en los años base que requiere una muestra de
20.000 hogares). Una vez determinados los ponderadores el índice de Laspeyres únicamente
requiere que se investigue en los sucesivos períodos la evolución de los precios.
b) Índice de Paasche
También es una media aritmética ponderada de los índices simples, pero utilizando como
coeficiente ponderador wi=pio.qit; por tanto su definición queda como:
N N
∑ I i wi ∑p it qit
i =1 i =1
Pp = N
= N
∑I
i =1
i ∑p
i=1
io qit
La diferencia entre el índice Paasche y el índice Laspeyres es que exige calcular las
ponderaciones para cada periodo corriente “t”, haciendo su cálculo estadístico más laborioso, y
presentando el inconveniente de que sólo permite comparar la evolución del precio de cada
año con el año base, dado que las ponderaciones varían de período en período. Ambas
razones han determinado que este índice sea más inusual que el anterior.
c) Índice de Fisher.
Como los índices de precios de consideran un año determinado para calcular el ponderador
bien sea a partir de q0 .p0 , o de qt .p0, utilizan la denominación de año base para referirse al
año “0” a partir del que se calcula el ponderador wi.
La decisión que tomó el INE de realizar un nuevo IPC con la estructura de consumo resultante
de la Encuesta de Presupuestos Familiares de 1992 es lo que provoca el Cambio de Base del
IPC. Al ser los ponderadores distintos los utilizados entre 1983 y 1991 y los actuales, los
índices de precios son esencialmente distintos, y por lo tanto no se pueden comparar a priori
entre sí. El procedimiento a través del cual hacemos comparables números índices obtenidos
con bases distintas es lo que se denomina Enlace. El enlace de índices se basa en la
propiedad de inversión de los números índices.
Supongamos que queremos efectuar un cambio de base desde un índice construido con base
1992, a otro en base 2001.
t t
Sea I 92 el índice construido en base 1992 e I 01 el índice construido con la base 2001, entonces:
t 01 t
I .I I
t
I 01 = 91
01
01
= 92
01
I 92 I 92
01
I 01
I 9201
En el caso del IPC español el INE publica el valor del cociente que denomina coeficiente
I 0101
legal de enlace. El valor del coeficiente legal de enlace el la serie del IPC base 2001 y el
construido con la base 1992 para España y Cantabria, figuran en la tabla siguiente:
Tabla nº 7.2
Indice de Precios de Consumo. Base 2001. Coeficientes de Enlace
IPC. Base 2001. Coeficientes de Enlace.
Comunidades Autónomas. Grupos COICOP
Nacional Cantabria
General. Base 2001 0,740268 0,746689
Alimentos Y Bebidas No Alcohólicas 0,780515 0,769814
Bebidas Alcohólicas Y Tabaco 0,546851 0,528061
Vestido Y Calzado 0,843242 0,858994
Vivienda 0,701667 0,726533
Menaje 0,780330 0,859012
Las series enlazadas se calculan multiplicando cada uno de los índices en base 92 por este
coeficiente.
No obstante, hay que tener presente que estos coeficientes mantienen las tasas de variación
publicadas hasta diciembre de 2001 de los índices en base 1992 pero no permiten calcular
tasas de variación entre periodos de distintas bases, ya que no solucionan la ruptura
ocasionada por la inclusión de los precios rebajados.
Por lo tanto, las tasas de variación entre periodos de distintas bases obtenidas mediante los
índices en base 1992 enlazados con el coeficiente de enlace legal y los índices en base 2001
no estarían bien calculadas.
Ejemplo 7.2
En la Tabla nº 7.3 tenemos una tabla con las series 1996-2001 del Índice de Precios Percibidos
por la Agricultores en España del producto Leche, base 1995; y la serie 2000-2006 de dicho
índice en base 2000. El enlace de la serie 1996-2011 a la base 2000 se realiza conforme a la
regla antes expuesta:
Tabla nº 7.3
Indice de precios percibidos por los agricultores en España. Precio de la leche.
En la práctica, para pasar de una serie en pesetas corrientes a pesetas constantes se realiza
dividiendo la primera por un índice de precios adecuado. Este procedimiento recibe el nombre
de deflactación y al índice de precios elegido se le denomina deflactor.
No obstante, hay que señalar que, cuando utilizamos como deflactor un índice de Laspeyres:
No pasamos exactamente valores corrientes a constante, cosa que si ocurre con el Indice de
Paasche cuando es utilizado como del
vt Σpit . qit
= = Σpio. qio
lp Σpit . qit
Σpio . qit
Tabla nº 7.2
Coste
Coste salarial en
salarial euros del
Año Trimestre ordinario IPC 2006
2002 1 1105,61 87,04 1270,30
2002 2 1163,12 88,84 1309,25
2002 3 1197,78 88,80 1348,92
2002 4 1203,04 90,16 1334,33
2003 1 1180,87 90,05 1311,40
2003 2 1216,98 91,06 1336,41
2003 3 1200,49 90,96 1319,81
2003 4 1226,42 92,44 1326,78
2004 1 1215,01 91,77 1323,91
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01
Fuente : ICANE.
El IPC es una medida estadística de la evolución del conjunto de precios de los bienes y servicios
que consume la población residente en viviendas familiares en España.
El consumo se define en el IPC a través de todos los gastos que los hogares dedican al consumo;
se excluyen, por tanto, las inversiones que realizan los hogares. Además, sólo se tienen en cuenta
los gastos reales que realiza la población, lo que implica la exclusión de cualquier operación de
gasto imputada (autoconsumo, autosuministro, alquiler imputado, salario en especie o consumos
subvencionados, como los sanitarios o educacionales).
La cesta de la compra para elaborar el IPC se obtenía de una encuesta de gastos de consumo de
los hogares.
Tradicionalmente, el IPC cambiaba de base cada ocho o nueve años; esto era así porque la fuente
utilizada para la elaboración de las ponderaciones y de la cesta de la compra era la Encuesta
Básica de Presupuestos Familiares (EBPF), cuya periodicidad marcaba la de los cambios de base
del IPC. De hecho hasta 1997 convivían dos encuestas de presupuestos familiares: una continua,
con periodicidad trimestral, y una básica, que se realizaba cada ocho o nueve años. A partir de ese
año ambas encuestas fueron sustituidas por una sola, cuya periodicidad es trimestral y la
información que proporciona está más cercana a la encuesta básica, en cuanto al nivel de
desagregación. Esta nueva encuesta, denominada Encuesta Continua de Presupuestos
Familiares (ECPF), proporciona la información necesaria para realizar un cambio de sistema del
IPC, la actualización de las ponderaciones así como la renovación de la composición de la cesta
de la compra. Pero, además, posibilita la actualización permanente de dichas ponderaciones así
como la revisión de la cesta de la compra.
Para calcular el IPC en las bases anteriores al 2001 correspondiente al período t se utiliza el índice
de Laspeyres. La ponderación de un artículo (wi=pio.qio) representa la proporción del gasto
efectuado en ese artículo respecto al gasto total efectuado por los hogares. La estructura de
ponderaciones permanecía fija durante el período de vigencia del Sistema de Índices de Precios
de Consumo.
La nueva fórmula de cálculo del IPC Base 2001 se denomina Laspeyres encadenado, el período
de referencia de los precios varía cada año. Durante el año 2002 coincide con el año base y para
El número total de artículos que componen la cesta de la compra del IPC base 2001 es 484. La
estructura funcional del IPC consta de 12 grupos, 37 subgrupos, 80 clases y 117 subclases.
También, a diferencia de las bases anteriores, los precios medios utilizados en el cálculo del índice
se obtienen a partir de medias geométricas. La entrada en vigor del Sistema 2001 supuso también
una ruptura en las series de índices debido a la inclusión de los precios rebajados. Esta ruptura
afecta al cálculo de las tasas de variación cuando los índices de los períodos de tiempo
seleccionados están medidos en bases diferentes; cuando esto ocurre, la fórmula general para
calcular las tasas de variación debe ser modificada.
El IPC que elabora el INE se armoniza a escala europea en el IPCA, este es un indicador
estadístico cuyo objetivo es proporcionar una medida común de la inflación que permita realizar
comparaciones internacionales y examinar, así, el cumplimiento que en esta materia exige el
Tratado de Maastricht para la entrada en la Unión Monetaria Europea.
La base legal del proceso de armonización del IPC es el Reglamento del Consejo nº 2494/95 de
23 de octubre de 1995 que establece las directrices para la obtención de índices comparables, así
como un calendario de obligado cumplimiento para todos los países de la Unión Europea.
La principal diferencia entre el IPC y el IPCA es que este excluye los Servicios médicos y la
Enseñanza reglada. Diferencias menores se dan en la ponderación de los Seguros, para los que
sólo se consideran los gastos ligados a las primas netas, los Automóviles, de los cuales se elimina
los gastos correspondientes a ventas entre consumidores, o los Medicamentos y productos
farmacéuticos, que sólo incluyen los no subvencionados.
El IPCA está formado por doce grandes grupos. Para definir estos grupos se ha utilizado la
COICOP.
El IPRI es un indicador coyuntural que mide la evolución mensual de los precios de los productos
industriales fabricados y vendidos en el mercado interior, en el primer paso de su comercialización,
es decir, mide la producción a precios de venta a salida de fábrica obtenidos por los
establecimientos industriales en las transacciones que estos efectúan, excluyendo los gastos de
transporte y comercialización y el IVA facturado.
Se elabora a partir de una encuesta de periodicidad mensual, que investiga más de 8.000
establecimientos industriales. La cobertura del índice se extiende a todos los sectores industriales
excluida la construcción.
El IPRI investiga los precios de las ramas de actividad industriales al nivel de 4 dígitos de la CNAE
(subgrupos). Cada una de estas ramas de actividad aparece representada por una cesta de
productos. Estos productos, a su vez, se desagregan en variedades (desagregación de productos
con características físicas suficientemente homogéneas) y subvariedades (modelos concretos de
una variedad que fabrica un establecimiento determinado). En total se seleccionan 1.500
variedades y alrededor de 26.000 datos elementales o datos primarios de precios.
En el nuevo sistema del índice de precios industriales se ofrece información para las distintas
Comunidades Autónomas.
El Índice de Coste de la Construcción tiene como base el año 1990. Es un índice de Laspeyres
que aplica la estructura de ponderaciones de “materiales y consumos diversos" obtenida a partir
de la Encuesta de Estructura de la Construcción a la evolución de los precios industriales del IPRI,
base 1990. El Índice de Coste a la Construcción se desagrega en tres índices de precios de los
consumos de construcción según la tipología de las obras.
El Ministerio de Agricultura y Pesca elabora desde 1953 la estadística Índice de Precios Percibidos
por el agricultor, que con periodicidad mensual suministra información sobre los precios medios
nacionales de los productos agrarios, e índices de precios agregados para la totalidad de los
productos agrarios y para los grupos más significativos.
Los índices de precios agregados son índices de Laspeyres que necesitan de ponderadores
referidos a un año base para formar los números índices compuestos de diferentes
especificaciones de productos. La base actual con la que se elabora el índice es la de 1990, otros
cambios de base tuvieron lugar en 1965, 1976 y 1985.
En definitiva, para cada año base se confecciona una matriz en donde figuran las cantidades
comercializadas en el período base en cada área territorial (provincia) y mes, que tiene en cuenta
la estacionalidad de la producción y la diversidad agronómica de las áreas. De dicha matriz se
obtiene el calendario de precios que es investigado mes a mes por las unidades provinciales.
El precio percibido se define como el precio de mercado, sin incluir gastos de transporte,
adecuación del producto, impuestos indirectos o tasas. En conjunto se investigan 5555 precios en
el conjunto de las áreas, lo que da lugar a XX especificaciones de productos.
El Indice de Precios Hoteleros (IPH) es una medida estadística de la evolución mensual del
conjunto de las principales tarifas de precios que los empresarios aplican a sus clientes.
M tST M t0 Bt0
donde y , I t
sT
= y wt = 5
M t0
∑ M t0 Bt0
t =1
que representa el porcentaje de ingresos percibidos por los hoteleros por las habitaciones
ocupadas en una tarifa concreta sobre los ingresos obtenidos por el total de tarifas; y siendo,
sT
Mt : precio de la habitación doble con baño (sin incluir IVA ni desayuno) en la tarifa t, en el mes
0
s del año T. Bt : número total de habitaciones ocupadas a las que se les aplicó la tarifa t en el
año base.
0
Mt : precio medio, en el año base 2001, de la habitación doble con baño (sin incluir IVA ni
desayuno) en la tarifa t.
En la encuesta se solicita a los hoteleros que indiquen el porcentaje de aplicación de cada una
de las tarifas sobre el total de habitaciones ocupadas. De ahí se extrae la información para
calcular el total de habitaciones ocupadas en cada tarifa para todos los meses del año base. La
0
suma de esa variable a lo largo de los doce meses del año 2001 (Bt ) es la que se utiliza en el
cálculo de las ponderaciones (W t).
Las ponderaciones se calculan a nivel de provincia, categoría del establecimiento y tarifa, y
posteriormente se agregan por tarifas, categorías o comunidades autónomas según el índice
agregado que se quiera obtener. Dichas ponderaciones permanecen fijas hasta que se
actualiza la base, lo cual está previsto realizar anualmente
Los trabajadores objeto de encuesta son todos los trabajadores asociados a la cuenta de
cotización por los que haya existido obligación de cotizar durante al menos un día en el mes de
referencia.
A efectos del cálculo del coste laboral por trabajador, aquellos que han estado de alta en la
cuenta de cotización durante un periodo de tiempo inferior al mes se contabilizan como la parte
proporcional al tiempo que han estado de alta en dicha cuenta.
Para los resultados obtenidos de coste salarial y jornada laboral, los trabajadores se clasifican
según su tipo de jornada en trabajadores a tiempo completo y a tiempo parcial. Se consideran
trabajadores a tiempo completo aquellos que realizan la jornada habitual de la empresa en la
actividad de que se trate. Son trabajadores a tiempo parcial, y así debe quedar reflejado en su
contrato, aquellos que realicen una jornada inferior a la jornada considerada como habitual de
la empresa en la actividad de que se trate o, en caso de no existir ésta, inferior a la máxima
legal establecida.
En la encuesta se define como el coste total en que incurre el empleador por la utilización de
factor trabajo. Incluye el Coste Salarial más los Otros Costes. El coste salarial comprende todas
las remuneraciones, tanto en metálico como en especie, realizadas a los trabajadores por la
prestación profesional de sus servicios laborales por cuenta ajena, ya retribuyan el trabajo
efectivo, cualquiera que sea la forma de remuneración, o los periodos de descanso
computables como de trabajo. El Coste Salarial incluye por tanto el salario base, complementos
salariales, pagos por horas extraordinarias, pagos extraordinarios y pagos atrasados.
Los Otros Costes incluyen las Percepciones no Salariales (las retribuciones percibidas por el
trabajador no por el desarrollo de su actividad laboral sino como compensación de gastos
ocasionados por la ejecución del trabajo o para cubrir necesidades o situaciones de inactividad
no imputables al trabajador) y las Cotizaciones Obligatorias a la Seguridad Social.
La Jornada Laboral se define como el número de horas que cada trabajador dedica a
desempeñar su actividad laboral. Se distinguen los siguientes conceptos:
- Horas pactadas: Son las horas legalmente establecidas por acuerdo verbal,
contrato individual o convenio colectivo entre el trabajador y la empresa.
- Horas efectivas: Son las horas realmente trabajadas tanto en periodos normales de
trabajo como en jornada extraordinaria, incluyendo las horas perdidas en lugar de
trabajo, que tienen la consideración de tiempo efectivo en virtud de la normativa
vigente.Se obtienen como la suma de las horas pactadas más las horas extras y/o
complementarias menos las horas no trabajadas excepto las horas perdidas en el
lugar de trabajo.
- Horas no trabajadas: Son las horas no trabajadas durante la jornada laboral por
cualquier motivo (vacaciones y fiestas, incapacidad temporal, maternidad, adopción
y motivos personales, descansos como compensación por horas extraordinarias,
horas de representación sindical, cumplimiento de un deber inexcusable, asistencia
a exámenes y visitas médicas, días u horas no trabajadas por razones técnicas,
organizativas o de producción, horas perdidas en el lugar de trabajo, conflictividad
laboral, absentismo, guarda legal, cierre patronal, …).
El presente epígrafe pretende ser una breve introducción al estudio de las series temporales,
las cuales poseen una gran importancia en el campo de la Economía dada la abundancia de
este tipo de observaciones; de hecho, las series temporales constituyen la mayor parte del
material estadístico con el que trabajan los economistas.
Pero, ¿qué es una serie temporal? Por definición, una serie temporal es una sucesión de
observaciones de una variable realizadas a intervalos regulares de tiempo. Según realicemos
la medida de la variable considerada podemos distinguir distintos tipos de series temporales:
− Flujo o Stock. En Economía, se dice que una serie de datos es de tipo flujo si está
referida a un período determinado de tiempo (un día, un mes, un año, etc.). Por su
parte, se dice que una serie de datos es de tipo stock si está referida a una fecha
determinada (por ejemplo, el 31 de Diciembre de cada año). Un ejemplo de datos de
tipo flujo serían las ventas de una empresa ya que éstas tendrán un valor distinto si se
obtiene el dato al cabo de una semana, un mes ó un año; por su parte, la cotización de
cierre de las acciones de esa misma empresa sería una variable de tipo stock, ya que
sólo puede ser registrado a una fecha y hora determinadas. Obsérvese que existen
relación entre ambos tipos de variables, pues la cotización al cierre de las acciones no
es más que el precio de cierre del día anterior más, o menos, el flujo de precios de la
sesión considerada.
Antes de profundizar en el análisis de las series temporales es necesario señalar que, para
llevarlo a cabo, hay que tener en cuenta los siguientes supuestos:
− Se considera que existe una cierta estabilidad en la estructura del fenómeno estudiado.
Para que se cumpla este supuesto será necesario estudiar períodos lo más
homogéneos posibles.
Dado que en la mayor parte de los problemas económicos, los agentes se enfrentan a una
toma de decisiones bajo un contexto de incertidumbre, la predicción de una variable reviste una
importancia notoria pues supone, para el agente que la realiza, una reducción de la
incertidumbre y, por ende, una mejora de sus resultados.
Las técnicas de predicción basadas en series temporales se pueden agrupar en dos grandes
bloques:
Dentro de los métodos de predicción cuantitativos, se pueden distinguir dos grandes enfoques
alternativos:
− El otro gran bloque dentro de los métodos cuantitativos estaría integrado por el análisis
multivariante o de tipo causal, denominado así porque en la explicación de la variable o
variables objeto de estudio intervienen otras adicionales de ella o ellas mismas.
Dada esa información, la predicción de la variable Y para el período T+1 la podemos expresar
como:
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01
Con esta notación queremos indicar que la predicción para el periodo T+1 se hace
condicionada a la información disponible en el momento T. El acento circunflejo sobre la Y nos
indica que esa predicción se ha obtenido a partir de un modelo estimado. Conviene también
hacer notar que T+1 significa que se está haciendo la predicción para un período hacia delante,
es decir, con la información disponible en t hacemos una predicción para el período siguiente.
Análogamente, la predicción para el período T+2 y para el período T+m, con la información
disponible en T, vendrá dada, respectivamente, por:
YˆT + 2 / T ; YˆT + m / T
Si, genéricamente, para el período t se efectúa una predicción con la información disponible en
t–1, y a la que designamos por Yˆt / t −1 , para el período t podemos hacer una comparación de
este valor con el que realmente observemos (Yt). La diferencia entre ambos valores será el
error de predicción de un período hacia adelante y vendrá dado por:
et / t −1 = Yt − Yˆt / t −1
Cuando un fenómeno es determinista y se conoce la ley que lo determina, las predicciones son
exactas, verificándose que et / t −1 = 0 . Por el contrario, si el fenómeno es poco sistemático o el
modelo es inadecuado, entonces los errores de predicción que se vayan obteniendo serán
grandes.
Para cuantificar globalmente los errores de predicción se utilizan los siguientes estadísticos: la
Raíz del Error Cuadrático Medio (RECM) y el Error Absoluto Medio (EAM).
T T
∑e
t =2
2
t / t −1 ∑ (Y − Yˆ
t =2
t t / t −1 )
2
RECM = =
T −1 T −1
T T
∑
t =2
et / t −1 ∑ Y − Yˆ
t =2
t t / t −1
EAM = =
T −1 T −1
− Fluctuación cíclica (C), que refleja las fluctuaciones de carácter periódico, pero no
necesariamente regular, a medio plazo en torno a la tendencia. Este componente es
frecuente hallarlo en las series económicas, y se debe a los cambios en la actividad
económica.
− Movimientos Irregulares (I), que pueden ser aleatorios, la cual recoge los pequeños
efectos accidentales, o erráticos, como resultado de hechos no previsibles, pero
identificables a posteriori (huelgas, catástrofes, etc.)
En este punto, cabe señalar que en una serie concreta no tienen por qué darse los cuatro
componentes. Así, por ejemplo, una serie con periodicidad anual carece de estacionalidad.
Y=T+C+S+I
Y=TCSI
Y=TCS+I
Una forma sencilla para ver como están asociadas las componentes de una serie temporal es
representar gráficamente la serie que estamos analizando. Si al realizar la representación
gráfica se observa que las fluctuaciones son más o menos regulares a lo largo de la serie, sin
verse afectadas por la tendencia (véase Fig. 9.1), se puede emplear el esquema aditivo.
Si, por el contrario, se observa que la magnitud de las fluctuaciones varía con la tendencia,
siendo más altas cuando ésta es creciente y más bajas cuando es decreciente (véase Fig. 8.2),
se debe adoptar entonces el esquema multiplicativo.
El análisis de la tendencia se realiza fundamentalmente con dos objetivos: por un lado, para
conocer cuáles son las pautas de comportamiento a lo largo del tiempo, de la variable objeto de
estudio, y por otro, para predecir sus valores futuros.
1. Lineal.
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01
Si una serie temporal Xt se ajusta a una tendencia lineal, la función de tiempo que se plantea
es la siguiente:
Xt =α+βt t= 1, 2, …, n
Una tendencia polinómica de grado p se ajustará a una función del siguiente tipo:
T
T (t ) =
1 − be − rt
donde t, b y r son constantes positivas.
Para calcular las funciones de tendencia, lo habitual es linealizar las formas de las funciones no
lineales y proceder a su estimación como si fuera una función de tendencia lineal.
Una vez establecido un modelo teórico para la tendencia, se debe proceder a la determinación
o cálculo de los parámetros que desconocemos mediante diversos procedimientos estadísticos,
que pasamos a describir a continuación.
Ejemplo 8.1.
Dividimos la serie en dos mitades, cada una de cinco años, y calculamos los promedios de
cada mitad. Los promedios los centramos en las observaciones centrales, las correspondientes
a 1999 y 2004:
El valor de a se obtiene al hacer t=0, y se hace corresponder con el valor del primer promedio:
a = Y0* = 99.373
93.603 − 99.373
b= = −1.153
5
Nótese que al ser cinco los años que hay de diferencia entre 2004 y 1999, años en los que
hemos centrado los promedios, el denominador que utilizamos para calcular el incremento
anual es igual a 5.
*
La ecuación Yt =99.373-1.153t nos sirve para obtener la tendencia una vez conocidos los
valores t o del regresor, que ha de tener necesariamente valor cero en 1987. Los valores de Xt
se elaboran a partir de una sucesión de puntuaciones consecutivas que van desde un mínimo
de -2 de 1997 hasta un máximo de 7 en 2006:
110.000
105.000
100.000
Tm.
95.000
Tendencia
90.000
85.000
80.000
97
98
99
00
01
02
03
04
05
06
19
19
19
20
20
20
20
20
20
20
Gráfico 8.2.
El método de mínimos cuadrados es el que más se utiliza para ajustar tendencias. Este método
da los mismos resultados que el método anterior cuando es utilizado para obtener tendencias
lineales. Si realizamos sencillas transformaciones aritméticas de los datos puede también ser
utilizado para representar funciones de tendencias no lineales.
Estimar una tendencia lineal por el método de MCO equivale a estimar la siguiente función:
*
Yt = a + bt
Si se quiere obtener una tendencia exponencial, debemos linealizar la función lo que requiere
su transformación en logaritmos:
rt
Y = be
entonces:
ln Yt = ln b + rt
Ejemplo 8.2
110.000
105.000
Tm.
100.000
Tendencia
95.000
90.000 Tendencia
exponencial
85.000
80.000
97
98
99
00
01
02
03
04
05
06
19
19
19
20
20
20
20
20
20
20
Gráfico 8.3.
Para analizar la calidad del ajuste realizado hay que considerar los estadísticos de la regresión
2
mínimo cuadrada :
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,64744046
2
Coeficiente de determinación R 0,41917914
2
El capítulo 5.1 dedicado a la regresión minimo-cuadrada estudia los fundamentos de dicha técnica y los
estadísticos que se mencionan.
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01
Otros estadísticos que debemos considerar son los que hace referencia al grado de
significación de los coeficientes b y m:
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior Superior
95,0% 95,0%
Intercepción 11,5540567 0,03704118 311,924649 1,2494E-17 11,4686396 11,6394738 11,4686396 11,6394738
Variable X -
-0,01434426 0,00596973 -2,40283376 0,04298622 0,02811047 -0,00057805 -0,02811047 -0,00057805
Medias móviles
Veamos qué es una media móvil: se trata, sencillamente de una media aritmética que se
caracteriza porque toma un valor para cada momento del tiempo y porque en su cálculo no
entran todas las observaciones de la muestra disponible.
Entre los distintos tipos de medias móviles que se pueden construir nos vamos a referir a dos
tipos: medias móviles centradas y medias móviles asimétricas. El primer tipo se utiliza para la
representación de la tendencia, mientras que el segundo lo aplicaremos para la predicción en
modelos con media constante.
1 t Y + Yt − n + 2 + ... + Yt −1 + Yt
MMA( n ) t = ∑ Yt +i = t −n +1
n i =t − n +1 n
Este tipo de medias móviles se emplea en la predicción de series cuya tendencia muestra una
media constante en el tiempo, utilizándose la siguiente ecuación:
1 T +1 Y Y
MMA( n ) T +1 = ∑ Yt = MMA( n ) T + T +1 − T −n +1
n i =T − n + 2 n n
Es decir, para predecir el valor de la serie en el período siguiente se suma a la media móvil, la
media aritmética de los n últimos períodos, siendo n la longitud de la media móvil.
Ejemplo 8.3
Veamos a continuación un ejemplo, continuando con la serie de ventas de gasolina, optamos
por calcular una media móvil trienal que ofrece los siguientes resultados:
110.000
105.000
100.000 Tm.
95.000
Media móvil
90.000 trienal
85.000
80.000
97
99
01
03
05
19
19
20
20
20
Gráfico 8.4.
Como se aprecia en el gráfico 9.4., el inconveniente que tiene la media móvil es que perdemos
información de la tendencia en los ejercicios inicial y final. En este sentido, volvemos a resaltar
que las medias móviles, comparadas con métodos basados en ajustes aritméticos, tienen un
coste informativo.
El método del alisado exponencial simple consiste, al igual que en el caso de las medias
móviles, en una transformación de la variable original. Si una variable Y es sometida a un
proceso de alisado exponencial simple se obtiene como resultado la variable alisada St.
Teóricamente, la variable alisada St se obtendría según la expresión:
2 3
St = (1 – w) Yt + (1 – w) wYt-1+ (1-w) w Yt-2 + (1 – w) w Yt-3 + … (1)
Se denomina alisada ya que suaviza o alisa las oscilaciones que tiene la serie, al obtenerse
como una media ponderada de distintos valores. Por otra parte, el calificativo de exponencial
se debe a que la ponderación o peso de las observaciones decrece exponencialmente a
medida que nos alejamos del momento actual t. Esto quiere decir que las observaciones que
están alejadas tienen muy poca incidencia en el valor que toma St. Finalmente, el calificativo de
simple se aplica para distinguirla de otros casos en que, como veremos más adelante, una
variable se somete a una doble operación de alisado.
3
Para que pueda aceptarse que es una media aritmética ponderada debe verificarse que las ponderaciones, sumen 1.
La demostración, que excede las pretensiones de este texto, se basa en el cálculo de la suma de infinitos términos de
una progresión geométrica convergente.
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01
Restando (3) de (1) miembro a miembro y ordenando los términos se tiene que:
St = (1 - w) Yt + wSt-1
O también:
St = αYt + (1 - α) St-1
donde α = 1 – w.
Ahora ya sólo nos falta calcular los valores de α y S0, parámetros a partir de los cuales resulta
sencillo hallar los valores de la variable alisada de forma manera recursiva, tal que:
S1 = αY1 + (1 - α) S0
S2 = αY2 + (1 - α) S1
S3 = αY3 + (1 - α) S2
………………………
Al asignar un valor a α hay que tener en cuenta que un valor pequeño de α significa que
estamos dando mucho peso a las observaciones pasadas a través del término St-1. Por el
contrario, cuando α es grande se da más importancia a la observación actual de la variable Y.
En general, parece que un valor de α igual a 0.2 es apropiado en la mayor parte de los casos.
Alternativamente, se puede seleccionar aquel valor de α para el que se obtenga una Raíz del
Error Cuadrático Medio menor en la predicción del período muestral.
Respecto a la asignación de valor a S0 se suelen hacer estos supuestos: cuando la serie tiene
muchas oscilaciones se toma S = Y1; por el contrario, cuando la serie tiene una cierta
estabilidad se hace S0 = Y.
Ejemplo 8.4
En este ejemplo se presenta un alisado exponencial para la serie de ventas de gasolina,
utilizando como factor de alisado el valor 0,5.
Alisado
Tm.(Y) Media movil a=0,50
1997 105.329
1998 105.525 102.094 102.094
1999 95.429 98.762
2000 88.350 93.556
2001 102.230 97.893
2002 94.142 96.017
2003 98.082 97.050
2004 97.321 97.185
2005 90.566 93.876
2006 87.920 90.898
Alisado exponencial
110.000
105.000
100.000
Tm.(Y)
95.000
Alisado a=0,50
90.000
85.000
80.000
97
99
01
03
05
19
19
20
20
20
Gráfico 8.5.
Una variante más avanzada del método anterior es el Alisado Exponencial Doble, también
conocido como método de Brown. Básicamente, lo que se hace mediante este método es
someter a la variable a una doble operación de alisado: en la primera operación se alisa
directamente la variable objeto de estudio, mientras que en la segunda operación se procede a
alisar la variable alisada previamente obtenida. Así pues, las fórmulas del Alisado Exponencial
Doble son las siguientes:
Obsérvese que en los dos alisados se utiliza el mismo coeficiente α. A partir de las dos
variables alisadas se estiman los coeficientes de la recta para utilizarlos en la predicción.
Las fórmulas que permiten pasar de los coeficientes de alisado a los coeficientes de la recta
son las siguientes:
Asimismo, al igual que en el caso del Alisado Exponencial Simple, para poder obtener St' y St’’
es necesario conocer los valores iniciales, que en este caso serían dos, S0’ y S0’’. Para
determinarlos se utilizan las siguientes relaciones que permiten obtener b0t y b1t, aunque en
sentido inverso.
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01
Haciendo que:
y tomando t = 0, se obtiene:
1−α
S 0' = b00 − b10
α
1−α
S 0'' = b00 − 2b10
α
A partir de estos valores se inicia la recursión ya señalada.
En lo que respecta al valor de α, es válido lo que se dijo en el caso del Alisado Exponencial
Simple, siendo aconsejable tomar α = 0.2 o, alternativamente, seleccionar aquel valor de α que
haga mínima la Raíz del Error Cuadrático Medio cuando realicemos predicciones.
− El consumo de energía eléctrica que suele ser mayor los meses de invierno.
El motivo principal que induce a estudiar los ciclos estacionales es que, de no tenerse en
cuenta estas variaciones, se obtienen bastantes distorsiones a la hora de analizar la evolución
de las series, actuando muchas veces el factor estacional como una máscara que impide
captar adecuadamente la evolución del fenómeno objeto de estudio. Un ejemplo de estas
distorsiones ocurre, por ejemplo, cuando se compara el consumo de electricidad en el primer y
segundo trimestre del año, ya que el ciclo estacional al delimitar un aumento del consumo en
los meses de invierno, impide una interpretación correcta sobre el uso subyacente de la
energía de dicho período.
Para ello, existen diferentes procedimientos: utilización de filtros lineales, X11-ARIMA, SEATS
(Signal Extraction in ARIMA Time Series), etc., cuya solución requiere de un cálculo
matemático relativamente complejo; aquí únicamente estudiaremos los procedimientos de
desestacionalización más sencillos: el método de porcentaje promedio y el método del
porcentaje promedio móvil.
Asimismo, cabe señalar que, con carácter previo a la desestacionalización, a menudo hay que
realizar una serie de ajustes en la serie temporal para tener en cuenta hechos o eventos que
pueden afectar al ciclo estacional que tratamos de analizar. Estos eventos que suelen ser
festividades, interrupciones del trabajo debido a huelgas, paros, regulaciones de empleo, etc.,
no siempre son eliminados por los promedios dentro del mes o trimestre en que se producen,
de ahí que sea necesario corregir previamente los datos iniciales. Una forma de compensar
estas variaciones es multiplicar la serie de datos origínales por la siguiente razón:
en la que la definición de los días efectivos dependerá de la serie cronológica que nos interesa
y de los motivos por los que realizamos el ajuste.
Finalmente, para saber si una serie temporal presenta variaciones estacionales de relevancia,
se suele hacer un análisis de la varianza del componente estacional-irregular de la serie,
utilizando como factor de variación la referencia temporal de la serie (semanal, mensual,
trimestral, etc.…). Dicho análisis proporciona como estadístico la F de Snedecor, cuyo valor
comparado con el que figura en las tablas del Anexo, nos permite determinar si tiene
significación el factor temporal para explicar la varianza de la serie; de admitirse dicha
posibilidad, quedaría demostrado que los movimientos estacionales de la serie son lo
suficientemente determinantes como para proceder a su desestacionalización posterior.
Ejemplo 8.5
Años
Meses 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
1 7405 8098 6596 5951 7242 6230 6458 6818 6195 6186
2 6323 7756 6675 5846 6913 6236 6240 6654 6013 6013
3 8799 8939 8054 6762 8076 7798 7305 7661 7564 7118
4 8337 8777 7957 7013 8634 7661 8410 8353 7206 7329
5 8517 7843 7561 6744 7973 7645 8278 7772 7614 7402
6 8169 8351 8049 6745 8690 7676 8235 8319 7823 7322
7 11051 10575 10101 9638 10416 9882 10151 9780 9334 8591
8 12188 12229 10992 10996 12817 9858 11749 10894 10649 9906
9 9465 8638 8032 8865 8607 6915 8529 8357 7762 7634
10 8752 8114 7374 5900 7662 9768 8049 7592 7081 7026
11 7629 7731 6661 6405 7114 6923 6838 7151 6407 6466
12 8694 8474 7377 7485 8086 7550 7840 7970 6918 6927
TOTAL 105329 105525 95429 88350 102230 94142 98082 97321 90566 87920
Tabla 8.6. Ventas de Gasolina en Cantabria
Años
Meses 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
1 0 -824 -1752 -1477 -891 -1888 -1550 -1379 -1614 -1212
2 0 -1170 -1570 -1582 -1372 -1635 -1925 -1472 -1776 -1323
3 0 82 -141 -736 -187 68 -995 -450 -175 -208
4 0 -27 -176 -362 224 -245 254 280 -491 8
5 0 -969 -483 -610 -496 -245 129 -327 -21 76
6 -608 -443 97 -618 171 -169 62 209 276 -5
7 2216 1906 2202 2168 1981 2018 1948 1722 1788 0
8 3233 3651 3162 3437 4439 1994 3511 2889 3103 0
9 499 133 310 1197 252 -908 261 360 253 0
10 -251 -322 -269 -1904 -612 1882 -214 -309 -439 0
11 -1318 -682 -914 -1501 -1133 -1016 -1383 -737 -1095 0
12 -268 86 -90 -583 -76 -435 -388 123 -542 0
Tabla 8.7. Ventas de Gasolina en Cantabria. Componente Estacional-Irregular
El método del porcentaje promedio es un procedimiento rápido y simple para elaborar un índice
estacional. El primer paso consiste en expresar la información de cada mes (o trimestre) como
un promedio para el año; en un segundo paso se obtienen porcentajes de los promedios
anuales; y, finalmente, en un tercer paso, dichos porcentajes se promedian en cada mes,
obteniéndose como resultado el índice estacional.
Ejemplo 8.6.
Para ilustrar el método del porcentaje promedio utilizamos el anterior ejemplo de las ventas
mensuales de gasolina en Cantabria para el período 1997-2006.
Años
Meses 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
• Después calculamos en cada año el porcentaje del promedio, que es la relación que se da
entre las ventas de cada mes y su promedio anual.
Años
Meses 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
1 84% 92% 83% 81% 85% 79% 79% 84% 82% 84%
2 72% 88% 84% 79% 81% 79% 76% 82% 80% 82%
3 100% 102% 101% 92% 95% 99% 89% 94% 100% 97%
4 95% 100% 100% 95% 101% 98% 103% 103% 95% 100%
5 97% 89% 95% 92% 94% 97% 101% 96% 101% 101%
6 93% 95% 101% 92% 102% 98% 101% 103% 104% 100%
7 126% 120% 127% 131% 122% 126% 124% 121% 124% 117%
8 139% 139% 138% 149% 150% 126% 144% 134% 141% 135%
9 108% 98% 101% 120% 101% 88% 104% 103% 103% 104%
10 100% 92% 93% 80% 90% 125% 98% 94% 94% 96%
11 87% 88% 84% 87% 84% 88% 84% 88% 85% 88%
12 99% 96% 93% 102% 95% 96% 96% 98% 92% 95%
Tabla 8.9.
• El índice estacional sería el promedio para cada mes de los diez datos anuales:
Años Índice
Meses estacional
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
1 84% 92% 83% 81% 85% 79% 79% 84% 82% 84% 83,42%
2 72% 88% 84% 79% 81% 79% 76% 82% 80% 82% 80,43%
3 100% 102% 101% 92% 95% 99% 89% 94% 100% 97% 97,04%
4 95% 100% 100% 95% 101% 98% 103% 103% 95% 100% 99,05%
5 97% 89% 95% 92% 94% 97% 101% 96% 101% 101% 96,30%
6 93% 95% 101% 92% 102% 98% 101% 103% 104% 100% 98,76%
7 126% 120% 127% 131% 122% 126% 124% 121% 124% 117% 123,80%
8 139% 139% 138% 149% 150% 126% 144% 134% 141% 135% 139,60%
9 108% 98% 101% 120% 101% 88% 104% 103% 103% 104% 103,11%
10 100% 92% 93% 80% 90% 125% 98% 94% 94% 96% 96,11%
11 87% 88% 84% 87% 84% 88% 84% 88% 85% 88% 86,23%
12 99% 96% 93% 102% 95% 96% 96% 98% 92% 95% 96,14%
1200%
El índice nos señala que en el período estudiado las ventas de enero han estado un
83.42% por debajo de las ventas mensuales promedio de cada año, y que en el mes de
agosto el nivel de ventas fue un 139.60% superior al nivel de venta mensuales promedio
anual. Dado que el valor medio mensual del índice ha de ser igual a 100, la suma de los 12
datos de que consta el índice mensual debe ser igual a 1200.
• Para obtener una serie de las ventas ajustadas estacionalmente, esto es, descontando el
efecto que provoca el ciclo estacional, se dividiría las ventas de cada mes por el
correspondiente índice estacional y se multiplicaría por 100:
Años
Meses 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
1 8876 9707 7907 7133 8681 7468 7741 8173 7426 7415
2 7861 9643 8299 7268 8595 7753 7758 8273 7476 7476
3 9067 9211 8299 6968 8322 8036 7528 7894 7795 7335
4 8417 8861 8033 7080 8717 7734 8491 8433 7275 7399
5 8845 8145 7852 7003 8280 7939 8596 8071 7907 7687
6 8271 8456 8150 6829 8799 7772 8338 8423 7921 7414
7 8926 8542 8159 7785 8413 7982 8199 7900 7539 6939
8 8731 8760 7874 7877 9181 7062 8416 7804 7628 7096
9 9180 8378 7790 8598 8348 6707 8272 8105 7528 7404
10 9106 8442 7672 6139 7972 10163 8375 7899 7368 7310
11 8847 8965 7725 7428 8250 8028 7930 8293 7430 7498
12 9043 8814 7673 7786 8411 7853 8155 8290 7196 7205
Tabla 8.11.
El método del porcentaje del promedio móvil es uno de los métodos más usados para la
medición de la variación estacional. Su cálculo es también bastante sencillo: en primer lugar se
obtiene un promedio móvil de 12 meses de la serie de datos originales (o de 4 trimestres si se
utilizan los datos trimestrales) tal que:
L/2
∑ Yt +i
( − L / 2 ) +1 L L L
MM ( L) t +0.5 = , t= , + 1,..., N −
L 2 2 2
MM ( L) t −0.5 + MM ( L) t +0.5 L L L
MM ( L x 2) t = , t = + 1, + 2,..., N −
2 2 2 2
Finalmente se obtiene el índice dividiendo los datos originales por el promedio móvil centrado,
MM(L x 2)t:
Yt
EI t =
MM ( L x 2) t
es decir, una estimación conjunta del componente estacional y del componente irregular. A los
valores obtenidos mediante la expresión anterior se los denomina índices brutos de variación
estacional.
Para cada estación se puede calcular una media de todos los índices brutos disponibles. Así,
para la estación h, la media se obtendrá sumando todos los índices brutos de variación
estacional correspondientes a esa estación y dividiendo por K–1, que es el número de datos
disponibles en cada caso; es decir:
E h* =
∑ EI t
, h = 1,2,..., L
K −1
Sin embargo, estos índices no van a ser los definitivos, ya que se trata de índices no
normalizados. Si existe estacionalidad, ésta no debe afectar al nivel de la serie, por lo que es
razonable exigir a los coeficientes de estacionalidad el requisito de que su media sea 1, ó,
alternativamente, que su suma sea L. Cuando los índices de estacionalidad cumplen este
requisito se dice que están normalizados. Los índices de variación estacional normalizados se
pueden calcular fácilmente aplicando una proporción. Así, si utilizamos el símbolo Ê h para
designar el índice de variación estacional de la estación h, su expresión vendrá dada por
L
Eˆ h =ˆ E h* L
∑E
h =1
*
h
Yt
Dt =
Eˆ
h
Ejemplo 8.7.
Años Meses
Ventas Media móvil 12 meses
1997 1 7.405
2 6.323
3 8.799
4 8.337
5 8.517
6 8.169 8.777
7 11.051 8.835
8 12.188 8.955
9 9.465 8.966
10 8.752 9.003
11 7.629 8.947
12 8.694 8.962
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01
El primer promedio móvil se centra en el 6º mes (Junio), lo que implica dejar sin valores seis
meses al final de la serie.
El segundo promedio, que es una media móvil de dos meses, se realiza para centrar
convenientemente el promedio móvil anterior, el primer valor que aparece es el valor promedio
de 8.777 y 8.835, y se centra en el 7º mes (Julio), quedando así ambos extremos de la serie
resultante con seis meses de ausencia de datos:
Finalmente se calcula el índice dividiendo los datos originales por el promedio móvil centrado y
multiplicando por cien:
14.000
12.000
10.000 Ventas
8.000
Promedio móvil
6.000 centrado
Serie
4.000 desestacionalizada
2.000
0
1997
Gráfico 8.4.
Los coeficientes de estacionalidad calculados en el epígrafe anterior pueden ser utilizados para
realizar predicciones de la variable. Para ello, vamos a considerar el supuesto de que
disponemos de una muestra de tamaño T y deseamos realizar predicciones para los L períodos
siguientes (por ejemplo, si los datos son trimestrales y la muestra comprende años completos,
se trataría de predecir los valores que toma la variable en los trimestres del primer año
postmuestral).
Bajo el supuesto de estacionalidad estable, el predictor vendrá dado por la siguiente expresión:
Yˆt + h / T = TˆT + h Eˆ h , h = 1, 2, …, L
donde TˆT + h es la predicción obtenida de la tendencia mediante el ajuste de una función a los
datos desestacionalizados.
Bajo el supuesto de estacionalidad cambiante, las fases para la aplicación del método de la
razón a la media móvil son las siguientes:
Recuérdese que los índices brutos de variación estacional son una estimación conjunta del
componente estacional y del componente irregular. Por ello, al realizar el ajuste de modelos
que recojan la tendencia de la estacionalidad, lo que estamos haciendo en realidad es separar
estos dos componentes. Así, adoptando el supuesto de que están integrados de forma aditiva,
se tendrá la siguiente descomposición:
EI t = E t* + I t , h = 1, 2, …, L
donde Et* son los valores estimados al ajustar una función del tiempo en la que la variable
dependiente es EI. En la mayor parte de las ocasiones es adecuado el ajuste de una recta para
tal finalidad. Si éste es el caso resulta:
E t* = aˆ h 0 + aˆ h1 r , h = 1, 2, …, L
donde r es el año en que se encuentra el período t. Teniendo en cuenta que al calcular los
índices brutos de variación estacional se pierden L/2 datos al principio y L/2 al final y
suponiendo que se dispone de información sobre K años completos, entonces r variará, según
los casos, entre 2 y K o entre 1 y K–1.
L
Eˆ t =ˆ E t* , m = 1, 2, …, r
∑E
m
*
m
Como puede verse en la fórmula anterior, la normalización se realiza año a año. Por ello, el
factor de normalización es igual a L dividido por la suma de los índices de variación estacional
correspondientes al mismo año (r) en que se encuentra el período t.
Yt
Dt =
Eˆt
donde TˆT + h es la predicción obtenida de la tendencia mediante el ajuste de una función a los
datos desestacionalizados y E es la predicción de la estacionalidad para el período T+h,
obtenida a partir de un ajuste y su posterior normalización.
m=Cov(xy)/Var(x)
COVARIANZA
Obtiene el promedio del producto de desviaciones de puntos de datos partiendo de las medias
respectivas. La covarianza es una medida de la relación entre dos rangos de datos y está
vinculada a la unidad de medida correspondiente a X e Y.
COEFICIENTE DE CORRELACIÓN
Corr(XY)=Cov(XY)/(Desv(x)*Desv(y))
COEFICIENTE DE DETERMINACIÓN
Muestra la bondad de la recta de regresión para estudiar la relación de dependencia entre las
variables. Su valor fluctúa entre 0 y 1. En 1 nos indicaría que la recta es perfecta para
determinar esa relación y en 0 que no nos es útil la recta de regresión para determinarla.
En el caso de que fuera 1, nos indicaría que no existirían diferencias entre valores estimados y
valores reales.
Sintaxis: =COEFICIENTE.R2(matriz_ymatriz_x)
Y=m*X1 + b
Sintaxis: ESTIMACION.LINEAL(Matrix_Y;Matriz_X;constante;estadística)
La función devuelve una MATRIZ, por lo que debe de seleccionarse el rango de salida :
Sintaxis =Coeficiente.R2(matriz_y;matriz_x)
Sintaxis =Error.Tipico.XY(Matriz_y;Matriz_x)
Sintaxis =Distr.F(X;grados_libertad1;grados_libertad_2)
TENDENCIA
Una vez calculados los valores m y b de la recta y analizado los dos estadísticos anteriores,
podemos realizar el pronóstico de valores que alcanzará Y en función de los nuevos valores de
X.
y$ =mX+b
con lo que hemos calculado los valores estimados, para los datos reales que tenemos.
Mediante el asistente de gráficas podemos representar las diferencias entre los valores reales y
los obtenidos por regresión lineal. (Para ello ordenamos los datos de la tabla anterior de menor
a mayor).
Así mismo, vamos a calcular valores de tendencia para datos ajenos a la muestra utilizada,
para ello hay que escribir en la matriz de Nuevas_X, las deseadas.
Sintaxis: =Pronóstico(xmatriz_ymatriz_x)
Al igual que hemos realizado la regresión lineal mínimo cuadrática para establecer la
dependencia entre Y e X, también podemos realizarlas para observar dicha dependencia de Y
respecto a varias variables (X1..Xn).
Y=m1X1+..+mnXn+b
Veamos ahora el caso de que la variable dependiente está relacionada con más de una
variable independiente.
Y=x1*m1 + ...+xn*mn + b
Y=X1*m1+X2*m2+X3*m3+b
En ocasiones la dependencia entre variables no se ajusta a una recta o al ajustarla nos sale un
coeficiente de determinación que indica que no es útil, y podemos realizar la estimación
mediante una curva exponencial.
En Excel podemos realizar la tendencia de datos mediante la función crecimiento que ajusta
los datos de X, Y a lo largo de la curva.
Hasta ahora, hemos realizado la estimación mediante regresión lineal, pero todos los procesos
obtenidos en la lineal (univariante y multivariante), se pueden realizar de igual forma con una
ica.
regresión exponencial mediante una estimación logarítm
2.456 82
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01
Si realizamos un diagrama de dispersión mediante la opción Gráfico, dentro del menú Insertar
de Excel, obtendremos un gráfico como el siguiente en el que puede comprobarse la relación
que aparentemente existe entre cantidades demandadas de manzanas y su precio.
Curva de demanda
120
115
110
105
95
90
85
80
2.000 2.100 2.200 2.300 2.400 2.500
En caso de no tener dicha opción instalada en nuestro ordenador, deberemos marcar las
casillas que se ven en la figura, insertando seguidamente el CD-Rom de Microsoft Office para
proceder a su instalación. Una vez instaladas estas opciones, dispondremos de una nueva
opción en el menú Herramientas llamada Análisis de Datos. Si pinchamos en ella, nos
aparecerá una ventana similar a la siguiente, en la que seleccionaremos la opción Regresión:
Una vez introducidos los rangos de las variables y seleccionado las opciones que deseemos
(no debemos olvidar indicar en qué Hoja, Rango o Libro deseamos que nos aparezcan los
resultados), pulsamos en Aceptar y nos aparecerá una ventana similar a ésta:
La estimación de los parámetros del modelo aparecen en la columna Coeficientes, junto con su
Desviación Típica o Error Típico y el estadístico t de significatividad individual (obsérvese que
al término independiente del modelo, Excel lo denomina Intercepción). A la vista de los
resultados, el modelo estimado tiene la siguiente forma:
Para el análisis de la bondad de ajuste del modelo, Excel ofrece los siguientes resultados:
2.500
2.400 Cantidad
Pronóstico Cantidad
2.300
Cantidad
2.200
2.100
2.000
1.900
80 85 90 95 100 105 110 115 120
Precio
b) Por otro lado, Excel muestra en la parte superior de los resultados el valor del
coeficiente de determinación que, en nuestro caso, es del 98%, lo que nos indica un
grado de ajuste muy bueno.
Respecto al análisis de los errores o residuos del modelo, Excel ofrece el Cuadro de Valores
Ajustados (Pronóstico Cantidad), los Residuos del modelo y los Residuos Estándares (es decir,
tipificados). Según la teoría que hemos estudiado hasta ahora, los residuos estándares deben
seguir una distribución Normal de media 0 y desviación estándar 1; por tanto, aquellos residuos
cuyo valor absoluto supere 1.96 se corresponderán con valores atípicos, también denominados
outliers en la literatura estadística. En nuestro ejemplo, afortunadamente, no se observa ningún
outlier como puede apreciarse en la siguiente tabla de Análisis de Residuos:
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01
El gráfico de los residuos también constituye una herramienta de análisis importante, ya que
nos permite evaluar la aleatoriedad de los mismos. En nuestro ejemplo, se observa una ligera
falta de aleatoriedad, derivada de que los cuatro últimos residuos presentan una marcada
racha creciente.
40
30
20
10
Residuos
0
-10
-20
-30
-40
80 85 90 95 100 105 110 115 120
Precio
Además de poder utilizar ficheros de datos en distintos formatos (HTML, XML, texto, etc.),
Excel permite importar datos desde servidores de bases de datos (SQL Server, Oracle,
MySQL, p. ej.), siempre y cuando tengamos instalado en nuestro PC el controlador
correspondiente.
En el caso de que los datos de interés se encuentren en una base de datos Access, podremos
acceder a los mismos de dos maneras: bien como fichero o bien como servidor de bases de
datos, mediante la creación de una conexión ODBC u OLEDB.
Procedemos a abrir el fichero Access desde el menú “Archivo” -> “Abrir”. En “Tipo de archivo”
seleccionamos “Bases de datos de Access (*.mdb; *.mde)
Una vez seleccionada una tabla, se cargan los datos en la hoja activa, incluyendo las
cabeceras con el nombre de las columnas.
Una vez cargados los datos, la barra de herramientas de datos externos nos permitirá:
- modificar la consulta, por ejemplo filtrar los datos mediante una sentencia SQL
Por defecto, Excel nos muestra los ficheros existentes para orígenes de datos ya definidos. Si
no disponemos de una conexión para la base de datos, podemos crearla pulsando el botón
“Nuevo origen…”. El Asistente para la conexión de datos nos guiará paso a paso para
establecer una conexión. En primer lugar, seleccionamos el tipo de origen de datos.
Grabar macros
Al grabar una macro, Excel almacena información sobre cada paso dado cuando se ejecutan
de forma manual una serie de comandos. A continuación, se ejecuta la macro para que repita
los comandos. Si se comete algún error mientras se graba la macro, también se graban las
correcciones que se realicen. Visual Basic almacena cada macro en un nuevo módulo adjunto
a un libro.
Para que una macro se ejecute cada vez que haga clic en un botón determinado o presione
una combinación de teclas específica, asigne la macro a un botón de la barra de herramientas,
a un método abreviado de teclado o a un objeto gráfico de una hoja de cálculo.
Se puede ejecutar una macro seleccionándola de una lista en el cuadro de diálogo “Macro”.
Tras grabar una macro, se puede ver el código de macro con el Editor de Visual Basic para
corregir errores o modificar lo que hace la macro. Por ejemplo, si la macro de ajuste de texto
también tiene que aplicar el formato de negrita al texto, se puede grabar otra macro para
aplicar el formato de negrita a una celda y, a continuación, copiar las instrucciones de esa
macro a la macro de ajuste de texto.
El Editor de Visual Basic es un programa diseñado para que los usuarios principiantes puedan
escribir y editar fácilmente código de macro, y proporciona mucha Ayuda en pantalla. No es
preciso saber cómo se programa o se utiliza el lenguaje de Visual Basic para realizar cambios
sencillos en las macros. El Editor de Visual Basic permite modificar macros, copiarlas de un
módulo a otro, copiarlas entre diferentes libros, cambiar el nombre de los módulos que
almacenan las macros o cambiar el nombre de las macros.
Seguridad de macros
Excel incluye protecciones para ayudar a proteger contra virus susceptibles de ser transmitidos
por macros. Si se comparten macros con otros usuarios, se puede certificar esas macros con
una firma digital de modo que los demás usuarios pueden comprobar que proceden de una
fuente fidedigna. Al abrir un libro que contiene macros, se puede comprobar su origen antes de
habilitarlas.