Está en la página 1de 150

CURSO DE ESTADÍSTICA DESCRIPTIVA Y

ANÁLISIS DE DATOS CON LA HOJA DE


CÁLCULO EXCEL

D. Francisco Parra Rodríguez. Jefe de Servicio de Estadísticas Económicas y


Sociodemográficas. Instituto Cántabro de Estadística.

Dª. Mª Paz Moral Zuazo. Profesora Titular de Universidad. Universidad del


País Vaco

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


ÍNDICE

1. El Método Estadístico
1.1. Introducción 5
1.2. El Método Estadístico 5
1.3. Conceptos y definiciones básicas 7
2. Introducción a las funciones estadísticas en Excel
2.1. Funciones en Excel 9
2.2. Gráficos 10
2.3. Tablas y gráficos dinámicos 13
2.4. Las macros “Análisis de datos” para el tratamiento estadístico 17
3. Análisis de distribuciones
3.1. Introducción 23
3.2. Distribuciones de frecuencias unidimensionales 23
3.3. Medidas de posición en una distribución de frecuencias unidimensional 31
3.4. Características de las medidas de dispersión 44
3.5. Distribuciones de frecuencias bidimensionales 47
3.6. Distribuciones de probabilidad. Algunas distribuciones de interés 51
4. Medidas de desigualdad y concentración
4.1. Medidas de forma 55
4.2. Medidas de concentración: índice de Gini y Curva de Lorenz 57
4.3. Cálculo e interpretación de los índices de concentración 57
5. Modelo de regresión lineal
5.1. El método de los mínimos cuadrados ordinarios 61
5.2. Bondad del ajuste 65
5.3. Inferencia acerca de los estimadores 66
5.4. Predicción en el modelo de regresión 68
5.5. Violación de los supuestos del modelo lineal de regresión 69
6. Regresión lineal múltiple
6.1. Introducción 79
6.2. Deficiencias muestrales: multicolinealidad y errores de medida 82
6.3. Modelo con variables cuantitativas y cualitativas como regresores 84
6.4. El empleo de variables cualitativas para el tratamiento de la estacionalidad 88
6.5. El modelo probabilístico lineal 92
7. Números índices
7.1. Introducción 95
7.2. Índices simples y complejos 96
7.3. Índices ponderados 97
7.4. Índices de precios 98
7.5. Enlaces y cambios de base 99
7.6. Deflactación de series económicas 101
7.7. Principales índices de precios españoles 102
8. Series temporales
8.1. Introducción a las series temporales 107
8.2. Componentes de una serie temporal 110
8.3. Análisis de la tendencia 111
8.4. Análisis de la estacionalidad 121

Anexo I: Análisis de regresión con Excel 131


Anexo II: Acceso a datos externos desde Excel 141
Anexo III: Macros en Excel 149

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


1.- El método estadístico

1.1.- Introducción
Aunque la palabra Estadística proviene del latín “status” o “estado”, esta palabra sólo describe
en parte su significado real, es decir, solo describe la función de la Estadística de llevar
registros ordenados de datos para describir el “estado” de las cosas. Sin embargo, la
Estadística va más allá de esta simple función.

En forma más general, la Estadística es la ciencia que se ocupa de la colección, clasificación,


organización, análisis, síntesis e interpretación de datos. En palabras sencillas podríamos decir
que la Estadística es la ciencia de los datos

En términos generales la Estadística aborda dos tipos de problemas:

• Resumir, describir y explorar datos.


• Utilizar datos de una muestra para inferir la naturaleza del conjunto del cual se
escogió la muestra.

Así, la Estadística se divide en dos partes íntimamente relacionadas:

Estadística Descriptiva: Esta es la parte de la Estadística que se dedica a la organización,


síntesis y descripción de conjuntos de datos.

Esta es importante, ya que antes de que la mente humana pueda interpretar (hacer inferencias
es interpretar) un conjunto de datos, especialmente cuando estos son demasiados, es
necesario resumirlos o representarlos de manera clara, simplificada o reducida.

Estadística Inferencial: Esta rama de la Estadística trata el problema de inferir la naturaleza


de un conjunto de datos a partir de una muestra de dichos datos.

El conjunto de individuos o entidades que se desea describir se denomina población, mientras
que una muestra es un subconjunto de individuos seleccionados de la población.

1.2.- El método estadístico


Según el diccionario de la RAE el significado de la palabra Ciencia es (en su primera acepción):

CIENCIA: Conjunto de conocimientos obtenidos mediante la observación y el razonamiento,


sistemáticamente estructurados y de los que se deducen principios y leyes generales.

Según esta definición podemos fácilmente comprender la razón de catalogar la Estadística


como ciencia, ya que como se puede ver la estadística se adapta perfectamente a esta
definición.

Analicemos ahora cuales son los pasos que se han de seguir en cualquier investigación
estadística o lo que es lo mismo, vamos a ver en que consiste el método estadístico, que es
un método científico.

Es tarea propia de la ciencia, observar adecuadamente los hechos, discernir que elementos
son constantes en ellos y determinar las leyes que lo rigen, es decir, sus relaciones constantes
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


y universales. Es el método propio a la ciencia, el Método Científico, el que se aplica al ciclo
completo de una investigación, desde el enunciado del problema hasta la evaluación de los
resultados obtenidos.
En el método científico podríamos distinguir en forma esquemática, y con las limitaciones que
esto supone, las siguientes etapas:

Elección y enunciado del problema


La elección de un problema con el fin de averiguar sus causas o de encontrarle soluciones,
dependerá de los juicios de valor del investigador y de las condiciones sociales, políticas y
económicas en las cuales se desarrolla la ciencia. El enunciado puede hacerse a través de la
descripción de la situación problema o mediante el planteamiento de una pregunta.

Formulación de una Hipótesis


La hipótesis es una explicación de la situación problema o una respuesta posible a la
pregunta planteada. Se formula en términos afirmativos respecto a relaciones entre
variables pertinentes.

Deducción de consecuencias verificables de la hipótesis


Siendo la hipótesis una explicación o una respuesta general, muchas veces no es
posible investigar directamente su veracidad. Se procede en estos casos a deducir en
forma lógica consecuencias particulares de la hipótesis

Verificación de la hipótesis
La verificación puede hacerse, sobre todo en las ciencias exactas, mediante
demostraciones teóricas basadas en relaciones aceptadas en el estado actual del
conocimiento.

Interpretación de los resultados


Con los datos obtenidos en la etapa anterior se decide si se ha rechazar o no la hipótesis
en estudio.

Poniendo todo lo anterior en relación a lo que nos ocupa en el curso podemos ver cuales son
las etapas del Método Estadístico.
Podemos decir que es un conjunto de procedimientos aplicados en secuencia lógica a la
obtención y análisis de datos. Es el método estadístico el que nos proporciona las técnicas
necesarias para recolectar y analizar la información requerida. Podríamos distinguir en él una
etapa de Planificación y otra de Ejecución

Etapa de Planificación
En esta etapa debemos considerar las siguientes fases:

- Definición de objetivos: Corresponde formalmente a la descripción del problema


que da origen a la investigación. Se debe señalar detalladamente lo que se pretende investigar,
es decir, el qué, cómo, donde, cuando y por qué.

- Definición del Universo: Se debe definir el grupo del cual se extraerá la información
y a la cuál se referirán los resultados.

- Diseño de la muestra: La teoría del Muestreo o de Diseño y Análisis de


Experimentos pueden garantizarnos que la información que generaremos nos permitirá
proyecciones válidas al universo de interés.

- Definición de las unidades de observación, escalas de clasificación y unidades


de medida: En una misma investigación puede haber varios objetivos parciales que requieran
estudiar unidades de observación diferentes.

- Preparación del plan de tabulación y análisis: El cuidado en este aspecto nunca


podría considerarse excesivo, debería llegarse, tal vez, hasta considerar alternativas de
análisis adecuadas para compensar algunas alteraciones accidentales del plan de trabajo.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Etapa de Ejecución
En esta etapa podemos reconocer las siguientes fases:

- Recolección de la información: En esta fase se recogen los datos de acuerdo a los


planes establecidos anteriormente. Generalmente es lo que se conoce como Trabajo de
Campo.
Es importante garantizar la obtención correcta de la información, para lo cual hay que
establecer los correspondientes procesos encaminados al control de calidad del proceso.

- Tratamiento y Elaboración de la información: Una vez que se tienen los datos


estos han de pasar por procesos de validación y depuración, que garanticen que la información
obtenida es correcta (sin datos imposibles o inconsistentes).
Asimismo hay que garantizar una correcta codificación de los datos, para un tratamiento
correcto.
Con los datos verificados, y generalmente en un soporte informático, se procede a la
elaboración de tablas, informes y de todos los procedimientos estadísticos necesarios para
lograr un mejor análisis de los mismos.
En esta fase es donde intervienen las técnicas de estadística descriptiva que se van a estudiar.

- Análisis de los resultados: El análisis de los resultados es la última fase del


proceso, que en general depende del tipo de estudio que estemos realizando, que puede ser
descriptivo, inferencial, confirmatorio, …

1.3.- Conceptos y definiciones básicas


En esta sección se presentan algunas nociones básicas sobre lo que se va a tratar en el curso:

Estadística descriptiva: Conjunto de métodos de descripción, análisis y representación de


conjuntos numerosos de datos. Utiliza métodos numéricos y gráficos con el fin de resumir,
ordenar y simplificar la información contenida en los datos.

Población estadística: Conjunto de elementos que poseen una o varias características


comunes y sobre los cuales se va a realizar el estudio. Debe estar perfectamente determinada,
sin ningún tipo de ambigüedad, de forma que se pueda distinguir fácilmente si un elemento
pertenece o no a la misma. Por ejemplo: varones mayores de 25 años, productos alimenticios,
ciudades con más de cincuenta mil habitantes, etc.
Una población puede ser finita o infinita, según el número de elementos que la compongan.
Los elementos de la población se denominan unidades estadísticas o individuos y al número
total de individuos que constituyen la población se le denomina tamaño de la población. Un
individuo es, por tanto, cualquier ente observable que posee características medibles o
clasificables.

Muestra: A menudo, es imposible o poco práctico realizar un estudio exhaustivo de la


población, por lo que se hace necesario seleccionar un subconjunto representativo de la
misma, llamado muestra, cuyo estudio permite extraer conclusiones generalizables a toda la
población. El número de elementos de la muestra se denomina tamaño de la muestra.
Como ya hemos indicado, la estadística descriptiva trata únicamente de recoger, clasificar y
resumir los datos obtenidos a partir del estudio de una muestra, sin pretender obtener
conclusiones o hacer inferencias acerca de la población completa (objetivo de la inferencia
estadística).

Caracteres: Cualidades o características comunes de los individuos de la población, que se


desean estudiar en dicha población. Por ejemplo, en la población formada por los estudiantes
matriculados en la Diplomatura de Estadística para el curso actual, los caracteres pueden ser
sexo, edad, color de ojos, estatura, peso, etc.
Cada uno de los posibles estados que puede presentar un carácter se denomina modalidad.
Por ejemplo: hombre-mujer, 18-19-20-21-etc., negros-marrones-verdes-azules son las
modalidades de los caracteres sexo, edad y color de ojos, respectivamente. Las modalidades

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


de un carácter han de ser exhaustivas y excluyentes, es decir, cada individuo de la población
debe presentar una y sólo una de esas modalidades.

Los caracteres se pueden clasificar en cualitativos y cuantitativos:


Caracteres cualitativos o atributos son aquellos cuyas modalidades no son medibles, por
ejemplo, el sexo, el color de ojos, el nivel de estudios, la profesión, el estado civil, el grupo
sanguíneo, la nacionalidad, el nivel socio-económico, etc. serían caracteres cualitativos de una
persona.
Aunque los caracteres cualitativos no se pueden medir numéricamente, su información puede
venir dada en escala nominal o en escala ordinal. Se dice que la información relativa a un
carácter viene dada en escala nominal si entre las distintas modalidades o categorías (no
numéricas) no se puede establecer ningún orden natural, por ejemplo: sexo, color de ojos,
profesión, estado civil, grupo sanguíneo, nacionalidad, etc. Por el contrario, en una escala
ordinal sí es posible establecer un orden o graduación entre las distintas modalidades del
carácter, por ejemplo: nivel de estudios (primaria-secundaria-bachillerato-universitarios-
postgrado), nivel socio-económico (bajo-medio-alto), etc.

Caracteres cuantitativos son aquellos cuyas modalidades son medibles numéricamente, es


decir, a cada modalidad se le asigna un número de forma natural. Por ejemplo, la edad, la
estatura o el peso de una persona, el número de empleados de una empresa, el tamaño de un
municipio, etc.

Variable estadística o aleatoria. En general, una variable estadística es la representación


matemática de un carácter. Las variables estadísticas se suelen representar mediante las letras
X, Y, Z, etc. El término “variable” se refiere a que cambia de valor según el individuo que se
observe y el término “aleatoria” a que el valor observado varía en función de una función de
distribución de probabilidad, que puede ser conocida o no.
Una variable estadística podrá tomar tantos valores como modalidades presente el carácter
correspondiente. Los valores de una variable X se representarán mediante {x1;x2;…} los de una
variable Y mediante {y1;y2;…}, y así sucesivamente.

Atendiendo a la clasificación de los caracteres establecida anteriormente, las variables


estadísticas se clasifican asimismo en:

Variables estadísticas cualitativas: representan caracteres cualitativos y tienen un


tratamiento bastante especial. Su información puede venir dada en escala nominal u ordinal.

Variables estadísticas cuantitativas: representan caracteres cuantitativos y pueden ser:


Discretas: son aquellas que sólo pueden tomar valores aislados (en número finito o
infinito numerable), normalmente enteros (por ejemplo: número de hijos de una familia,
número de alumnos en una facultad, etc.).

Continuas: son las que, en general, pueden tomar cualquier valor real dentro de un
intervalo (por ejemplo: el peso o la estatura de una persona, la temperatura de un
cuerpo, la velocidad de un móvil, etc.)

Notemos que, con frecuencia, la distinción entre estos dos tipos de variables es más teórica
que práctica, en el sentido de que una misma variable puede ser considerada discreta o
continua, dependiendo de la precisión de los aparatos de medida. Así, muchas variables
continuas serán tratadas como discretas y viceversa.

Probabilidad: si un suceso puede ocurrir de n maneras mutuamente excluyentes e igualmente


verosímiles, y si na de éstas poseen un atributo A, la probabilidad de A es la fracción na/n
(Mood y Graybill, 1978).

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


2. Introducción a las funciones estadísticas en
EXCEL.

En este tema se van a introducir un conjunto de aplicaciones de Excel útiles para realizar
ejercicios de Estadística: funciones estadísticas, gráficos, tablas dinámicas y las herramientas
para el análisis de datos.

2.1. Funciones en Excel

Una función es una fórmula definida en Excel, que usaremos para realizar operaciones
complejas sobre valores numéricos, de texto o de otro tipo. Podremos aplicar funciones a datos
ubicados en celdas individuales o conjuntos de datos (filas, columnas, matrices). Una función
siempre devuelve un valor, que puede ser un texto, un número o un valor lógico. Podemos
utilizar funciones escribiendo directamente una expresión o bien utilizando el asistente , una
vez posicionados en la celda en la que deseamos que aparezca el resultado de la función.
Veamos un ejemplo de escritura directa de una función: supongamos que deseamos calcular la

suma de las cantidades que figuran en la columna A, fila 10, columna B desde la fila 5 hasta la
10, y las constantes 50 y 37, y que este resultado aparezca en la celda A20. Para ello,
hacemos clic sobre la celda A20 y escribimos
=SUMA(A10;B5:B10;50;37)

Los argumentos de una función pueden ser constantes, variables, rangos de celdas u otras
funciones o expresiones, siempre y cuando su resultado sea un valor del mismo tipo que el
argumento requerido. Los argumentos de una función se separan por punto y coma.

Si utilizamos el asistente de fórmulas nos aparecerá el cuadro de diálogo “Insertar función”. Las
funciones se encuentran agrupadas por categorías, que podemos ver en la lista desplegable, o
bien podemos utilizar la búsqueda para localizar la función que nos interesa. Para cada una de
las funciones, Excel dispone de un texto de ayuda con la descripción de la función, de sus
argumentos y ejemplos de uso.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Una vez seleccionada la función, en la siguiente pantalla introduciremos los argumentos de la
misma, escribiéndolos directamente o seleccionando rangos de celdas

Excel 2003 dispone de 80 funciones estadísticas para cálculo de medidas de tendencia central,
dispersión y forma, para series de datos, así como distribuciones de probabilidad, recuentos y
valores del estadístico en contrastes de hipótesis. En este curso veremos como aplicar las más
habituales para obtener una descripción de nuestros datos.

2.2. Gráficos
Excel permite crear gráficos a partir de los datos contenidos en un libro. Los gráficos permiten
visualizar la información de la hoja para poder comparar datos y deducir conclusiones.
TIPOS DE GRÁFICOS
• COLUMNAS: Muestra los cambios que han sufrido los datos en el transcurso de un
período de tiempo.
• BARRAS: Ilustran las comparaciones entre elementos individuales.
• LÍNEAS: Muestran las tendencias de los datos a intervalos temporales y compara
categorías.
• CIRCULAR: Muestran el tamaño proporcional de los elementos que conforman un todo.
• GRÁFICO XY O DIAGRAMA DE DISPERSIÓN: Muestran las relaciones entre valores
numéricos de varias series de datos.
• ÁREAS: Destacan la magnitud de los datos en el transcurso del tiempo.
• ANILLOS: Al igual que un gráfico circular muestra la relación de las partes con un todo,
aunque puede contener más de una serie de datos.
• RADIALES: Compara los valores de series de datos. Cada categoría tiene su propio eje de
valores. Las líneas conectan todos los valores de las mismas series.
• SUPERFICIE: Son útiles para conocer las combinaciones óptimas (máximos o mínimos)
entre dos conjuntos de datos.
• BURBUJAS: Es un gráfico de dispersión pero con tres variables.
• COTIZACIONES: Se utiliza para ilustrar la cotización de acciones. Requieren entre tres y
cinco series de datos (máximo, mínimo y cierre; apertura, máximo, mínimo y cierre;
volumen, máximos, mínimos y cierre; volumen, apertura, máximo, mínimo y cierre).
• CÓNICOS, CILÍNDRICOS Y PIRAMIDALES: Son equivalentes a los gráficos de columnas
y barras, cambiando únicamente la presentación.
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


ELEMENTOS DE UN GRÁFICO

Resumen de gastos
Título del
Marca de graduación gráfico
12.000

10.000
9.735
9.246 Área de trazado
Eje de valores 8.000
5.500 Est e año
6.000 Leyenda
4.139 Pasado año
Área del gráfico 4.000
2.000
1.488
2.000
1.500 Rótulos de datos
2.000

0
Líneas de división Personal Alquiler Viajes Suminist ros

Eje de categorías
Series de datos

CREAR UN GRÁFICO
Seleccionamos el rango de datos que vamos a representar y pulsamos el asistente de gráficos
o en el menú “Insertar” seleccionamos “Gráfico”. Seleccionamos el tipo de gráfico, para
cada categoría de gráfico se nos ofrece un subtipo.
En la ficha Tipos personalizados podemos encontrar gráficos combinación de dos tipos de
gráficos, por ejemplo, líneas y columnas, y gráficos con diseños más vistosos.

En el 2º paso del asistente si no he especificado el rango de datos o está mal podemos


seleccionarlo en la ficha Rango de datos pulsando el icono , que contrae el cuadro de
diálogo para poder seleccionar de la hoja el rango de datos y seleccionamos si los datos
queremos representarlos en filas o columnas. En la ficha Serie seleccionamos el rango donde
se encuentran los datos y nombres de las series de datos y el rango de los rótulos de los ejes
de categoría.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


er
En el 3 paso del asistente añadimos y damos formato a Títulos, Eje, Líneas de división,
Leyenda, Rótulos de datos y Tabla de datos.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


En el último paso del asistente elegimos la ubicación del gráfico.

2.3. Tablas y gráficos dinámicos


Una tabla dinámica consiste básicamente en una agrupación de una o varias series de
datos desagregados, de forma que obtengamos una vista resumida de los mismos. Con las
tablas dinámicas no solamente podremos elaborar casi cualquier tipo de informe que
necesitemos, sino que además podremos actualizar automáticamente los mismos a medida
que dispongamos de nuevos datos. Los informes de tablas y gráficos dinámicos constituyen
potentes herramientas para la elaboración de publicaciones o informes.

Para crear una tabla dinámica, acudiremos al menú “Datos” -> “Informe de tablas y gráficos
dinámicos”

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


El Asistente nos guiará en tres pasos en el proceso de creación del informe. En primer lugar
especificaremos la ubicación de los datos y el tipo de informe que vamos a generar.

A continuación, marcamos el rango de celdas que contienen los datos

Por último indicamos donde vamos a situar la tabla dinámica

Una vez hecho esto, la tabla se muestra sin contenidos. Debemos especificar en qué posición de
la tabla se presentarán los datos agregados. Para ello, seleccionaremos cada uno de los
elementos de la lista y lo agregaremos a una de las áreas de filas, columnas, datos o página.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Destacar que la opción Área Página nos permite seleccionar otro campo, de forma que la tabla
mostrará los datos para cada valor del campo que se ha especificado en Página, pero sólo uno
cada vez.
Hay un botón por cada título o campo de la base, esos botones se arrastran a:
Página: Si queremos que el elemento se presente de manera individual, por páginas.
Fila: Muestra los datos como cabecera de las filas.
Columnas: muestra los datos como cabecera de columna.
Área de datos: Siempre serán las columnas o campos que tengan datos numéricos, ya que con
ellos se realizan los cálculos, por defecto la suma.

Disponemos de las siguientes funciones de agregación de los datos:


- Suma
- Cuenta
- Promedio
- Máximo
- Mínimo
- Producto
- Contar números
- Desviación típica
- Desviación típica de la población
- Varianza
- Varianza poblacional

En el ejemplo se han elegido para las columnas las variables AÑO y MUNICIPIO, y para las filas
las variables GRUPO_EDAD y SEXO. Como valor agregado se ha añadido la suma de
POBLACION.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Una vez creada la tabla, podemos modificarla mediante las siguientes acciones, disponibles en el
menú que aparece cuando hacemos clic con el botón derecho del ratón sobre la tabla:

- Crear un gráfico dinámico, a partir de los datos de la tabla


- Ejecutar el asistente para modificar el diseño o las opciones de la tabla

- Actualizar los datos desde el origen. Esta opción es especialmente útil si los datos
proceden de una base de datos externa, puesto que nos permitirá actualizar el informe
sin tener que realizar los pasos previos de importar los datos desde la fuente
- Seleccionar un conjunto de filas o columnas para ocultar/mostrar el detalle o agregar y
desagregar elementos
- Especificar la función o funciones de agregación que aplicamos en el área de datos

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


- Opciones generales de tabla: título, formato, totales sí o no, tratamiento de valores
erróneos o nulos, etc.
-

- Ocultar/mostrar la barra de herramientas y la lista de campos de la tabla dinámica

2.4. Las macros “Análisis de datos” para el tratamiento


estadístico

Los principales desarrollos estadísticos que contiene la hoja de cálculo de Excel 2003
se encuentran en el menú “Herramientas” -> “Análisis de datos”. En caso de no encontrar esta
opción activada en nuestro ordenador entonces tendremos que cargar la macro Herramientas
para análisis desde el apartado “Complementos”, tal como se muestra en la figura siguiente.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Una vez cargada la macro las posibilidades de efectuar análisis y operaciones
estadísticas son numerosas. Muchas de estas posibilidades que se irán desarrollando a lo
largo del curso.

A continuación ofrecemos una breve descripción de los componentes de la macro Análisis de


Datos, esta es la que aparece en la opción ayuda que incorpora la hoja de cálculo EXCEL:

a) Análisis de varianza de un factor

Realiza un análisis simple de varianza para comprobar la hipótesis según la cual dos o
más muestras son iguales (extraídas de poblaciones con la misma media). Esta técnica
profundiza en las pruebas para dos medias, por ejemplo, la prueba t. El ANOVA, creado por
R.A. Fisher en 1925 para resolver diversos problemas agrícolas, tiene por objetivo
descomponer la variabilidad de los datos asociados a un experimento en componentes
independientes, las cuales son asignables a distintas causas.

b)Análisis de varianza de dos factores con varias muestras de grupo

Realiza una extensión del análisis de varianza de un factor con más de una muestra
por cada grupo de datos.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


c) Análisis de varianza de dos factores con una sola muestra por grupo

Realiza un análisis de dos factores con una sola muestra por grupo que comprueba la
hipótesis según la cual las medias de dos o más muestras son iguales (extraídas de
poblaciones con la misma media). Esta técnica profundiza en las pruebas para dos medidas
como, por ejemplo, la prueba t.

d) Coeficiente de correlación

Mide la relación entre dos conjuntos de datos que han sido calculados en escala para
ser independientes de la unidad de medida. El cálculo de la correlación de población devuelve
la covarianza de dos conjuntos de datos dividida por el producto de sus desviaciones estándar.

Podrá utilizar la herramienta Coeficiente de correlación para determinar si dos


conjuntos de datos varían conjuntamente, es decir, si los valores altos de un conjunto están
asociados con los valores altos del otro (correlación positiva), si los valores bajos de un
conjunto están asociados con los valores bajos del otro (correlación negativa) o si los valores
de ambos conjuntos no están relacionados (correlación tiende a cero).

Covarianza

Devuelve el promedio del producto de desviaciones de puntos de datos partiendo de


las medias respectivas. La covarianza es una medida de la relación entre dos rangos de datos.

Podrá utilizar la herramienta Covarianza para determinar si dos rangos de datos varían
conjuntamente, es decir, si los valores altos de un conjunto están asociados con los valores
altos del otro (correlación positiva), si los valores bajos de un conjunto están asociados con los
valores bajos del otro (correlación negativa) o si los valores de ambos conjuntos no están
relacionados (correlación tiende a cero).

Estadística descriptiva

Genera un informe de estadísticas de una sola variable para datos del rango de
entrada, y proporciona información acerca de la tendencia central y dispersión de los datos.

Suavización exponencial

Predice un valor basándose en el pronóstico correspondiente al período anterior,


ajustado al error de dicho pronóstico. Utiliza la constante de suavización a, cuya magnitud
determina la exactitud con la que los pronósticos responden a errores del pronóstico anterior.

Prueba F para varianzas de dos muestras

Realiza una prueba F de dos muestras para comparar las varianzas de dos
poblaciones. Por ejemplo, puede utilizar una prueba F para determinar si los tiempos de una
carrera de atletismo difieren en la varianza de las muestras de dos corredores.

Análisis de Fourier

Resuelve problemas de sistemas de líneas y analiza datos periódicos,


transformándolos mediante el método Fast Fourier Transform (FFT). Esta herramienta también
realiza transformaciones inversas, en las que el inverso de los datos transformados devuelve
los datos originales.

Histograma

Calcula las frecuencias individuales y acumulativas de rangos de celdas de datos y de


clases de datos. Genera datos acerca del número de apariciones de un valor en un conjunto de
datos. Por ejemplo, en una clase con 20 alumnos se desea obtener la distribución de

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


calificaciones mediante una categoría de puntuación por letras. Una tabla de histograma
presentará los límites de las calificaciones por letras así como el número de calificaciones que
hay entre el límite más bajo y el actual. La calificación más frecuente es la moda de los datos.

Media móvil

Proyecta valores en el período pronosticado, basándose en el valor promedio de la


variable calculada durante un número específico de períodos anteriores.

Una media móvil proporciona información de tendencias que quedaría enmascarada


por una simple media de todos los datos históricos. Utilice esta herramienta para pronosticar
ventas, inventarios u otras tendencias.

Generación de números aleatorios

Llena un rango con números aleatorios independientes extraídos de uno de varias


distribuciones. Podrá utilizar esta herramienta para caracterizar a los sujetos de una población
con una distribución de probabilidades. Por ejemplo, puede utilizar una distribución normal para
caracterizar la población de estatura de las personas, o utilizar una distribución de Bernoulli con
dos resultados posibles para caracterizar la población de resultados cuando se lanza una
moneda al aire.

Jerarquía y percentil

Crea una tabla que contiene los rangos ordinales y porcentuales de cada valor de un
conjunto de datos. Podrá utilizar este procedimiento para analizar la importancia relativa de los
valores en un conjunto de datos.

Regresión

Realiza un análisis de regresión lineal utilizando el método de mínimos cuadrados para


ajustar una línea a un conjunto de observaciones. Podrá utilizar esta herramienta para analizar
la forma en que una sola variable dependiente se ve afectada por los valores de una o más
variables independientes, por ejemplo, varios factores inciden en el rendimiento de un atleta,
entre ellos la edad, la altura y el peso. Basándose en un conjunto de datos acerca del
rendimiento, la regresión determina la parte de cada uno de los factores en las medidas de
rendimiento. Los resultados de la regresión podrán utilizarse entonces para predecir el
rendimiento de un atleta nuevo no sometido a prueba.

Muestra

Crea una muestra de la población tomando los datos del rango de entrada como
población. Es posible utilizar una muestra en lugar de toda la población cuando ésta sea
demasiado grande para procesarla o para presentarla gráficamente. Además, si cree que los
datos de entrada son periódicos, puede crear una muestra que contenga sólo los valores de
una parte determinada de un ciclo. Por ejemplo, si el rango de entrada contiene cifras de
ventas trimestrales, la muestra realizada con una tasa periódica de 4 permitirá colocar los
valores del mismo trimestre en la tabla de resultados.

Prueba t para medias de dos muestras emparejadas

Realiza una prueba t de Student en dos muestras emparejadas para determinar si las
medias de una muestra son distintas. En este tipo de prueba no se supone que las varianzas
de ambas poblaciones sean iguales. Puede utilizar la prueba emparejada cuando exista un par
de observaciones de las muestras, por ejemplo, cuando un grupo de muestra se somete dos
veces a prueba, antes y después de un experimento.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Prueba t para dos muestras suponiendo varianzas iguales

Realiza una prueba t de Student en dos muestras. En este tipo de prueba se supone
que las varianzas de ambos rangos son iguales, y se conoce con el nombre de prueba t
homoscedástica. Se emplea para determinar si las medias de dos muestras son iguales.

Prueba t para dos muestras suponiendo varianzas desiguales

Realiza una prueba t de Student en dos muestras. En este tipo de prueba se supone
que las varianzas de ambos rangos son desiguales, y se conoce con el nombre de prueba t
heteroscedástica. Utilícela para determinar si las medias de dos muestras son iguales y a partir
de qué momento se diferencian los grupos sometidos a estudio. Utilice una prueba emparejada
cuando exista un grupo antes del tratamiento y después de él.

Prueba z para medias de dos muestras

Realiza una prueba z en las medias de dos muestras con varianzas conocidas. Esta
herramienta se emplea para comprobar las hipótesis acerca de la diferencia existente entre las
medias de dos poblaciones, por ejemplo, puede utilizarla para estudiar las diferencias en el
rendimiento de dos modelos de vehículos.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


3.- Análisis de distribuciones

3.1.- Introducción
En este tema y los siguientes se van a introducir técnicas estadísticas para una sola variable,
es decir, que con lo que se va a tratar es una serie de valores {x1, x2, … , xn} que se habrán
obtenido de medir una variable en una serie de individuos. Si la serie corresponde a una
variable medida en un individuo a lo largo del tiempo tendremos una “serie temporal”, y si es
una variable medida en diversas localizaciones geográficas tendremos una “serie espacial”.
Estas dos últimas, aunque se les puede aplicar algunas de las técnicas explicadas, no
constituyen el objetivo de este capítulo.

3.2.- Distribuciones de frecuencias unidimensionales

3.2.1.- Tablas de Frecuencias en variables cualitativas o cuantitativas


discretas.
Una vez que se tienen los datos de una variable hay que ordenarlos y resumirlos. Una forma de
hacerlo es agrupar los valores iguales y contar las veces que se repite cada uno de ellos.
En variables cualitativas o cuantitativas discretas esta es la forma habitual de proceder, en
variables cuantitativas continuas se procederá primero a una agrupación de los datos.

Las definiciones de los distintos tipos de frecuencias se dan a continuación:

Frecuencia absoluta: Llamaremos así al número de repeticiones que presenta una


observación. Se representa por ni.

Frecuencia relativa: Es la frecuencia absoluta dividida por el número total de datos, se


suele representar por fi.
ni
fi =
n
Propiedad:
La suma de todas las frecuencias relativas, siempre debe ser igual a la unidad.

Si la variable que se está tratando es cualitativa ordinal o bien cuantitativa se pueden definir
otros dos tipos de frecuencias. Este tipo de frecuencias se pueden calcular para variables
cualitativas nominales, pero en ese caso el sentido de las mismas es escaso, ya que no existe
un orden natural para los valores de este tipo de datos.

Frecuencia absoluta acumulada: Es la suma de los distintos valores de la frecuencia


absoluta tomando como referencia un individuo dado. La última frecuencia absoluta
acumulada es igual al nº de casos:

Suponiendo que hay k valores distintos


N1 = n1
N2 = n1+ n2
Nk = n1 + n2 + . . . . . . + nk-1 + nk=n

Frecuencia relativa acumulada: es el resultado de dividir cada frecuencia absoluta


acumulada por el número total de datos, se la suele representar con la notación: Fi

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


De igual forma, también se puede definir a partir de la frecuencia relativa, como suma
de los distintos valores de la frecuencia relativa, tomando como referencia un individuo
dado. La última frecuencia relativa acumulada es igual a la unidad.

Tabla de frecuencias para una variable discreta. La ordenación en la tabla, será:

xi ni Ni fi Fi
x1 n1 N1 f1 F1
x2 n2 N2 f2 F2
x3 n3 N f3 1
Σni=N 1

3.2.2.- Tabla de frecuencias para variable continua: recorrido, intervalo,


amplitud, marca de clase, densidad de frecuencia.

Cuando nos encontramos con una distribución con un gran número de valores, se suelen
agrupar en intervalos para facilitar la comprensión de los datos. Esta práctica tiene en cambio
un inconveniente: se pierde información sobre la propia distribución.
[Li-1 , Li)
Se indica por Li-1 al extremo inferior del intervalo y por Li al extremo superior. Cerramos el
intervalo por la izquierda y abrimos por la derecha. Es una manera de organizarse, pudiendo
ser al contrario.

Para operar utilizaremos la marca de clase, el punto medio de un intervalo. Para calcularla
podemos definirla como la semisuma de los valores extremos del intervalo, esto es sumar los
extremos, y dividir entre 2.
L ++L
ci == i −−1−− ++ i
== 2

La amplitud del intervalo, sería la longitud del intervalo, se representa por:


a = Li - Li-1

NOTA: ¿Cómo obtener, a partir de los datos, una tabla de frecuencias agrupada?
 Nº de intervalos: A partir de la raíz cuadrada del número de datos
redondeando podemos obtener el número de intervalos.
 Recorrido: Valor mayor, menos valor menor de los datos. Re= xn-x1
 Amplitud: División entre el Recorrido y el número de intervalos que hayamos
decidido. Se puede redondear también.
Re
ai =
N º de int ervalos

NOTA: Si los intervalos no son de la misma amplitud hay que calcular la densidad de
frecuencia del intervalo -iésimo, como el cociente entre el número total de observaciones de
un intervalo y la amplitud del mismo
n
di = i
ai

3.2.3.- Ejemplos

Ejemplo 1

El gobierno desea averiguar si el número medio de hijos por familia ha descendido respecto de
la década anterior. Para ello ha encuestado a 50 familias respecto al número de hijos, y ha
obtenido los siguientes datos:

2 4 2 3 1 2 4 2 3 0 2 2 2 3 2 6 2 3 2 2 3 2 3 3 4

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


3 3 4 5 2 0 3 2 1 2 3 2 2 3 1 4 2 3 2 4 3 3 2 2 1

Se pide:

a) ¿Cuál es la población objeto de estudio?


b) ¿Qué variable estamos estudiando?
c) ¿Qué tipo de variable es?
d) Construir la tabla de frecuencias?
e) ¿Cuál es el número de familias que tiene como máximo 2 hijos?
f) ¿Cuántas familias tienen más de 1 hijo, pero como máximo 3?
¿Qué porcentaje de familias tiene más de 3 hijos?

Solución:

a) La población objeto de estudio es el conjunto de familias de un determinado país.

b) La variable que estamos estudiando es el número de hijos por familia

c) El tipo de variable es discreta ya que el número de hijos solo puede tomar determinados
valores enteros (es imposible tener medio o un cuarto de hijo).

d) Para construir la tabla de frecuencias tenemos que ver cuantas familias tienen un
determinado número de hijos. Podemos ver que el número de hijos, toma los valores existentes
entre 0 hijos, los que menos y 6 hijos, los que más y tendremos:

xi ni Ni fi Fi
0 2 2 0,04 0,04
1 4 6 0,08 0,12
2 21 27 0,42 0,54
3 15 42 0,30 0,84
4 6 48 0,12 0,96
5 1 49 0,02 0,98
6 1 50 0,024 1
N = 50 1

e) El número de familias que tienen dos o menos hijos es: 2+4+21 = 27

f) El número de familias que tienen más de un hijo pero tres como máximo es: 21 + 15 = 36

Por último el porcentaje de familias que tiene más de tres hijos, son aquellos que tienen 4; 5 y 6
es decir 6+1+1= 8

El porcentaje será el tanto por uno multiplicado por cien es decir, la frecuencia relativa de
dichos valores multiplicado por 100: ( 0,12+0,02+0,02)* 100 = 0,16 + 100 = 16 %

Ejemplo 2

Un nuevo hotel va a abrir sus puertas en cierta ciudad. Antes de decidir el precio de sus
habitaciones, el gerente investiga los precios por habitación de 40 hoteles de la misma
categoría de esa ciudad. Los datos obtenidos en euros fueron

23,4 28,2 22,2 33,6 25,8 29,4 30 36,6 30,6 27


31,8 23,4 25,8 30 36 28,2 30,6 25,2 26,4 34,8
19,8 25,8 24,6 34,8 26,4 28,8 36,6 25,8 31,8 27
24 32,4 23,4 28,2 19,8 27 28,2 25,2 27 28,8

Se pide:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


a) ¿Cuál es la población objeto de estudio?
b) ¿Qué variable estamos estudiando?
c) ¿Qué tipo de variable es?
d) ¿Qué problema plantea la construcción de la tabla de frecuencias?
e) ¿Cuánto hoteles tienen un precio entre 19 y 22 euros?
f) ¿Cuánto hoteles tienen un precio superior a 28?
g) ¿Qué porcentaje de hoteles cuestan como mucho 25?

SOLUCIONES:

a) La población objeto de estudio son los hoteles de una ciudad.


b) La variable que estamos estudiando es el precio.
c) El tipo de variable es continua.
d) El problema que plantea es que existen muchos valores diferentes. Por tanto es
conveniente agrupar la serie en intervalos.
La manera de hacerlo sería la siguiente: primero, calculamos el recorrido
Re = xn– x1= 36,6 – 19,8 = 16,8
Cuando no se nos dice nada sobre el nº de intervalos a tomar, éste se suele obtener
calculando la raíz cuadrada del nº de datos observado. Veremos que la raíz cuadrada de 40 es
igual a 6,32 por lo tanto tomaremos 6 intervalos, que es el entero más próximo.
Como el recorrido es 16,8, si lo dividimos por el nº de intervalos tendremos la amplitud de cada
uno de ellos y así: 16,8/6 = 2,8. Tomaremos 3 como amplitud del intervalo, puesto que resulta
más sencillo y claro operar con enteros y, puesto que la elección del número y amplitud de los
intervalos se deja a criterio del investigador, siempre preferiremos la opción más simple.

[Li-1,, Li) ni Ni fi Fi
[19 - 22) 2 2 0,05 0,05
[22 - 25) 6 8 0,15 0,2
[25 - 28) 12 20 0,3 0,5
[28 - 31) 11 31 0,275 0,775
[31 - 34) 4 35 0,1 0,875
[34 - 37) 5 40 0,125 1
N= 40

e) 2
f) 20
g) %=F2*100=0,2*100=20

3.2.4.- Primeros Gráficos estadísticos.

Para apreciar a golpe de vista la magnitud o posición de las variables, se suelen efectuar una
representación gráfica, los sistemas de gráficos más usuales son:

Diagrama de puntos
Este tipo de representación se suele utilizar con variables cuantitativas continuas, y consiste en
representar sobre una recta los valores obtenidos.
Permite apreciar la distribución de los datos a lo largo de su recorrido.

-2 -1 0 1 2 3 4 5

Diagrama de tallo-hojas
Este tipo de diagrama permite visualizar la distribución de una variable numérica.
Si se tienen los datos:

52 23 36 45 11 20 40 26 38 54 12 18 43 38 46 57
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


53 34 40 18 26 32 54 35 21 23 62 31 59 21 53 27
16 24 38 54 52 44 53 64 18 52 14 65 56 69 62 27
25 55 29 64 52 28 45 49 31 22 62 45 24 44 55 68

El diagrama es el siguiente:

1246888
011233445667789
11245688
003445569
222233344455679
22244589

En la parte izquierda está el primer dígito de los datos (pueden ser 2 o más dígitos). En la
parte derecha se encuentra el dígito final, de forma que cada dígito corresponde a un valor
(podrían ser también grupos de dos o más dígitos).

Diagrama de barras
Se utiliza para frecuencias absolutas o relativas, acumuladas o no, de una variable. En el eje
horizontal, situaremos los diferentes valores de la variable. En el eje vertical la frecuencia.
Levantaremos barras o columnas separadas de altura correspondiente a la frecuencia
adecuada.
18
16
14
12
10
8
6
4
2
0
a b c d e

Las barras se podrían dibujar en horizontal.

0 5 10 15 20

Este tipo de diagramas se puede utilizar para cualquier tipo de variables, pero para variables
continuas se han de agrupar en clases.

Diagrama de sectores
El área de cada sector es proporcional a la frecuencia que se quiera representar, sea absoluta
o relativa.

Para calcularlo podemos decir que el área depende del ángulo central, mediante la siguiente
proporción: ni/N=α/360
Como resulta ni /N = fi , tendremos que α = f i * 360

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


11%
20%

9%
a
b
c
d
24% e

36%

Este tipo de diagramas se puede utilizar para cualquier tipo de variables, pero para variables
continuas se han de agrupar en clases.

Histograma
Cuando la variable es continua se puede utilizar un histograma para su representación. En este
caso se dibujan rectángulos cuya base corresponde a la amplitud del intervalo (clase) y de
forma que el área del rectángulo corresponde a la frecuencia relativa de la clase.
200
150
Frecuencia

100
50
0

-4 -2 0 2 4

Los intervalos pueden no ser iguales:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


0.30
0.25
0.20
Frecuencia

0.15
0.10
0.05
0.00

-4 -2 0 2 4

Polígono de frecuencias
Es la recta que une los extremos superiores de un diagrama de barras (que no se dibuja
normalmente), o bien los puntos centrales de la base superior de los rectángulos de un
histograma.

18
16
14
12
10
8
6
4
2
0
a b c d e

Diagramas con frecuencias acumuladas


Son diagramas de barras o polígonos de frecuencias en los que se emplean las frecuencias
acumuladas.

0
1 2 3 4 5

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


6

0
1 2 3 4 5

Pictograma
Se suele utilizar para expresar un atributo. Se suelen utilizar iconos que se identifiquen con la
variable (ejemplo un pez) y su tamaño suele guardar relación con la frecuencia

Cartograma
Se representa la información mediante un diagrama convencional insertado en un mapa. Este
tipo se aplica a variables en la que los individuos son regiones geográficas.
Si las frecuencias o el valor de la variable se representa con colores tenemos lo que se llama
un mapa temático.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Más de 9 (0)
(7 9] (2)
(3 7] (4)
(1 3] (2)
hasta 1 (1)

Se pueden también representar barras con las frecuencias en cada una de las zonas,o bien
diagramas de sectores o cualquier otro.

3.3.- Medidas de posición en una distribución de frecuencias


unidimensional

3.3.1.- Introducción

En este tema y el siguiente vamos a obtener unos números que cuantifiquen las
propiedades fundamentales de la distribución de frecuencias. Estos números podemos
clasificarlos en:

Medidas de localización (posición). Son coeficientes de tipo promedio que tratan de


representar la situación una determinada distribución, pueden ser de dos tipos:
1.-Centrales:
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


-Medias:
Aritmética
Geométrica
Armónica
-Medianas
-Moda
2.-No centrales:
-Cuantiles:
Cuartiles
Deciles
Centiles o percentiles

Medidas de dispersión: Son complementarias de las de posición en el sentido que señalan la


dispersión en conjunto de todos los datos de la distribución respecto de la medida o medidas
de localización adoptadas.

Medidas de forma: Estudian la asimetría-simetría y deformación (apuntamiento,


aplastamiento) respecto de una distribución modelo denominada distribución NORMAL

Medidas de concentración: Estudian la concentración de una distribución frente a la


uniformidad.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


3.3.2.- Medidas de centralización.

MEDIA ARITMÉTICA: Es la suma de todos los valores de la variable dividida entre el número
total de elementos.
n

x + x2 + x3 + ....xn −1 + xn ∑x i
X = 1 = i =1

n n
Si el valor xi de la variable X se repite ni veces, aparece en la expresión de la media
aritmética de la forma:

X =
∑xn i i
,
n
n
ni
Como fi = otra posible expresión será X = ∑ xi fi
N i =1

Ejemplo: Si tenemos la siguiente distribución, se pide hallar la media aritmética, de los


siguientes datos expresados en kg.
xi ni xi ni
54 2 108
59 3 177
63 4 252
64 1 64
10 601

X=
∑x n i i
=
601
= 60,1 kg
n 10
NOTA: A la media aritmética se la denomina también CENTRO DE GRAVEDAD de la
distribución.

Si la variable esta agrupada en intervalos (variable continua), se asignan las frecuencias a las
marcas de clase y se procede como si la variable fuera discreta. En el futuro consideraremos
indistintamente  ci = xi

Ejemplo:

[Li-1,Li) xi = ci ni ci ni
[30 , 40) 35 3 105
[40 , 50) 45 2 90
[50 , 60) 55 5 275
10 470

X=
∑x n i i
=
470
= 47
n 10

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


MEDIA ARITMÉTICA PONDERADA: En ocasiones no todos los valores de la variable tienen el
mismo peso. Esta importancia que asignamos a cada variable, es independiente de la
frecuencia absoluta que tenga. Será como un aumento del valor de esa variable, en tantas
veces como consideremos su peso.

Es la media aritmética que se utiliza cuando a cada valor de la variable (xi) se le otorga una
ponderación o peso distinto de la frecuencia o repetición. Para poder calcularla se tendrá que
tener en cuenta las ponderaciones de cada uno de los valores que tenga la variable

Se la suele representar como:


∑x wn Xw =
i i i

∑w n i i

Siendo w la ponderación de la variable x y ∑ w la suma de todas las ponderaciones.


i i i

Ejemplo: Un estudiante realiza 3 exámenes de complejidad creciente, obteniendo los siguientes


resultados: 5, 8 y 7.
El primer examen lo hizo en ½ hora, el segundo en 1 hora y el tercero en hora y media, por lo
que se les atribuye una ponderación de 1, 2 y 3 respectivamente. Se pide calcular la nota
media.

Xi ni Wi xi wi
5 1 1 5
8 1 2 16
7 1 3 21
3 N=6 42

Si calculamos la media aritmética tendremos que :

X=
∑x n i i
=
5+8+7
= 6, 67 .
n 3
Ahora bien, si calculamos la media ponderada, obtendremos:
( 5 x1) + ( 8 x 2 ) + ( 7 x3) 5 + 16 + 21 42
xw = = = =7
(1 + 2 + 3) 6 6

Propiedades de la media aritmética


PROPIEDAD 1: La suma de las desviaciones de los valores de la variable con respecto a
la media aritmética es 0.

n
Veamos que resulta al operar la siguiente expresión: ∑ (x
i =1
i − X ) . Tendremos que

( ∑ x n − ∑ X n ) n1 = ( ∑ x n − X ∑ n ) n1 = ( ∑ x n − X n ) n1 =
n
ni 1
∑ (x
i =1
i − X)
ni
= ∑ ( xi ni − X ni ) =
ni
i i i i i i i i
i i i

 xi ni 1 1
 ∑ xi ni − ∑ . n = 0 = 0
 n  ni ni

PROPIEDAD 2: La media aritmética de los cuadrados de las desviaciones de los valores


de la variable con respecto a una constante cualquiera se hace mínima cuando dicha
constante coincide con la media aritmética (Teorema de KÖRING).

∑( x )
2

∑( x − k ) ni − x ni
2
ni
D (k ) =
i
= = prop 1 = 0 =0
i

n n n
Para k = x (media aritmética) el valor de las desviaciones será mínima.
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


PROPIEDAD 3: Si a todos los valores de la variable se le suma una misma cantidad, la
media aritmética queda aumentada en dicha cantidad:

Supongamos que tenemos una variable x de la que conocemos su media.


Supongamos ahora que tenemos otra variable, que se calcula a partir de la anterior de la
siguiente forma: yi = xi + k . Si ahora queremos calcular la media de esta segunda variable:
n

∑yn i i
∑(x + k ) ni ∑( x n + kni ) ∑ x n + ∑ kn ∑ x n + ∑ kn
y= i =1
= = = = =
i i i i i i i i i

n n n n n n

=
∑ xi ni +
kn
=
∑ xi ni +k
n n n

como
∑xn i i
= X si sustituimos tendremos Y = X + k
n
PROPIEDAD 4: Si todos los valores de la variable se multiplican por una misma
constante la media aritmética queda multiplicada por dicha constante. La demostración
se realizaría de manera análoga a la anterior.

NOTA: De las dos propiedades anteriores se deduce que la resta y la división se


realizarían de igual manera para la propiedad 3 y 4 respectivamente.

Corolario: Si una variable es transformación lineal de otra variable (suma de un número


y multiplicación por otro), la media aritmética de la 1ª variable sigue la misma transformación
lineal con respecto a la media aritmética de la 2ª variable, siendo
yi = a xi + b , donde a y b son números reales:

y=
∑yn i i
=
∑ (ax i + b)ni
=
∑ (ax n i i + bni )
=
a ∑ xi ni
+
b∑ ni
= ax + b
n n n n n
Podemos utilizar esta metodología para calcular la media de la siguiente distribución.

Xi ni
38432 4
38432 8
38436 4
38438 3
38440 8

xi − 38436
Si efectuamos un cambio de variable yi = tomando como nueva variable el
2
valor más centrado, tendremos:

xi ni yi yi ni
38432 4 (38432 - 38436)/2 = -2 -8
38432 8 (38432 - 38436)/2 = -1 -8
38436 4 (38436 - 38436)/2 = 0 0
38438 3 (38438 - 38436)/2 = 1 3
38440 8 (38440 - 38436)/2 = 2 16
n = 27 3
yi ni 3 1
y= = =
n 27 9

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


x − 38436
Como y=
, entonces
2
1
x = 2 y + 38436 = 2 + 38436 = 0, 222 + 38436 = 38436, 222
9

PROPIEDAD 5: - Si en un conjunto de valores se pueden obtener 2 ó más


subconjuntos disjuntos, la media aritmética del conjunto se relaciona con la media
aritmética de cada uno de los subconjuntos disjuntos de la siguiente forma:
N

∑x N i i
X = I =1

n
Siendo xi la media de cada subconjunto y Ni el núm. de elementos de cada subconjunto.

Veamos la demostración de la propiedad: Sea la distribución x1, x2,…, xn, xn+1, xn+2,…,xk,
observando que habrían como dos subconjuntos de n y k-n elementos cada uno. Si

X =
∑x n i i
y calculamos los sumatorios
consideramos la media aritmética de la distribución:
n
para los dos subconjuntos, la expresión de la media quedaría:
n k n k
∑x n
j =1
j j + ∑xn
r = n +1
r r ∑x n
j =1
j j ∑xn r r
X = = + r = n +1

n n n
Si multiplicamos numerador y denominador de cada una de las fracciones por una misma
cantidad el resultado no varía, por tanto, multiplicaremos la primera por N1 que es su número
de elementos del primer subconjunto y la segunda por N2 que es el correspondiente, la
expresión quedará:
 n   n 
 ∑ x jnj   ∑ x jnj 
 j =1   j =1 
N1   N2   n
n
 N1   N2 

k
N1 ∑ x j n j N 2 ∑ x r nr    
xjnj
j =1     =
+ r = n +1 = x1 y
j 1
X= = + como
N 1n N 2n n n N1
kn

∑x rj n jr
r = n +1
= x2 son la media del primer y segundo subconjunto, la expresión la podemos
N2
N1 N X N + X 2 N2
expresar de la siguiente manera: X = X1 + X2 2 = 1 1 que es lo que
n n n
queríamos demostrar ya que si las frecuencias se multiplican o dividen por un mismo número,
la media no varía

IMPORTANTE: Hay que tener en cuenta que la media aritmética es muy sensible a los
valores extremos, es decir, a valores numéricos muy diferentes, (tanto por lo grandes, o
pequeños que sean), al resto de la muestra. Esto puede resultar un problema. Hay formas de
resolverlo, que veremos más adelante.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


MEDIA GEOMÉTRICA Y ARMÓNICA.

Media geométrica: Responde a la siguiente expresión

G = n x1n1 x2n2 x3n2 ......xknk


y se la puede define, como la raíz n-ésima del producto de todos los valores de la variable.
También la podemos representar como:
1
G = (x x x .......x )
n1 n2 n3
1 2 3
nk n
k
NOTA: En muchas ocasiones, los valores de la distribución nos impiden poder efectuar
los cálculos al exceder la capacidad de la calculadora.
Utilizaremos las propiedades de los logaritmos:
 lg (a.b) = lg a + lg b
 lg an = n lg a
1
1
lg G = lg( x1n1 x2n2 x3n3 .......xknk ) n = lg( x1n1 x2n2 x3n3 .......xknk ) =
n
1
= (lg x1n1 + lg x2n22 + lg x3n3 + .... + lg xknk )
n
sabiendo que lo podemos expresar en notación compacta:
1 n lg xi
(n1 lg x1 + n2 lg x2 + n3 lg x3 + ...... + nk lg xk ) = ∑ i = lg G , por lo que podemos
n n
decir que
ni lg xi
G = anti lg ∑ n
El logaritmo de la media geométrica es la media aritmética de los logaritmos de los valores de
la variable. El problema se presenta cuando algún valor es 0 ó negativo y exponente de la raíz
par ya que no exista raíz par de un número negativo.

Suele utilizarse cuando los valores de la variable siguen una progresión geométrica.
También para promediar porcentajes, tasas, nº índices, etc. siempre que nos vengan dados en
porcentajes.

Ejemplo: Hallar la media geométrica de la siguiente distribución:

xi Ni
100 10
120 5
125 4
140 3
n = 22

lg G =
∑ n lg x
i i

n
por lo tanto será conveniente ampliar la tabla con lo que nos quedará

xi ni lg xi ni lg xi
100 10 lg 100 = 2 20
120 5 lg 120 = 2.079 10,396
125 4 lg 125 = 2.097 8,387
140 3 lg 140 = 2.146 6,438
n = 22 45.221
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


lg G =
∑ n lg x
i i
=
45, 221
= 2, 056
n 22
G = anti lg. 2,0555 = 113,632

Media armónica. La representaremos como H: Es la inversa de la media aritmética de las


inversas de los valores de la variable, responde a la siguiente expresión:

n n
H= =
n n n n
∑ xi x1 + x 2 + x3 + ....
i 1 21 3

Se utiliza para promediar velocidades, tiempos, rendimiento, etc. (cuando influyen los valores
pequeños).
Su problema: cuando algún valor de la variable es 0 o próximo a cero no se puede calcular.

Ejemplo: calcular la media armónica de la siguiente distribución:

xi Ni
100 10
120 5
125 4
140 3

Para poder hallarla, es necesario que calculemos el inverso de x y el inverso de la frecuencia


por lo que ampliaremos la tabla con 2 columnas adicionales:

xi ni 1/xi ni/xi Xini


100 10 1/100 0.1 1000
120 5 1/120 0.042 600
125 4 1/125 0.032 500
140 3 1/140 0.021 420
N= 22 0.195 2520

H=
n
=
22
= 112,82 X=
∑ x i ni =
2520
= 114,545
ni 0,195 n 22
∑x
i

Entre la media aritmética la media geométrica y media armónica se da siempre la siguiente


relación:
H ≤G≤ X

MEDIANA: Me

La mediana o valor mediano será el valor de la variable que separa en dos grupos los valores
de las variables, ordenadas de menor a mayor. Por tanto es una cantidad que nos indica orden
dentro de la ordenación.
n
El lugar que ocupa se determina dividiendo el nº de valores entre 2:
2
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Cuando hay un número impar de valores de la variable, la mediana será justo el valor de orden
n
central, aquel cuya frecuencia absoluta acumulada coincida con . Es decir:
2
n
N i −1 < ≤ N i ⇒ Me = xi . Por tanto la mediana coincide con un valor de la variable.
2
n
El problema está cuando haya un número par de valores de la variable. Si al calcular resulta
2
que es un valor menor que una frecuencia absoluta acumulada, el valor de la mediana será
aquel valor de la variable cuya frecuencia absoluta cumpla la misma condición anterior:
n N
N i −1 < ≤ N i ⇒ Me = xi . Por el contrario si coincide que = N i , para obtener la
2 2
x + xi +1
mediana realizaremos el siguiente cálculo: Me = i
2
Ejemplo: Sea la distribución

xi Ni Ni
1 3 3
2 4 7
5 9 16
7 10 26
10 7 33
13 2 35
N = 35
n 35
lugar que ocupa = = 17,5
2 2

n
como se produce que N i −1 < < N i ⇒ 16 < 17,5 < 26 ⇒ Me = xi ,por lo tanto Me = 7
2
El otro caso lo podemos ver en la siguiente distribución:

xi Ni Ni
1 3 3
2 4 7
5 9 16
7 10 26
10 6 32
N= 32

x1 + xi +1 5 + 7
Lugar que ocupa = 32/2 = 16 ==> Me = = =6
2 2
Notar que en este caso se podría haber producido que hubiera una frecuencia absoluta
acumulada superior a 16. En este caso se calcularía como en el ejemplo anterior.

En distribuciones agrupadas, hay que determinar el intervalo mediano [ Li−1 , Li ) , la forma de


hacerlo será calcular el valor de la mitad de n, y observar que intervalo tiene una frecuencia
n
absoluta acumulada que cumpla N i −1 < < Ni .
2
Después de saberlo haremos el siguiente cálculo:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


N
− N i −1
Me = Li −1 + 2 ai
ni

Siendo: [ Li-1, Li) el intervalo que contiene a la frecuencia acumulada N/2

ai = amplitud de dicho intervalo.

Ejemplo:

[ Li-1, Li) ni Ni
[20 , 25) 100 100
[25 , 30) 150 250
[30 , 35) 200 450
[35 , 40) 180 630
[40 , 45) 41 671
N = 671

671/2 = 335.5 ; Me estará en el intervalo [30 - 35 ). Por tanto realizamos el cálculo:


n
− N i −1
2 33, 5 − 250
Me = Li −1 + ai = 30 + * 5 = 32,138
ni 200

MODA: Mo

Será el valor de la variable que más veces se repite, es decir, el valor que tenga mayor
frecuencia absoluta.
Pueden existir distribuciones con más de una moda: bimodales, trimodales, etc.
En las distribuciones sin agrupar, la obtención de la moda es inmediata.

Ejemplo:
xi ni
1 2
2 7
3 5
4 7
5 4
Moda {2, 4}, en este caso tenemos una distribución bimodal.

En los supuestos que la distribución venga dada en intervalos, es decir, sea agrupada, se
pueden producir dos casos: que tengan la misma amplitud, o que esta sea distinta.

Si tienen la misma amplitud, en primer lugar tendremos que encontrar el intervalo modal, será
aquel que tendrá mayor frecuencia absoluta [ Li −1 , Li ) . Posteriormente realizaremos el
siguiente cálculo:

ni +1
Mo = Li −1 + ai
ni −1 + ni +1
Siendo:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Li-1 = extremo inferior del intervalo modal
ai amplitud de dicho intervalo
ni-1 y ni+1 densidades de frecuencia de los intervalos anterior y posterior
respectivamente al que contiene la moda.

Cuando los intervalos sean de distinta amplitud, el intervalo modal será el de mayor densidad
ni
de frecuencia , es decir di = ,ya que consideraremos la “calidad” del intervalo en función
ai
de la frecuencia y de la amplitud. Para realizar el cálculo, tendremos en cuenta la siguiente
di +1
expresión: Mo = Li −1 + ai
di −1 + di +1

Nota:
1.- Cuando hay una única moda, la mediana suele estar comprendida entre x y Mo.
2.- Cuando la distribución es simétrica (con 1 moda) se cumple que: x = Me=Mo
Ejemplo: Hallar la moda de la siguiente distribución

[Li-1,Li) ni Di = ni/ai
[0 , 25) 20 0.8
[25 , 50) 140 5.6
[50 , 100) 180 3.6
[100 , 150) 40 0.8
[150 , 200) 20 0.4

Calculamos el intervalo modal [25 – 50). Operamos:


di +1 3, 6
Mo = Li −1 + ai = 25 + 25 = 45,5
di −1 + di +1 0,8 + 3, 6

3.3.3.- Cuantiles: cuartiles, deciles y percentiles

Son medidas de localización similares a las anteriores. Se las denomina CUANTILES (Q). Su
función es informar del valor de la variable que ocupará la posición (en tanto por cien) que nos
interese respecto de todo el conjunto de variables.

Podemos decir que los Cuantiles son unas medidas de posición que dividen a la distribución en
un cierto número de partes de manera que en cada una de ellas hay el mismo de valores de la
variable.

Las más importantes son:


CUARTILES, dividen a la distribución en cuatro partes iguales (tres divisiones). C1,C2,C3,
correspondientes a 25%, 50%,75%.
DECILES, dividen a la distribución en 10 partes iguales (9 divisiones).D1,...,D9,
correspondientes a 10%,...,90%
PERCENTILES, cuando dividen a la distribución en 100 partes (99 divisiones).P1,...,P99,
correspondientes a 1%,...,99%.

Existe un valor en cual coinciden los cuartiles, los deciles y percentiles es cuando son iguales a
la Mediana y así veremos
2 5 50
= =
4 10 100
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Distinguiremos entre distribuciones agrupadas, y las que no lo están:
En las distribuciones sin agrupar, primero hallaremos el lugar que ocupa:
Entonces tendremos que:

Ni-1 < (%)n < Ni  Q = xi


xi + xi +1
en el supuesto que (%)n = Ni  Q=
2
En distribuciones agrupadas primero encontraremos el intervalo donde estará el cuantil, lugar
en el que Ni=1 < (%)n< Ni Intervalo [Li-1, Li) , en este caso:
( % ) N − Ni −1
Q = Li −1 + ai
ni

Ejemplo:
DISTRIBUCIONES NO AGRUPADAS: En la siguiente distribución

xi ni Ni
5 3 3
10 7 10
15 5 15
20 3 18
25 2 20
n = 20

Calcular la mediana (Me); el primer y tercer cuartil (C1,C3); el 4º decil (D4) y el 90 percentil (P90)

Mediana (Me)
Lugar que ocupa la mediana  lugar 20/2 = 10
Como es igual a un valor de la frecuencia absoluta acumulada, realizaremos es cálculo:
xi + xi +1 10 + 15
Me = = = 12, 5
2 2
Primer cuartil (C1)
Lugar que ocupa en la distribución ( ¼). 20 = 20/4 = 5 Como Ni-1 < (25%).n < Ni , es decir 3
< 5 < 10 esto implicara que C1 = xi = 10

Tercer cuartil (C3)


Lugar que ocupa en la distribución (3/4).20 = 60/4 = 15, que coincide con un valor de la
frecuencia absoluta acumulada, por tanto realizaremos el cálculo:
xi + xi −1 15 + 20
C3 = = = 17, 5
2 2
Cuarto decil (D4)
Lugar que ocupa en la distribución (4/10) . 20 = 80/10 = 8. Como Ni-1 < (%).n < Ni ya que 3
< 8 < 10 por tanto D4 =10.

Nonagésimo percentil (P90)


Lugar que ocupa en la distribución (90/100). 20 = 1800/100 = 18. que coincide con un valor de
la frecuencia absoluta acumulada, por tanto realizaremos el cálculo:
xi + xi −1 20 + 25
P90 = = = 22, 5
2 2
Ejemplo:
DISTRIBUCIONES AGRUPADAS: Hallar el primer cuartil, el cuarto decil y el 90 percentil de la
siguiente distribución:
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


[Li-1 , Li) ni Ni
[0 , 100) 90 90
[100 , 200) 140 230
[[200 , 300) 150 380
[300 , 800) 120 500
n = 500

Primer cuartil (C4)


Lugar ocupa el intervalo del primer cuartil: (1/4). 500 = 500/4 = 125. Por tanto C4 estará
situado en el intervalo [100 – 200).Aplicando la expresión directamente, tendremos:
125 − 90
C4 = 100 + 100 = 125
140
Cuarto decil (D4)
Lugar que ocupa: (4/10) . 500 = 200 . Por tanto D4 estará situado en el intervalo [100 – 200).
200 − 90
Aplicando la expresión tendremos: D4 = 100 + 100 = 178,57
140
Nonagésimo percentil (P 90)
Lugar que ocupa: (90/100) . 500 = 450, por tanto P90 estará situado en el intervalo [300 –
800). Aplicando la expresión tendremos:
450 − 380 70
P90 = 300 + 500 = 300 + 500 = 591, 67
120 120

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


3.4.- Características de las medidas de dispersión.
Las medidas de dispersión nos sirven para cuantificar la separación de los valores de una
distribución.
Llamaremos DISPERSIÓN O VARIABILIDAD, a la mayor o menor separación de los valores de
la muestra, respecto de las medidas de centralización que hayamos calculado.
Al calcular una medida de centralización como es la media aritmética, resulta necesario
acompañarla de otra medida que indique el grado de dispersión, del resto de valores de la
distribución, respecto de esta media.
A estas cantidades o coeficientes, les llamamos: MEDIDAS DE DISPERSIÓN, pudiendo ser
absolutas o relativas

Medidas de dispersión absolutas:


Recorrido
Recorrido intercuartílico.
Varianza
Desviación típica
Desviación media respecto de la mediana

Medidas de dispersión relativas


Coeficiente de variación de PEARSON
Indice de variación respecto de la mediana

3.4.1.- Medidas de dispersión absolutas

Recorrido: Se define como la diferencia entre el mayor y menor valor de las variables de
una distribución:
R = xn − x1

Recorrido intercuartílico: Se define como la diferencia entre el tercer y el primer cuartil:


Ri = C3 − C1

Desviación media respecto de la mediana: Es la media aritmética de los valores absolutos


de las desviaciones de los valores de la variable con respecto de la mediana.

D Me =
∑x i − Me ni
n
Varianza: Es la media aritmética de los cuadrados de las desviaciones de los valores de
la variable con respecto de la media de la distribución. Responde a la expresión

S2 =
∑ (x i − X )2 ni
n
Cuando se trabaja con muestras se suele utilizar la cuasi-varianza, que se obtiene como la
anterior pero en el divisor aparece n-1. Esta medida tiene mejores propiedades asintóticas
(muestras grandes) que la varianza.

NOTA: Su problema son las unidades ya que minutos al cuadrado no existen, y si hablamos de
longitud m x m nos daría metros al cuadrado o sea superficie. El valor de la varianza no lo
podemos tomar, pues, como la cantidad que resulta, en las unidades que nos proporcionan los
datos. Para hacernos una idea aproximada, nunca exacta, hay que obtener la raíz cuadrada, y
así esta nueva medida, es la desviación típica:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Si operamos, podemos obtener la siguiente expresión, que es mucho más sencilla de operar, y
obtenemos menos error de redondeo:

S 2
=
∑ (x i − X )2 ni
=
∑x n 2
i i
− X2
n n

Propiedades de la varianza :
1ª.- Es siempre un valor no negativo, que puede ser igual o distinta de 0. Será 0 solamente
cuando todos los valores de la variable sean iguales.
2ª.- Si a todos los valores de la variable se le suma una constante la varianza no se
modifica. Veámoslo:

S 2
=
∑ (x i − X ) 2 ni
n
Si a xi le sumamos una constante xi ’ = xi + k tendremos (sabiendo que x' = x + k )

S 2
=
∑ ( x ' − X ') n = ∑ [( x
i
2
i i + k ) − ( X '+ k )]2 ni
=
∑ (x i − X ) 2 ni
= S2
n n n
3ª.- Si todos los valores de la variable se multiplican por una constante la varianza queda
multiplicada por el cuadrado de dicha constante. Veámoslo:
Si a xi’ = xi · k tendremos (sabiendo que X ' = X ·k )

S 2
=
∑ ( x ' − X ') n = ∑ [( x ·k ) − ( X '·k )] n
i
2
i i
2
i
=
∑ [k ( x
i − X )]2 ni
=
N N N

=
∑ k ( xi − X )2 ni
2

=
k ∑ ( xi − X ) 2
2

= k 2 ·S 2
n n
4ª.- Si en una distribución obtenemos una serie de subconjuntos disjuntos, la varianza de la
distribución inicial se relaciona con la varianza de cada uno de los subconjuntos mediante la
expresión

S 2
=
∑N S i i
2

x
n

Siendo Ni el nº de elementos del subconjunto (i) y S2i la varianza del subconjunto (i)

Desviación típica: La desviación típica o standard, es la raíz cuadrada, con signo


positivo, de la varianza. Se representa por S, y tiene la siguiente expresión:

S = + S2 = +
∑ (x i − X ) 2 ni
N

Propiedades de la desviación típica

A su vez la desviación típica, también tiene una serie de propiedades que se deducen
fácilmente de las de la varianza (ya que la desviación típica es la raíz cuadrada de la varianza):

1ª.- La desviación típica es siempre un valor no negativo S será siempre ≥0 por definición.
Cuando S = 0  X = xi (para todo i).
2ª.- Si a todos los valores de la variable se le suma una misma constante la desviación
típica no varía.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


3ª.- Si a todos los valores de la variable se multiplican por una misma constante, la
desviación típica queda multiplicada por el valor absoluto de dicha constante.

3.4.2.- Gráficos con medidas de posición y dispersión: Diagrama de caja.


Una forma de representar gráficamente la distribución es la utilización de medidas para tener
una idea de la distribución de los valores.

Para construir un Diagrama de caja se utiliza la mediana y los cuartiles. En el gráfico siguiente
se indica la forma de hacerlo.

F1 f1 Q1 Me Q3 f2 F2
Me es la mediana
Q1 y Q3 son el primer y tercer cuartil
f1 es Q1-1,5(Q3-Q1) o el mínimo (el que sea más grande)
f2 es Q3+1,5(Q3-Q1) o el máximo (el que sea más pequeño)
F1 es Q1-3(Q3-Q1)
F2 es Q3+3(Q3-Q1)

Los puntos entre f1 y F1 se representan de una forma, lo mismo que los que están entre f2 y F2
Los puntos menores de F1 o mayores que F2 se representan de otra.
Ambos tipos de observaciones son lo que se conoce como observaciones atípicas.

También son útiles estos gráficos para comparar distribuciones.


100
50
20
10
5
2

A B C D E F G H

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


3.4.3.- Medidas de dispersión relativa. Coeficiente de variación de
PEARSON.

El problema de las medidas de dispersión absolutas es que normalmente son un indicador que
nos da problemas a la hora de comparar. Comparar muestras de variables que entre sí no
tienen cantidades en las mismas unidades, de ahí que en ocasiones se recurra a medidas de
dispersión relativas. El coeficiente de variación de PEARSON es una de las más significativas y
lo podemos definir, como el cociente entre la desviación típica y la media aritmética de
una distribución.

Es necesario tener en cuenta que al efectuar el cociente eliminamos las unidades por tanto V
es adimensional.
S
Vx =
X

El coeficiente de variación no se ve influido si multiplicamos todos los valores de la variable por


una constante
kS kS
Vx = = = Vx
kX k X
Propiedad:
Si a todos los valores de la variable se le suma una misma constante el coeficiente de
variación queda alterado. Es consecuencia inmediata de las propiedades de la media.

3.5.- Distribuciones de Frecuencias Bidimensionales

De forma general, si se estudian sobre una misma población y se miden por las mismas
unidades estadísticas una variable X y una variable Y, se obtienen series estadísticas de las
variables X e Y.
Considerando simultáneamente las dos series, se suele decir que estamos ante una variable
estadística bidimensional.

3.5.1.- Distribuciones estadísticas bidimensionales: tablas de doble


entrada o de contingencia o de correlación

Tablas de doble entrada o de contingencia

Sea una población estudiada simultáneamente según dos caracteres X e Y; que


representaremos genéricamente como (xi; yj; nij), donde xi; yj, son dos valores cualesquiera y nij
es la frecuencia absoluta conjunta del valor i-ésimo de X con el j-ésimo de Y.
Una forma de disponer estos resultados es la conocida como tabla de doble entrada o tabla de
contingencia, la cual podemos representar como sigue:

Y y1 y2 ….. yj ….. yk ni .
X
x1 n11 n12 ….. n1j ….. n1k n1 .
x2 n21 n22 ….. n2j ….. n2k n2 .
. . . . . . . .
. . . …. . …. . .
. . .
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


xi ni1 ni2 ….. nij ….. nik ni .
. . . . . . . .
. . . …. . …. . .
. . . . . . . .
xh nh1 nh2 ….. nhj ….. nhk nh .
n. j n. 1 n. 2 ….. n. j ….. n. k N

En este caso, n11 nos indica el número de veces que aparece x1 conjuntamente con y1;
n12, nos indica la frecuencia conjunta de x1 con y2, etc.

3.5.2.- Distribuciones marginales


Dada la distribución bidimensional (xi ; yj ; nij), se llaman distribuciones marginales a cada una
de las dos distribuciones unidimensionales que se pueden obtener, de forma que en cada una
de ellas no se tenga en cuenta la otra, es decir, dada la siguiente distribución bidimensional;

Y
X y1 Y2 Y3 y4 ni.

x1 n11 n12 n13 n14 n1 .

x2 n21 n22 n23 n24 n2.

x3 n31 n32 n33 n34 n3 .

x4 n41 n42 n43 n34 n4.

n.j n.1 n.2 n.3 n.4 N

podemos obtener las siguientes distribuciones marginales

X Y

xi ni. yj n.j

x1 n1. y1 n.1

x2 n2. y2 n.2

x3 n3 . y3 n.3

x4 n4. y4 n.4
n n

Por tanto, podemos decir:

n N
∑n j. = ∑n. j = ∑∑nij = n
i =1 j =1

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


3.5.3.- Distribuciones condicionadas. Caso de independencia estadística
Al poner una restricción o condición a una de las dos variables, tenemos las distribuciones
condicionadas.
Se las suele representar como:
X/Y , indica que el valor de X viene condicionado por Y
Y/X indica que el valor de Y viene condicionado por X

Independencia estadística
Se dice que dos variables X e Y son independientes estadísticamente cuando la frecuencia
relativa conjunta es igual al producto de las frecuencias relativas marginales en todos los
casos, es decir:

nij ni. n. j
= ·· Para todo i, j
n n n

Si esto no se cumple para todos los valores se dice que hay dependencia estadística.

3.5.4.- Covarianza. Caso de independencia


En el estudio conjunto de dos variables, lo que nos interesa principalmente es saber si
existe algún tipo de relación entre ellas. Esto se ve gráficamente con el diagrama de dispersión.
Veremos ahora una medida descriptiva que sirve para medir o cuantificar esta relación:
n k ( xi − x)( y j − y )nij
S xy = ∑∑
i =1 j =1 n

Si Sxy >0 hay dependencia directa (positiva), es decir a grandes valores de x


corresponden grandes valores de y.
Si Sxy = 0 las variables están incorreladas, es decir no hay relación lineal.
Si Sxy < 0 hay dependencia inversa o negativa, es decir a grandes valores de x
corresponden grandes valores de y.

Gráficamente, indicaría la Covarianza, que los datos, se ajustan a una recta, en los
siguientes casos:

Sxy >0 Sxy<0

PROPIEDADES DE LA COVARIANZA:
1.- Si a todos los valores de la variable x, les sumamos una constante k y a todos los valores
de la variable y les sumamos una constante k’, la covarianza no varía.
2.- Si a todos los valores de una variable x los multiplicamos por una constante k y a todos los
valores de la variable y los multiplicamos por una constante k’, su covarianza queda
multiplicada por el producto de las constantes.
3.- A partir de las anteriores: si tenemos dos variables x, y con la covarianza Sxy, y
transformaciones lineales de las variables de la forma z=ax+b, y t=cy+d, la nueva
covarianza se relaciona con la anterior de la forma: Szt=acSxy.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


xi y j nij
4.- Otra forma de calcular la Covarianza sería: S xy = ∑∑ − X Y . Será la que
i j n
utilizaremos en la práctica.

NOTA: El inconveniente de la covarianza, como medida de asociación es su dependencia de


las unidades. Habrá que definir una nueva medida, que no está afectada por los
cambios en las unidades de medida. Esta medida será el coeficiente de correlación
lineal rxy, con la siguiente expresión:
S xy
rxy =
Sx S y
siendo Sx y Sy las desviaciones típicas de x e y. Este coeficiente es adimensional y siempre
estará entre –1 y 1.
 Si hay relación lineal positiva, rxy>0 y próximo a 1.
 Si hay relación lineal negativa rxy<0 y próximo a –1.
 Si no hay relación lineal rxy será próximo a 0.

NOTA: Cuando las variables x e y son independientes, Sxy =0, y por tanto rxy=0. Es decir, si
dos variables son independientes su covarianza vale cero. No podemos asegurar lo
mismo en sentido contrario. Si dos variables tienen covarianza cero, no podemos
decir que son independientes. Sabemos que linealmente no tienen relación, pero
podrían tener otro tipo de relación y no ser independientes.

Ejemplo:
A partir de los siguientes datos, vamos a calcular la Covarianza y el coeficiente de correlación:

Altura 175 180 162 157 180 173 171 168 165 165
Peso 80 82 57 63 78 65 66 67 62 58

Los cálculos que necesitamos:


x = 169 '6 sx = 7 '2139
y = 67 '8 s y = 8'7567
175 ⋅ 80 + 180 ⋅ 82 + 162 ⋅ 57 + L
sxy = − 169 '6 ⋅ 67 '8 = 52 '32
10
Ahora se puede calcular el coeficiente de correlación lineal rxy y el de determinación lineal R2
52 '32
rxy = = 0 '8282
7 ' 2139 ⋅ 8'7567
que nos indica que las variables están relacionadas.

3.5.5.- Representaciones gráficas: diagrama de dispersión o nube de


puntos
Representamos en ejes coordenados, una de las dos variables en el eje X, y la otra en el eje Y.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Nube de puntos
82

77

Pesos (kg.)
72

67

62

57
150 155 160 165 170 175 180
Alturas (cm.)

Para indicar el número de coincidencias, o bien ponemos símbolos diferentes, o bien indicamos
entre paréntesis, el número nii.

3.6.- Distribuciones de probabilidad. Algunas distribuciones de


interés
Una distribución de probabilidad es, en términos generales, cualquier regla o mecanismo que
determine la probabilidad de que una variable aleatoria X tome un determinado valor x (v.a.
discreta) o se encuentre comprendida en un rango (v.a.continua). Esta regla o mecanismo
puede ser un gráfico, una tabla o una función. Toda distribución de probabilidad, ha de cumplir
estos dos requisitos:

x
1) P ( X ≤ x) ≥ 0∀x si la v.a. es discreta o bien ∫ f ( x)dx ≥ 0∀x si es continua
−∞

2) ∑ P( X = x) = 1 si es discreta o ∫ f ( x)dx =1 si es continua
−∞

Una función de distribución de probabilidad es la expresión que nos indica cual es la


probabilidad de que la variable aleatoria tome un valor menor o igual que x. En notación
matemática

F ( x) =P ( X ≤ x)

La función de densidad de probabilidad es la derivada de la función de distribución y nos indica


la probabilidad de que la v.a. X tome un determinado valor x (v.a. discreta). En el caso de una
v.a. continua, la integral definida en un intervalo [a,b] de la función de densidad proporciona la
probabilidad de que la v.a. se encuentre en [a,b].

Distribución binomial
La distribución binomial es una distribución de probabilidad discreta del número de éxitos en
una secuencia de n experimentos independientes, cada uno de los cuales tiene probabilidad θ
de ocurrir. Su función de densidad de probabilidad está dada por:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


para , siendo las combinaciones de n en x (n
elementos tomados de x en x)

Por ejemplo, la distribución binomial se usa para encontrar la probabilidad de sacar 5 caras y 7
cruces en 12 lanzamientos de una moneda. En este caso se tiene que
y resulta:

Su media y su varianza son:

Distribución hipergeométrica
Una v.a. X que toma todos los valores comprendidos entre 0 y n, sigue una distribución
hipergeométrica cuando:

 Np  Nq 
  
x  n − x 
[
P X n =x = ]

N
 
x 

Esta función proporciona la probabilidad de obtener un número determinado de "éxitos" en una


muestra, conocidos el tamaño de la muestra, n, el número de éxitos de la población, p, y el
tamaño de la población, N. Esta distribución proporciona la base teórica para el muestreo
aleatorio sin reposición en poblaciones finitas.
N −n
E ( X n ) =np σ =
2
Su esperanza (media) y varianza son y npq
N −1

Distribución Normal
Se hace necesario, para la teoría siguiente, conocer la distribución normal , ya que tiene gran
importancia al querer estudiar el apuntamiento o curtosis. Se dice que una distribución tiene un
apuntamiento u otro, siempre en comparación con la distribución normal.
También es conocida como “campana de Gauss”, debido a su forma. Esta “campana” responde
a la representación gráfica de la función de densidad de la distribución:

(x−µ)
2

1 −
f ( x) = e 2σ
2

σ 2π

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


La importancia de la distribución normal se debe principalmente a que hay muchas variables
asociadas a fenómenos naturales que siguen el modelo de la normal:

• Características biométricas

• Caracteres fisiológicos como el efecto de un fármaco

• Caracteres sociológicos como el consumo de cierto producto por un mismo


grupo de individuos

• Caracteres psicológicos como el cociente intelectual

• Nivel de ruido en Telecomunicaciones

• Errores cometidos al medir ciertas magnitudes

• Valores estadísticos muestrales como la media

La representación gráfica de la función de densidad de la distribución normal, de parámetros µ


y σ, N(µ, σ), tiene las siguientes características:

a) es simétrica respecto a la media (parámetro µ)


b) creciente para x < µ y decreciente para x > µ
c) hay un máximo en x = µ
d) el valor de f(x) se acerca asintóticamente a 0 cuando x -> ±∞

Cuando µ = 0 y σ = 1, la distribución se conoce con el nombre de normal estándar.


Dada una variable aleatoria normal X, con media µ y desviación típica σ, si definimos otra

variable aleatoria , entonces la variable aleatoria Z tendrá una distribución


normal estándar de media 0 y desviación típica 1. Se dice que se ha tipificado la variable X.

Distribuciones derivadas de la normal

Las distribuciones que se explican a continuación se obtienen como combinaciones de


funciones de distribución de variables aleatorias independientes que siguen una distribución
normal.
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


2
Distribución Χ de Pearson
La variable aleatoria resultante de sumar k variables aleatorias independientes, que siguen una
distribución normal estándar (media = 0 y desviación típica = 1), tiene una distribución que se
2
denomina X con k grados de libertad.
La función de densidad de la variable así construída viene dada por la siguiente expresión:

donde y fk(x) = 0 para .

Γ es la función gamma.
La esperanza matemática es igual a k y la varianza es 2k.
2
La distribución X es asimétrica y su propiedad fundamental es que, si sumamos dos variables
2 2
aleatorias X independientes de grados de libertad n y m, se obtiene una nueva v.a. X con
n+m grados de libertad.
Esta distribución tiene muchas aplicaciones en inferencia estadística, por ejemplo en el test ji-
cuadrado y en la estimación de varianzas. También está involucrada en el problema de estimar
la media de una población normalmente distribuida y en el problema de estimar la pendiente de
una recta de regresión lineal, a través de su papel en la distribución t de Student, y participa en
todos los problemas de análisis de varianza, por su papel en la distribución F de Snedecor, que
es la distribución del cociente de dos variables aleatorias de distribución ji-cuadrado e
independientes.

Cuando k es suficientemente grande se aproxima por la distribución normal.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


4.- Medidas de desigualdad y concentración

4.1.- Medidas de forma


Las medidas de forma de una distribución se pueden clasificar en dos grandes grupos o
bloques: medidas de asimetría y medidas de curtosis.

4.1.1.- Asimetría

Cuando al trazar una vertical, en el diagrama de barras o histograma, de una variable, según
sea esta discreta o continua, por el valor de la media, esta vertical, se transforma en eje de
simetría, decimos que la distribución es simétrica. Diremos pues, que es simétrica, cuando a
ambos lados de la media aritmética haya el mismo nº de valores de la variable, equidistantes
de dicha media dos a dos, y tales que cada par de valores equidistantes tiene la misma
frecuencia absoluta. En caso contrario, dicha distribución será asimétrica o diremos que
presenta asimetría.

Asimétrica a la derecha Asimétrica a la izquierda Simétrica

Para calcular la asimetría, una posibilidad, es utilizar el llamado coeficiente de FISHER que
representaremos como g1 y responderá a la siguiente expresión matemática:

g1 =
∑ (x i − x)3 ni
ns 3
Según sea el valor de g1, diremos que la distribución es asimétrica a derechas o positiva, a
izquierdas o negativa, o simétrica, o sea:

Si g1 > 0  la distribución será asimétrica positiva o a derechas (desplazada hacia la


derecha).
Si g1 < 0  la distribución será asimétrica negativa o a izquierdas (desplazada hacia la
izquierda).
Si g1 = 0  la distribución será simétrica.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Otra posibilidad de calcular la asimetría, es por medio del coeficiente de PEARSON (Ap), el
cual responde a la siguiente expresión.
X − Mo
Ap =
S
Aunque en la práctica este coeficiente sería más fácil de calcular que el anterior, casi no lo
utilizaremos ya que solo es cierto cuando la distribución tiene las siguientes condiciones:
Unimodal
Campaniforme
Moderada o ligeramente asimetrica.
Si Ap > 0  la distribución será asimétrica positiva o a derechas (desplazada hacia la
derecha).
Si Ap < 0  la distribución será asimétrica negativa o a izquierdas (desplazada hacia la
izquierda).
Si Ap = 0  la distribución será simétrica.

NOTA: Otro coeficiente es el coeficiente de asimetría de Bowley, menos utilizado. El cual


esta basado en la posición de los cuartiles y la mediana, para lo cual los relacionaremos de
acuerdo con la siguiente expresión:
C3 + C1 − 2Me
Ab =
C3 + C1

4.1.2.- Curtosis

Para calcularlo utilizaremos la expresión

g2 =
∑ (x i − X ) 4 ni
−3
ns 4

Si g2> 0 la distribución será leptocúrtica o apuntada


Si g2 = 0 la distribución será mesocúrtica o normal
Si g2 < 0 la distribución será platicúrtica o menos apuntada que lo normal.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


4.2.- Medidas de concentración: Indice de Gini y Curva de
Lorenz.
Las medidas de concentración tratan de poner de relieve el mayor o menor grado de igualdad
en el reparto del total de los valores de la variable, son por tanto indicadores del grado de
distribución de la variable.

Para este fin, están concebidos los estudios sobre concentración.

Denominamos concentración a la mayor o menor equidad en el reparto de la suma total de los


valores de la variable considerada (renta, salarios, etc.).

Las infinitas posibilidades que pueden adoptar los valores, se encuentran entre los dos
extremos:

1.- Concentración máxima, cuando uno solo percibe el total y los demás nada, en este
caso, nos encontraremos ante un reparto no equitativo:
x1 = x2 = x3 = ………… = xn-1 = 0 y xn.
2.- Concentración mínima, cuando el conjunto total de valores de la variable esta
repartido por igual, en este caso diremos que estamos ante un reparto equitativo
x1 = x2 = x3 = ………… = xn-1 = xn

De las diferentes medidas de concentración que existen nos vamos a centrar en dos:
Indice de Gini, Coeficiente, por tanto será un valor numérico.
Curva de Lorenz, gráfico, por tanto será una representación en ejes coordenados.

4.3..- Cálculo e interpretación de los índices de concentración


Sea una distribución de rentas (xi, ni) de la que formaremos una tabla con las siguientes
columnas:

1.- Los productos xi ni, que nos indicarán la renta total percibida por los ni rentistas de
renta individual xi.
2.- Las frecuencias absolutas acumuladas Ni .
3.- Los totales acumulados ui que se calculan de la siguiente forma:
u1= x1 n1
u2 = x1 n1 + x2 n2
u3 = x1 n1 + x2 n2+ x3 n3

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral



un = x1 n1 + x2 n2+ x3 n3+ … + xn nn
n
Por tanto podemos decir que un = ∑ xi ni
i =1
4.- La columna total de frecuencias acumuladas relativas, que expresaremos en tanto por
ciento y que representaremos como pi y que vendrá dada por la siguiente notación
Ni
pi = 100
n
5.- La renta total de todos los rentistas que será un y que dada en tanto por ciento, la cual
representaremos como qi y que responderá a la siguiente notación:
ui
qi = 100
un

Por tanto ya podemos confeccionar la tabla que será la siguiente:


Ni ui
Xi ni xi ni Ni ui pi = 100 qi = 100 pi - qi
n un
x1 n1 x1 n1 N1 u1 p1 q1 p1 - q1
x2 n2 x2 n2 N2 u2 p2 q2 p2 - q2
... ... ... ... ... ... ... ...
Xn nn xn nn Nn un pn qn pn - qn
Como podemos ver la última columna es la diferencia entre las dos penúltimas, esta diferencia
seria 0 para la concentración mínima ya que pi = qi y por tanto su diferencia seria cero.

Si esto lo representamos gráficamente obtendremos la curva de concentración o curva de


Lorenz .La manera de representarlo será, en el eje de las X, los valores pi en % y en el de las
Y los valores de qi en %. Al ser un %, el gráfico siempre será un cuadrado, y la gráfica será una
curva que se unirá al cuadrado, por los valores (0,0), y (100,100), y quedará siempre por
debajo de la diagonal.
La manera de interpretarla será: cuanto más cerca se sitúe esta curva de la diagonal, menor
concentración habrá, o más homogeneidad en la distribución. Cuanto más se acerque a los
ejes, por la parte inferior del cuadrado, mayor concentración.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Veamos dos ejemplos, el de la izquierda de poca concentración y el de la derecha de más
concentración.

Analíticamente calcularemos el índice de Gini el cual responde a la siguiente ecuación


k −1

∑( p i − qi )
IG = i =1
k −1

∑p
i =1
i

Este índice tomara los valores de IG = 0 cuando pi = qi concentración mínima y de Ig = 1


cuando qi = 0
Esto lo veremos mejor con un ejemplo

Frecuencia
marca xini Σ un qi =(ui/un) 100 pi = (Ni/n) 100 pi - qi
Li-1 – Li xi ni Ni
0 – 50 25 23 23 575 575 1,48 8,85 7,37
50 – 100 75 72 95 5400 5975 15,38 36,54 21,16
100 – 125 62 157 7750 13725 35,33 60,38 25,06
150
150 – 175 48 205 8400 22125 56,95 78,85 21,90
200
200 – 225 19 224 4275 26400 67,95 86,15 18,20
250
250 – 275 8 232 2200 28600 73,62 89,23 15,61
300
300 – 325 14 246 4550 33150 85,33 94,62 9,29
350
350 – 375 7 253 2625 35775 92,08 97,31 5,22
400
400 – 425 5 258 2125 37900 97,55 99,23 1,68
450
450 – 475 2 260 950 38850 100,00 100,00 0,00

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


500

260 38850 651,15 125,48

Se pide Índice de concentración y Curva de Lorenz correspondiente

Indice de concentración de GINI

k −1

∑( p i − qi )
125, 48
IG = i =1
k −1
= = 0,193
651,15
∑p
i =1
i

Observamos que hay poca concentración por encontrarse cerca del 0.

Curva de Lorenz
La curva la obtenemos cerca de la diagonal, lo que indica que hay poca concentración:
100,0

90,0

80,0

70,0

60,0

50,0

40,0

30,0

20,0

10,0

0,0
0,0 10,0 20,0 30,0 40,0 50,0 60,0 70,0 80,0 90,0 100,0

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


5. MODELO DE REGRESIÓN LINEAL

5.1.- El Método de los Mínimos Cuadrados Ordinarios.


La regresión lineal es una de las técnicas más utilizadas en el trabajo econométrico. Mediante
dicha técnica tratamos de determinar relaciones de dependencia de tipo lineal entre una
variable dependiente o endógena, Y, respecto de una o varias variables explicativas o
endógenas, X. En este epígrafe comenzaremos el estudio del caso de una única ecuación de
tipo lineal con una variable dependiente y una independiente, dejando para el próximo epígrafe
la generalización del modelo al caso de multiples variables exógenas.

Se trata de estudiar una ecuación o un modelo del siguiente tipo:

Yt = a + bX t + et

Nuestra labor consiste en estimar los parámetros a y b de la ecuación anterior a partir de los
datos muestrales de los que disponemos. Para ello utilizaremos el método de los Mínimos
Cuadrados Ordinarios (MCO), pero antes de ver en que consiste este método debemos hacer
ciertas hipótesis sobre el comportamiento de las variables que integran el modelo.

A la variable et la denominamos término de perturbación o error, y es una variable que recoge


todos aquellos factores que pueden influir a la hora de explicar el comportamiento de la
variable Y y que, sin embargo, no están reflejados en la variable explicativa X. Estos factores
deben ser poco importantes, es decir, no puede existir ninguna variable explicativa relevante
omitida en el modelo de regresión. De ser así, estaríamos incurriendo en lo que se conoce
como un error de especificación del modelo. El término de perturbación también recoge los
posibles errores de medida de la variable dependiente, Y.

De lo anterior se desprende que, a la hora de estimar los parámetros del modelo, resultará de
vital importancia que dicho término de error no ejerza ninguna influencia determinante en la
explicación del comportamiento de la variable dependiente. Por ello, cuando se aplica el
método de mínimos cuadrados ordinarios, se realizan las siguientes hipótesis de
comportamiento sobre el término de error:

1. La esperanza matemática de et es cero, tal que E(et) = 0. Es decir, el comportamiento


del término de error no presenta un sesgo sistemático en ninguna dirección
determinada. Por ejemplo, si estamos realizando un experimento en el cual tenemos
que medir la longitud de un determinado objeto, a veces al medir dicha longitud
cometeremos un error de medida por exceso y otras por defecto, pero en media los
errores estarán compensados.

2. La covarianza entre ei y ej es nula para i ≠ j tal que E(ei·ej) = 0. Ello quiere decir que el
error cometido en un momento determinado, i, no debe estar correlacionado con el
error cometido en otro momento del tiempo, j, o dicho de otro modo, los errores no
ejercen influencia unos sobre otros. En caso de existir correlación, nos encontraríamos
ante el problema de la autocorrelación en los residuos, el cual impide realizar una
estimación por mínimos cuadrados válida.

3. La matriz de varianzas y covarianzas del término de error debe ser escalar tal que
Var(ei) = σ I, i=1,…,n, donde I es la matriz unidad. Dado que siempre que medimos
2

una variable, se produce un cierto error, resulta deseable que los errores que
cometamos en momentos diferentes del tiempo sean similares en cuantía. Esta
condición es lo que se conoce como supuesto de homocedasticidad que, en caso de
no verificarse, impediría un uso legítimo de la estimación lineal por mínimos cuadrados.
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Estas hipótesis implican que los errores siguen una distribución Normal de media cero y
varianza constante por lo que, dado su carácter aleatorio, hace que los errores sean por
naturaleza impredecibles.

Asimismo, las variables incluidas en el modelo deben verificar que:

1. El comportamiento de la variable independiente Y se ajusta al modelo lineal durante


todo el periodo muestral, es decir, no se produce un cambio importante en la estructura
de comportamiento de Y a lo largo de la muestra considerada.

2. Las variables explicativas, Xi, son no estocásticas, es decir, son consideradas fijas en
muestreos repetidos.

3. El número de variables explicativas, k, siempre debe ser menor que el tamaño


muestral, n. Es decir, siempre debemos disponer de más observaciones que
parámetros haya en el modelo.

Veamos a continuación, suponiendo que se verifican los supuestos anteriores, como se realiza
la estimación de los parámetros a y b. Gráficamente, el resultado que obtendremos al estimar
dichos parámetros será una recta que se ajuste lo máximo posible a la nube de puntos definida
por todos los pares de valores muestrales (Xi,Yi), tal y como se puede apreciar en el gráfico 5.1.

Gráfico 5.1. Nube de puntos o gráfico de dispersión con variables relacionadas


linealmente

El término de error, ei, puede ser entendido, a la vista del gráfico anterior, como la distancia
que existe entre el valor observado, Yi, y el correspondiente valor estimado, que sería la
imagen de Xi en el eje de ordenadas. El objetivo de la estimación por Mínimos Cuadrados
Ordinarios es, precisamente, minimizar el sumatorio de todas esas distancias al cuadrado; es
1
decir :

n n n
Min ∑i =1
ei2 = ∑
i =1
(Yi −Yˆi ) 2 = ∑ (Y
i =1
i − aˆ − bˆX i ) 2

1
Los parámetros y variables que llevan encima un símbolo de acento circunflejo (^) indican que son estimadas por lo
que no se corresponden con el valor real de la variable sino que con el calculado por nosotros.
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Derivando esta expresión respecto a los coeficientes a y b e igualando a cero obtenemos el
siguientes sistema de ecuaciones:

n n


i =1
Yi = na + b ∑X
i =1
i ⇒ Y = aˆ + bˆX

n n n


i =1
Yi X i = aˆ ∑
i =1
X i + bˆ ∑X
i =1
i
2

donde n representa el tamaño muestral y X e Y representan las medias de dichas variables.


Resolviendo dicho sistema de ecuaciones obtenemos la solución para los parámetros a y b:

∑( X
i =1
i − X )(Yi − Y )
b= n

∑( X
i =1
i − X )2

a = Y − bX

Ejemplo 5.1.
Se pretende estimar el siguiente modelo:

Yt = a + bX t + et

donde Yt es la cantidad vendida anualmente del bien Y en el año t, y Xt es el precio medio al


cual se vendió el bien Y durante el año t. Se dispone de los siguientes datos muestrales:

Año Yt Xt
1988 10 19
1989 12 18
1990 13 16
1991 14 15
1992 15 15
1993 17 14
1994 20 14
1995 21 13
1996 22 12
1997 20 13

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


A partir de estos datos iniciales podemos calcular la siguiente tabla:

Yt Xt (Yi − Y ) (Xi − X ) (Yi − Y ) · ( X i − X ) ( X i − X )2 (Yi − Y ) 2


10 19 -6,4 4,1 -26,24 16,81 40,96
12 18 -4,4 3,1 -13,64 9,61 19,36
13 16 -3,4 1,1 -3,74 1,21 11,56
14 15 -2,4 0,1 -0,24 0,01 5,76
15 15 -1,4 0,1 -0,14 0,01 1,96
17 14 0,6 -0,9 -0,54 0,81 0,36
20 14 3,6 -0,9 -3,24 0,81 12,96
21 13 4,6 -1,9 -8,74 3,61 21,16
22 12 5,6 -2,9 -16,24 8,41 31,36
20 13 3,6 -1,9 -6,84 3,61 12,96
Total 164 149 0 0 -79,6 44,9 158,4
Media 16, 14, 0 0
4 9

Aplicando las formulas vistas anteriormente:


n

∑( X
i =1
i − X )(Yi − Y )
− 79.6
b= n
= = −1.7728
44.9
∑( X
i =1
i − X )2

a = Y − bX = 16.4 − ( −1.7728·14.9) = 42.82

de donde la ecuación de la recta estimada será Yt = 42.82 − 1.7728 X t + et

Finalmente, sustituyendo en la expresión anterior los valores de Xt, podemos obtener los
valores de Yˆi y el valor de los términos de error, ei:

Yˆi ei = Yi − Yˆi
9.13140312 0.86859688
10.9042316 1.09576837
14.4498886 -1.44988864

16.2227171 -2.22271715
16.2227171 -1.22271715
17.9955457 -0.99554566

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


17.9955457 2.00445434

19.7683742 1.23162584

21.5412027 0.45879733
19.7683742 0.23162584

5.2. Bondad de Ajuste

Como ya hemos comentado anteriormente, el modelo de regresión lineal se plantea para


explicar el comportamiento de la variable dependiente Y. Por ello, en dicho estudio será
interesante analizar la variación que experimenta esta variable y, dentro de esta variación,
estudiar qué parte está siendo explicada por el modelo de regresión y qué parte es debida a los
errores o residuos. Para ello, a partir de los términos de error, se puede obtener la expresión:

Y ' Y = Yˆ 'Yˆ + e' e

En el caso de que exista término independiente en el modelo, la descomposición anterior


quedaría como:

SCT = SCE + SCR

donde:
− SCT: es la Suma de Cuadrados Totales y representa una medida de la variación de la
variable dependiente.
− SCE es la Suma de Cuadrados Explicados por el modelo de regresión.
− SCR es la Suma de Cuadrados de los Errores

Cada una de estas sumas viene dada por las siguientes expresiones:

n
SCT = Y ' Y − nY 2 = ∑Y
i =1
2
− nY 2

SCE = β ' X ' Y − nY 2

n
SCR = ∑ ei2 = Y ' Y − β ' X ' Y = SCT − SCE
i =1

A partir de las expresiones anteriores es posible obtener una medida estadística acerca de la
bondad de ajuste del modelo mediante lo que se conoce como coeficiente de determinación
2
(R ), que se define como:

SCR
R2 = 1− 2
, 0≤R ≤1
SCT
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


y en el caso particular de modelo con término independiente, como:

SCE
R2 = 2
, 0≤R ≤1
SCT

Mediante este coeficiente es posible seleccionar el mejor modelo de entre varios que tengan el
mismo número de variables exógenas, ya que la capacidad explicativa de un modelo es mayor
cuanto más elevado sea el valor que tome este coeficiente. Sin embargo, hay que tener cierto
2
cuidado a la hora de trabajar con modelos que presenten un R muy cercano a 1 pues, aunque
podría parecer que estamos ante el modelo “perfecto”, en realidad estaría encubriendo ciertos
problemas de índole estadística como la multicolinealidad que veremos más adelante.

Por otra parte, el valor del coeficiente de determinación aumenta con el número de variables
exógenas del modelo por lo que, si los modelos que se comparan tienen distinto número de
2
variables exógenas, no puede establecerse comparación entre sus R . En este caso debe
emplearse el coeficiente de determinación corregido R 2 , el cual depura el incremento que
experimenta el coeficiente de determinación cuando el número de variables exógenas es
mayor.

La expresión analítica de la versión corregida es:

R2 =1−
SCR n − k
SCT n − 1
=1−
n −1
n−k
1 − R2 ( )
cuyo valor también oscila entre 0 y 1

5.3. Inferencia acerca de los Estimadores


Hasta el momento hemos visto como la estimación por Mínimos Cuadrados Ordinarios permite
obtener estimaciones puntuales de los parámetros del modelo. La inferencia acerca de los
mismos permite completar dicha estimación puntual, mediante la estimación por intervalos y los
contrastes de hipótesis. Los primeros posibilitan la obtención de un intervalo dentro del cual,
con un determinado nivel de confianza, oscilará el verdadero valor de un parámetro, mientras
que los segundos nos permitirán extraer consecuencias del modelo, averiguando si existe o no,
evidencia acerca de una serie de conjeturas que pueden plantearse sobre sus parámetros.
Veamos la expresión analítica de la estimación por intervalos y las reglas a seguir para realizar
un contraste de hipótesis.

Intervalos De Confianza
a) Intervalo de confianza para el parámetro βˆi
Su cálculo se realiza mediante la siguiente expresión:

IC βi : ( βˆi ± S βi t n −k )

donde S βi es la desviación típica estimada para el coeficiente β̂ i , que se obtiene de la matriz


de varianzas y covarianzas de los estimadores expresada como:

 σ β2 σ β1β 2 ... σ β1β K 


 1 
 σ β 2 β1 σ β22 ... σ β22 β K 
Σ ββ = 
 ... ... ... ... 
σ β β σ β K β2 ... σ β2K 
 K 1
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


cuyos estimadores serán:
 S β2ˆ S βˆ βˆ ... S βˆ βˆ 
 1 1 2 1 K 

Sˆ ˆ S β2ˆ ... S β2ˆ βˆ 


S βˆβˆ =  β 2 β1 2 2 K

 ... ... ... ... 
S S βˆ ... S β2ˆ 
 βˆK βˆ1 K β2
ˆ K 

∑e 2
i
obtenidos a partir de la expresión S βˆβˆ = S e2 ( X ' X ) , donde
−1
S e2 = i =1
es la estimación de la
n−k
varianza del término de error y ( X ' X )
−1
la inversa de la matriz de productos cruzados de los
regresores utilizados (ver Tema 7).

b) Intervalo de confianza para la varianza del término de error


La expresión del intervalo de confianza para la varianza del término de error es:

   
 S 2 ( n − k ) S 2 ( n − k )   SCR SCR 
IC : e
; e
≡ ; 
σ e2  χ α2 χ 2 α   χ α2 χ 2 α 
 1−   1− 
 2 2   2 2 

donde α representa el nivel de significación del contraste y generalmente se utiliza un 5% de


significación.

Contrastes de Hipótesis

a) Contraste individual sobre un parámetro

Formulación de la hipótesis: H 0 : β j = β *j
H 1 : β j ≠ β *j

βˆ j − β *j
Estadístico experimental: t exp =
S βˆ
j

Estadístico teórico: ttco = tn −k (α / 2)

Regla de decisión: Si texp > ttco se rechaza la hipótesis nula

b) Contraste de significación individual

Formulación de la hipótesis: H0 : β j = 0
H1 : β j ≠ 0
βˆ j
Estadístico experimental: t exp =
S βˆ
j

Estadístico teórico: t tco = t n− k (α / 2)

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Regla de decisión: Si texp > ttco se rechaza la hipótesis nula

c) Contrastes para un conjunto de hipótesis lineales

Formulación de la hipótesis: H 0 : Rβ = r

H 0 : r11β1 + r12 β 2 + ... + r1k β K = r1


r21β1 + r22 β 2 + ... + r2 k β K = r2
o alternativamente:
.............
rq1β1 + rq 2 β 2 + ... + rqk β K = rq

(Rβˆ − r )′ ·[R·( X ' X ) R'] ·(Rβˆ − r )


−1 −1

q
Estadístico experimental: Fexp =
SCR
n−k

donde q representa el número de ecuaciones de la hipótesis nula

Estadístico teórico: Ftco = F (q, n − k ,α )

Regla de decisión: Si Fexp > Ftco se rechaza la hipótesis nula

d) Contraste de significación global

Formulación de la hipótesis: H 0 : β 2 = β 3 = ... = β K = 0

SCE R2
= k − 1 = k −1
Estadístico experimental: Fexp
SCR
n−k
1 − R2( )
n−k

Estadístico teórico: Ftco = F (k − 1, n − k , α )

Regla de decisión: Si Fexp > Ftco se rechaza la hipótesis nula

5.4. Predicción en el Modelo de Regresión

Una vez estimado y validado el modelo, una de sus aplicaciones más importantes consiste en
poder realizar predicciones acerca del valor que tomaría la variable endógena en el futuro o
para una unidad extramuestral. Esta predicción se puede realizar tanto para un valor individual
como para un valor medio, o esperado, de la variable endógena, siendo posible efectuar una
predicción puntual o por intervalos. Su cálculo se realiza mediante las expresiones que figuran
a continuación:

a) Predicción individual: se trata de hallar el valor estimado para la variable Y un periodo hacia
delante. En este caso basta con sustituir el valor de las variables exógenas en el modelo en
el siguiente periodo y calcular el nuevo valor de Y.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


b) Intervalo de predicción. Para hallar un intervalo de predicción debe utilizarse la siguiente
expresión:

IC : Yˆt +1 − t n − k S 1 + X t' +1 ( X ' X ) X t +1 1 + X t' +1 ( X ' X ) X t +1 


−1 −1
; Ŷt +1 + t n −k S
 

c) Intervalos de predicción para un valor medio o esperado. La expresión a utilizar en este


caso será:

IC E (Yt +1 ) : Yˆt +1 − t n −k S X t' +1 ( X ' X ) X t +1 X t' +1 ( X ' X ) X t +1 


−1 −1
; Ŷt +1 + t n −k S
 

5.5. Violación de los Supuestos del Modelo Lineal de Regresión


Como veíamos en anteriores epígrafes, el modelo de regresión lineal requiere que se cumplan
las siguientes hipótesis sobre los términos de error:

• Media cero : E(ei) = 0 i=1,…,n


• Varianza constante : Var(ei) = σ I i=1,…,n
2

• Residuos incorrelacionados : Cov(ei,ej) = 0

El incumplimiento de alguna de dichas hipótesis, implica la no aleatoriedad de los residuos y,


por tanto, la existencia de alguna estructura o relación de dependencia en los residuos que
puede ser estimada, debiendo ser considerada en la especificación inicial del modelo. Los
principales problemas asociados al incumplimiento de las hipótesis de normalidad de los
residuos son, por un lado, la heteroscedasticidad, cuando la varianza de los mismos no es
constante, y la autocorrelación o existencia de correlación entre los diferentes residuos, lo que
violaría el supuesto de términos de error incorrelacionados.

Si se construye una gráfica de los resultados de una estimación mínimo cuadrática (en abcisas)
frente al valor absoluto de los residuos (en ordenadas), cuando éstos últimos presentan una
distribución Normal de media cero y varianza constante, N (0, σ ), el resultado obtenido (gráfico
2

6.2.) muestra que el tamaño del error es independiente del tamaño de la variable estimada, ya
que errores con valor elevado se corresponden con valores bajos y altos de la variable
dependiente estimada; sin embargo, una distribución de residuos con problemas de
heteroscedasticidad da lugar a una figura como la que puede observarse en el gráfico 6.3., en
donde se manifiesta una clara relación de dependencia entre la variable estimada y el tamaño
del error. En este caso los errores de mayor tamaño se corresponden con los valores más altos
de la variable estimada.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


R e s id u o s a le a to rio s d e m e d ia c e ro y
V a ri a b le e s ti m a d a ( y ) v a ria n z a c o n s ta n te

3500
3000
2500
2000
1500
1000
500
0
0 200 400 600 800
R e si d u o s v a l o r a b so l u to (e )

Gráfico 5.2. Residuos Homocedásticos

R e s id u o s c o n h e te ro c e d a s tic id a d
V a ria b le e s tim a d a (y )

3500
3000
2500
2000
1500
1000
500
0
0 200 400 600 800 1000
R e s id u o s va lo r a b s o lu to (e )

Gráfico 5.3. Residuos Heteroscedásticos

La representación gráfica de los errores en forma de serie temporal, es decir, poniendo en el


eje de abcisas los errores y en ordenadas el periodo temporal en que están datados, permite
apreciar la ausencia o presencia de correlación ya que a los residuos no correlacionados
(gráfico 5.4.) le corresponde una representación gráfica en la que no se aprecia pauta temporal
alguna, sucediéndose de forma impredecible o aleatoria, mientras que en los residuos con
problemas de autocorrelación, la pauta temporal es evidente, evidenciándose que cada residuo
puede ser predicho en función de la sucesión de los errores correspondientes a periodos
temporales pasados (gráfico 5.5.)
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Residuos aleatorios con media cero y
varianza constante

1000
500
0
-5001940 1950 1960 1970 1980 1990 2000 2010

-1000

Gráfico 5.4. Residuos sin Autocorrelación

Residuos con problema de autocorrelación

1000

500

0
1940 1950 1960 1970 1980 1990 2000 2010
-500

-1000

Gráfico 5.5. Residuos con Autocorrelación

Estos problemas asociados a los errores pueden detectarse con test estadísticos diseñados
para ello. A continuación se describen dichos test y la forma en que debe procederse para
estimar modelos en donde la estimación mínimo-cuadrática presenta problemas de este tipo
asociados a los residuos.

Heteroscedasticidad
Decimos que el término de error de una estimación mínimo-cuadrática presenta
heteroscedasticidad cuando la varianza del mismo es diferente para las distintas
observaciones que integran la muestra, lo que implica que la variabilidad de los errores
mínimo-cuadráticos obtenidos están relacionados de alguna manera con los datos utilizados en
el modelo, ya sea por estar relacionados con la escala temporal de los datos recogidos o por
presentar alguna relación de dependencia con alguna de las variables exógenas utilizadas. Las
consecuencias para la estimación mínimo-cuadrática son que los estimadores de los
coeficientes seguirán siendo insesgados y lineales pero ya no serán de mínima varianza o
eficientes.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


La detección de la heteroscedasticidad se realiza a través de diversos contrastes paramétricos,
entre los que cabe destacar el contraste de Bartlett (Mood, 1950), el constraste de Goldfeld-
Quandt (1965) y el contraste de White (1980), los cuales pasamos a ver a continuación.

Test de Bartlett
El test de Bartlett se basa en de que la suposición de que las n observaciones de los datos de
la variable a estimar por el modelo pueden agruparse en G grupos (g=1, 2, ..., G), cada uno de
los cuales se caracteriza por tener un distinto tipo de observaciones asociadas a la variable
explicativa, de tal manera que n1 sería el número de observaciones correspondientes al primer
grupo, n2 el número de observaciones asociadas al segundo grupo y, en general, nG es el
número de observaciones asociadas al grupo g-ésimo. A cada grupo le corresponde un valor
medio de la variable dependiente y una varianza para este valor medio.

El test contrasta si dicha varianza es igual o no entre los distintos grupos que se han construido
para la variable dependiente, admitiéndose la hipótesis de existencia de heteroscedasticidad si
la varianza es significativamente diferente entre los grupos formados.

Los pasos a seguir en la práctica para realizar el test de Bartlett son los siguientes:

2
1. Se estima la varianza ( sg ) de cada grupo de observaciones, g=1, 2, ..., G mediante la
siguiente expresión:

ng

∑( y
g =1
i − yg )2
s g2 =
ng

2. Se calcula el estadístico S:

 G ng 2  G
n log ∑ ∑
s  − n log sg2
 g =1 n g  g =1 g
S=  
1  G
1 1 
1+  ∑

3(G − 1)  g =1 n g n 

2
Bajo el supuesto de homocedasticidad, S se distribuye como una chi-cuadrado (χ ) con G–1
grados de libertad. Por lo tanto, se rechazará la hipótesis de igual varianza en todos los grupos
si S es mayor que el valor crítico de la distribución chi-cuadrado al nivel de significación
estadística fijado.

Contraste de Goldfeld-Quant
El contraste de Goldfeld-Quant se utiliza para contrastar la homocedasticidad cuando la forma
de la heteroscedasticidad no es conocida, aunque se intuye que la varianza guarda una
relación monótona –creciente o decreciente– respecto a alguna variable exógena (que
denominaremos variable z). La operativa de este test es la siguiente:

1. Ordenar todas las observaciones de las variables del modelo, de menor a mayor, en
función de la variable z.

2. Eliminar c observaciones centrales de la ordenación anterior, de tal forma que queden


dos submuestras de (n-c)/2 observaciones cada una. Al seleccionar c, debe hacerse de

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


tal forma que (n-c)/2 sea sustancialmente mayor que el número de parámetros del
modelo.

3. Estimar dos veces el modelo original mediante Mínimos Cuadrados Ordinarios,


utilizando en cada estimación una de las submuestras.

4. Denominando SR1 y SR2 a las sumas de los cuadrados de los residuos de ambas
submuestras (de manera que el subíndice 1 corresponda a la submuestra con la menor
suma) se define el estadístico F:

SR1
F=
SR2

La idea que subyace bajo este contraste es la siguiente: si existe heteroscedasticidad


entonces, con la ordenación de la muestra, la varianza del término de error será mayor
hacia el final de la muestra que al principio de la misma. Como el cuadrado de los
residuos está asociado con la varianza de los mismos, entonces SR2 debería ser
sensiblemente mayor que SR1. Por ello, se rechazara la hipótesis nula de
homocedasticidad siempre que el valor del estadístico F excede el valor en tablas de la
distribución F(n-c-2k)/2, (n-c-2k)/2, aceptándose la existencia de heteroscedasticidad en caso
contrario.

Contraste de White
El contraste de White se desarrolló también para evitar la necesidad de considerar una forma
específica para la heteroscedasticidad. El contraste se basa en que, bajo la hipótesis nula de
homocedasticidad, la matriz de varianzas y covarianzas de los estimadores MCO de β es:

σ 2 ( X ' X ) −1

Por el contrario, si existe heteroscedasticidad, la matriz de varianzas y covarianzas viene dada


por:
( X ' X ) −1 X ' ΩX ( X ' X ) −1 , Ω = diag (σ 12 , σ 22 ,...,σ n2 )

Por tanto, si tomamos la diferencia entre ambas queda:

( X ' X ) −1 X ' ΩX ( X ' X ) −1 − σ 2 ( X ' X ) −1

Por ello, basta con contrastar la hipótesis nula de que todas estas diferencias son iguales a
cero, lo que equivale a contrastar que no hay heteroscedasticidad.

Los pasos a seguir para realizar el contraste de White son los siguientes:

1. Estimar el modelo original y obtener la serie de residuos estimados

2. Realizar una regresión del cuadrado de la serie de residuos obtenidos en el paso


anterior sobre una constante, las variables exógenas del modelo original, sus
cuadrados y los productos cruzados de segundo orden (los productos resultantes de
multiplicar cada variable exógena por cada una de las restantes hasta completar . Es
decir, se trata de estimar por MCO la relación:

eˆt2 =α +ϕ1X1 +...+ϕk Xk +η1X12 +...+ηk Xk2 +ω1X1X2 +...+ωk X1Xk +ν1X2 X3 +...+νk X2 Xk +...+ ρ1Xk−1Xk
2
3. Al aumentar el tamaño muestral, el producto nR (donde n es el número de
2
observaciones y R es el coeficiente de determinación de la última regresión) sigue una
distribución Chi-cuadrado con p – 1 grados de libertad, donde p es el número de
variables exógenas utilizadas en la segunda regresión. Se aceptará la hipótesis de

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


existencia de heteroscedasticidad cuando el valor del estadístico supere el valor crítico
de la distribución Chi-cuadrado al nivel de significación estadística fijado.

Corrección de la heteroscedasticidad
Los problemas de heteroscedasticidad se resuelven utilizando una técnica de estimación lineal
que recibe el nombre de Mínimos Cuadrados Generalizados (MCG). El uso de Mínimos
Cuadrados Generalizados equivale a redefinir las variables utilizadas en el modelo original de
regresión tal que todas ellas quedan divididas por la desviación típica de los residuos:

Yi X ji ei
Yi * = , X *ji = , j = 2,..., k , ei* =
σe σe σe

Posteriormente se realiza la regresión mínimo cuadrática con el modelo transformado:

Y * i = β1 + β 2 X *2 i + β 3 X *3i +... + β k X *ki + e *i

La transformación descrita del modelo original requiere del conocimiento previo de una
estimación de la varianza de los residuos. Si no se dispone de una estimación previa de dicha
varianza, ésta puede estimarse mediante la siguiente expresión:

∑ eˆ 2
t
σ MCG
2
= i =1
T −k

Autocorrelación

Decimos que existe autocorrelación cuando el término de error de un modelo econométrico


está correlacionado consigo mismo a través del tiempo tal que E(ei, ej) ≠ 0. Ello no significa que
la correlación entre los errores se dé en todos los periodos sino que puede darse tan sólo entre
algunos de ellos. En presencia de autocorrelación, los estimadores mínimo-cuadráticos siguen
siendo insesgados pero no poseen mínima varianza, debiéndose utilizar en su lugar el método
de Mínimos Cuadrados Generalizados.

La existencia de autocorrelación en los residuos es fácilmente identificable obteniendo las


funciones de autocorrelación (acf) y autocorrelación parcial (acp) de los errores mínimo-
cuadráticos obtenidos en la estimación. Si dichas funciones corresponden a un ruido blanco, se
constatará la ausencia de correlación entre los residuos. Sin embargo, el mero examen visual
de las funciones anteriores puede resultar confuso y poco objetivo, por lo que en la práctica
econométrica se utilizan diversos contrastes para la autocorrelación, siendo el más utilizado el
de Durbin-Watson (1950), que pasamos a ver seguidamente.

Contraste de Durbin-Watson
Si se sospecha que el término de error del modelo econométrico tiene una estructura como la
siguiente:

eˆt = ρ ·eˆt −1 + ut

entonces el contraste de Durbin-Watson permite contrastar la hipótesis nula de ausencia de


autocorrelación. Dicho contraste se basa en el cálculo del estadístico d, utilizando para ello los
errores mínimo-cuadráticos resultantes de la estimación:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


n

∑ (eˆ − eˆ
i=2
i i −1 )
2

d= n

∑ eˆ
i =1
2
i

El valor del estadístico d oscila entre 0 y 4, siendo los valores cercanos a 2 los índicativos de
ausencia de autocorrelación de primer orden. La interpretación exacta del test resulta compleja,
ya que los valores críticos apropiados para contrastar la hipótesis nula de no autocorrelación
requieren del conocimiento de la distribución de probabilidad bajo el supuesto de cumplimiento
de dicha hipótesis nula, y dicha distribución depende a su vez de los valores de las variables
explicativas, por lo que habría que calcularla en cada aplicación. Para facilitar la interpretación
del test Durbin y Watson derivaron dos distribuciones: di y ds, que no dependen de las variables
explicativas y entre las cuales se encuentra la verdadera distribución de d, de forma que a
partir de un determinado nivel de significación, se adopta la siguiente regla de decisión:

• Si d ≤ di rechazamos la hipótesis nula de no autocorrelación frente a la hipótesis


alternativa de autocorrelación positiva.
• Si d ≥ 4 – di rechazamos la hipótesis nula de no autocorrelación frente a la
hipótesis alternativa de autocorrelación negativa.
• Si ds ≤ d ≤ 4- ds aceptamos la hipótesis nula de no autocorrelación.

En la siguiente página presentamos la tabla con la distribución desarrollada por Durbin y


Watson para los valores de di y ds

Ejemplo 5.2.
En el siguiente ejercicio planteamos una regresión lineal entre el consumo de energía eléctrica
en España y el PIB a precios de mercado valorado en moneda constante (millones de euros).

Consumo de Energía Eléctrica PIB


(miles de TEP) (millones de
euros)
198 9427 355312
7
198 9876 373412
8
198 10410 391443
9
199 10974 406252
0
199 11372 416582
1
199 11488 420462
2
199 11569 416126
3
199 11999 426041
4
199 12462 437787
5
199 12827 448457
6
199 13331 466513
7
199 14290 486785
8

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


199 15364 507346
9
200 16309 528714
0
200 17282 543746
1
200 17756 554852
2
Fuente: INE y OCDE

Con los datos de la tabla anterior la estimación MCO entre el consumo de energía eléctrica y el
PIB sería la siguiente:

Yt=-6234.4+0.043Xt+εt

Siendo Yt el consumo de energía eléctrica y Xt el PIB en moneda constante.

Los resultados de la estimación se presentan a continuación:

Estadísticas de la regresión
Coeficiente de correlación 0.9961969
múltiple 9
2
Coeficiente de determinación R 0.9924084
4
2
R ajustado 0.9918661
9
Error típico 233.80585
3
Observaciones 16

Coeficientes Error típico Estadístico t Probabilidad


Intercepción -6234.453 451.562 -13.806 0.000
PIB-$ 0.043 0.001 42.780 0.000

2
Como vemos las estadísticas de la regresión realizada son buenas, se obtiene un R muy
elevado, y los parámetros son estadísticamente significativos, ya que el valor teórico de la t-
Student es 2.51 al 95% de probabilidad.

No obstante, la representación gráfica de los errores apunta a la posibilidad de un problema de


autocorrelación entre los residuos:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Grafico de los residuos

600,0
500,0
400,0
300,0
200,0
100,0
0,0
-100,01986 1988 1990 1992 1994 1996 1998 2000 2002 2004
-200,0
-300,0
-400,0

Para verificarlo calculamos el estadístico t de Durbin-Watson:

2 2
Y* et et et-et-1 (et-et-1)
1987 8933 494.2 354817.8
1988 9705 170.5 373241.5 -323.6 104742.4
1989 10475 -65.2 391508.2 -235.7 55551.6
1990 11107 -133.3 406385.3 -68.2 4645.2
1991 11548 -176.3 416758.3 -43.0 1845.5
1992 11714 -225.9 420687.9 -49.6 2462.8
1993 11529 40.2 416085.8 266.1 70804.9
1994 11952 46.9 425994.1 6.8 45.6
1995 12453 8.5 437778.5 -38.4 1474.9
1996 12909 -81.9 448538.9 -90.5 8185.4
1997 13680 -348.7 466861.7 -266.8 71161.5
1998 14545 -255.1 487040.1 93.6 8769.2
1999 15423 -58.8 507404.8 196.3 38536.6
2000 16335 -25.9 528739.9 32.9 1079.7
2001 16977 305.4 543440.6 331.3 109776.4
2002 17451 305.3 554546.7 -0.1 0.0
Total 0.0 7179830.0 -188.8 479081.7

∑ (eˆ i − eˆi −1 ) 2
479,081.7
d= i =2
n
= = 0.0667
7,179,830.0
∑ eˆ
i =1
2
i

Los valores teóricos del estadístico para n=16 observaciones y k=1 variables explicativas, son
dD=0.98 y dU=1.24. Dado 0.0667 < 0.98 no podemos rechazar la hipótesis de la existencia de
autocorrelación positiva.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


6. Regresión Lineal Múltiple

6.1.- Introducción.
Pasamos a continuación a generalizar el modelo anterior al caso de un modelo con varias
variables exógenas, de tal forma que se trata de determinar la relación que existe entre la
variable endógena Y y variables exógenas, X1 ,X2,…, Xk. Dicho modelo se puede formular
matricialmente de la siguiente manera:

Y = X ·β + e = β 1 X 1t + β 2 X 2 t + ... + β k X kt + et , i=1,2, …, n

donde:
 Y1 
 
 Y2 
Y =   es el vector de observaciones de la variable endógena
...
 
 Yn 
 X11 X12 ... X1k 
 
X X 22 ... X 2k 
X =  21 = [X1 X2 ... Xk ] es la matriz de observaciones de las variables
... ... ... ... 
 
 X n1 X n2 ... X nk 
exógenas
 β1 
 
β 
β =  2  es el vector de coeficientes que pretendemos estimar
...
 
βK 
 e1 
 
 e2 
e =   es el vector de términos de error
...
 
 en 
Si en la expresión anterior se considerara que existe término independiente, α, la matriz X
quedaría como:

 1 X 12 ... X 1k 
 
= [1 X 2 Xk ]
 1 X 22 ... X 2 k 
X = X 3 ...
... ... ... ... 
 
 1 X n2 ... X nk 

y el modelo quedaría así:

Yi = α + β1 X i1 + β 2 X i 2 + ... + β k X ik + ui i=1,2,..., n

Suponiendo que se verifican las hipótesis que veíamos antes, el problema a resolver
nuevamente es la minimización de la suma de los cuadrados de los términos de error tal que:
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


n n n
Min ∑i =1
ei2 = ∑
i =1
(Yi −Yˆi ) 2 = ∑ (Y
i =1
i − βX i ) 2

Desarrollando dicho cuadrado y derivando respecto a cada βi obtenemos el siguiente sistema


de ecuaciones expresado en notación matricial:

X ' X ·β = X ' Y

en donde basta con despejar β premultiplicando ambos miembros por la inversa de la matriz
( X ' X ) para obtener la estimación de los parámetros del modelo tal que:

βˆ = ( X ' X ) −1 X ' Y

donde:

 n 2 n n
  n 

 i =1
∑X i1 ∑X
i =1
i1 X i 2 ... ∑X
i =1

i1 X ik

 ∑
 i =1
X i1Y i 

 n n n   n 
 i =1

X ' X =  X i 2 X i1 ∑X
i =1
2
i2 ... ∑
i =1
X i 2 X ik 

X `Y =  ∑
 i =1
X i 2 Y i 

 ..... ..... ... .....   .... 
 n n n   n 

 X ik X i1 ∑X ik X i2 ... ∑ 2
X ik   ∑ X ik Y i 
 i =1 i =1 i =1   i =1 

Si en el modelo existiera término independiente, α, las matrices anteriores serían:

 n n
  n 
 n

∑i =1
X i1 ... ∑
i =1
X ik 


 i =1
∑ Yi 

 n n n   n 
X ' X =  X i1
 i =1
∑ ∑X
i =1
2
i1 ... ∑
i =1
X i1 X ik 

X `Y =  ∑
 i =1
X i 1Y i 

 ..... ..... ... .....   .... 
 n n n   n 
 X ik∑ ∑X ik X i2 ... ∑ X ik2  ∑
 X ik Yi 
 i =1 i =1 i =1   i =1 

El resultado de multiplicar dichas matrices conduce a la obtención de la estimación de los


parámetros βi del modelo:

−1
 n 2 n n
  n 

 i =1
X i1 ∑ ∑X i =1
i1 X i 2 ... ∑
i =1

X i1 X ik   X i1Yi 
  i =1   βˆ 
 n n n   n   1
β = ( X ' X ) X ' Y =  X i 2 X i1
ˆ −1
i =1
∑ ∑X i =1
2
i2 ... ∑
i =1

X i 2 X ik  ⋅  X i 2Yi  =  βˆ2 
  i =1   ... 
 ..... ..... ... .....   ....   
 n n n   n   βˆk 
 X ik X i1 ∑ ∑X ik X i2 ... ∑ 2

X ik   X ik Yi 
 i =1 i =1 i =1   i =1 

Cada uno de los coeficientes estimados, βˆi , son una estimación insesgada del verdadero
parámetro del modelo y representa la variación que experimenta la variable dependiente Y

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


cuando una variable independiente Xi varía en una unidad y todas las demás permanecen
constantes (supuesto ceteris paribus). Dichos coeficientes poseen propiedades estadísticas
muy interesantes ya que, si se verifican los supuestos antes comentados, son insesgados,
eficientes y óptimos.

Ejemplo 6.1.

Se dispone de información relativa al grado de ocupación hotelera (Y), número medio de


turistas (X1), medido en miles de turistas, y estancia media (X2), medida en días. Los datos
disponibles son de corte transversal y pertenecen a cada una de las 17 Comunidades
Autónomas. Se quiere conocer como variará el empleo del sector turístico en Cantabria en
función del aumento de las estancias medias.

Tabla 6.1.
Viajeros, pernoctaciones y estancia media. Año 2003
Datos por comunidades autónomas y provincias
Empleo (en Número de viajeros Estancia
miles) (miles) media
Andalucía 28,4 11.902,5 3,1
Aragón 3,6 1.848,0 2,1
Asturias (Principado de) 2,4 1.088,2 2,3
Balears (Illes) 25,9 6.716,0 7,2
Canarias 27,2 4.875,7 7,8
Cantabria 2,0 933,8 2,4
Castilla y León 6,2 3.647,6 1,7
Castilla-La Mancha 2,8 1.805,1 1,7
Cataluña 23,5 10.771,7 3,4
Comunidad Valenciana 13,4 5.579,7 3,9
Extremadura 2,2 1.000,7 1,7
Galicia * 6,3 3.040,5 2,1
Madrid (Comunidad de) 10,7 5.748,9 2,1
Murcia (Región de) 2,0 882,5 3,0
Navarra (Comunidad Foral
de) 1,1 557,7 2,0
País Vasco 3,2 1.540,6 1,9
Rioja (La) 0,7 446,2 1,8
161,8 62.385,5 50,3

Fuente:INE.

El modelo teórico a estimar con la información disponible es el siguiente:

Yi = α+β1 X1i + β2 X2i + ei

donde Y es el empleo X1 el numero de viajeros y X2 la estancia media.

Obtenemos los sumatorios de los productos cruzados:


Y X1 X2
Y 3.193 1.101.921 709
X1 426.702.792 227.645
X2 203

En consecuencia:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


 17 62386 50   162 
   
(X ' X ) −1
=  62386 426702792 227645  ( X 'Y ) = 1101921
 50 227642 203   709 
  
Vamos a estimar el modelo propuesto por Mínimos Cuadrados Ordinarios. Para ello, basta con
multiplicar las matrices tal que:

 − 5,702 
 
βˆ = ( X ' X ) X ' Y =  0,002 
−1

 2,672 
 

Por lo que el modelo queda como sigue:

Ŷi = = -5,702+0,002X1i + 2,67X2

donde βˆ1 = 0,002 indica el efecto, sobre el grado de ocupación hotelera, de las variaciones
unitarias del número medio de turistas y βˆ 2 = 2,67 mide la variación que se produciría en el
grado de ocupación hotelera si la estancia media aumentara en una unidad. En consecuencia
un aumento de las estancias medias de los turistas en Cantabria de 2,4 días a 3 día significaría
un aumento del empleo del sector en 1.607 personas.

6.2. Deficiencias Muestrales: Multicolinealidad y Errores de


Medida
Multicolinealidad
El fenómeno de la multicolinealidad aparece cuando las variables exógenas de un modelo
econométrico están correlacionadas entre sí, lo que tiene consecuencias negativas para la
estimación por Mínimos Cuadrados Ordinarios pues, en ese caso, en la expresión:

βˆ = ( X ' X ) −1 X ' Y

la matriz ( X ' X ) no será invertible por lo que resultará imposible hallar la estimación de los
parámetros del modelo y la varianza de los mismos. Esto es lo que se conoce por el nombre de
multicolinealidad exacta.

Sin embargo, en la práctica no nos encontraremos con un caso tan extremo como el que
acabamos de exponer, sino que generalmente nos encontraremos ante multicolinealidad
aproximada, siendo una de las columnas de la matriz ( X ' X ) , aproximadamente, una
combinación lineal del resto por lo que será una matriz aproximadamente singular. Al no ser el
determinante de ( X ' X ) igual a cero, existirá inversa y podrán estimarse los parámetros pero
con las siguientes consecuencias:

− Por un lado, pequeñas variaciones muestrales producidas al incorporar o sustraer


un número reducido de observaciones muestrales podrían generar importantes
cambios en los parámetros estimados.

Por otro lado, la matriz de covarianzas del estimador MCO, S βˆβˆ = S e2 ( X ' X ) , al
−1

ser un múltiplo de ( X ' X ) −1 , será muy grande por ser el determinante de ( X ' X )

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


muy pequeño por lo que la estimación realizada será muy poco precisa al ser la
desviación típica de cada parámetro muy elevada.

Las soluciones propuestas para resolver el problema de la multicolinealidad son variados, si


bien en general resultan poco satisfactorios:

− Una posibilidad, sugerida por Johnston (1984) consiste en excluir aquella variable
exógena que puede estar muy correlacionada con el resto y posteriormente estimar el
coeficiente asociado a dicha variable mediante otro procedimiento para incluirlo en el
modelo.

− También se ha sugerido la posibilidad de reformular el modelo, convirtiéndolo en un


modelo de varias ecuaciones .

Errores de medida
Cuando hablamos de errores en las variables nos referimos a los errores de medición de las
mismas. Como el alumno ya debería conocer, al medir las relaciones existentes en Economía
recurrimos a variables obtenidas, la mayoría de las veces por medio de estimaciones
muestrales, esto es, a través de un muestreo representativo de las unidades que las generan
(consumo interior de un país, producción, etc.) o derivadas de éstas (Producto Interior Bruto,
etc.). Estas estimaciones de las variables macroeconómicas van asociadas a un error de
muestreo. Las variables cuantificadas a través de muestreos representativos, no sólo se dan al
trabajar con macromagnitudes, encontrándoselas también el investigador en todas las
disciplinas (Marketing, Contabilidad, etc.)
Es importante, por tanto, que al efectuar cualquier tipo de investigación y análisis, se conozca
la fuente y origen de los datos, así como sus características básicas (error de muestreo, nivel
de confianza, tipo de muestreo, tamaños muestrales, universo de referencia, influencia o sesgo
de la no respuesta, etc.).

El hecho de que los errores en las variables a medir existan, ha producido una controversia a lo
largo del tiempo entre los económetras, existiendo partidarios de su tratamiento así como
partidarios de no tenerlos en cuenta.

A estos errores se les propuso como los causantes de las discrepancias en los valores
observados y la regresión, fundamentándose en la diferencia existente entre las variables
teóricas y las variables empíricas.

La aceptación de la existencia de errores en la medición de las variables produce un problema


de aceptación de inconsistencia en las estimaciones mínimo cuadráticas debido a que,
evidentemente, si una variable esta medida con error éste se reflejará en la perturbación
aleatoria, produciéndose una correlación entre ambos componentes de la ecuación.

En estos casos se utiliza la definición de variable latente, como la variable real, que no siempre
coincidirá con la variable empírica u observada. La variable latente se describe como la
variable observada más el término de error.

Llevado el problema a un modelo concreto, se puede observar como sustituyendo las variables
a analizar (siempre se supone que se desea trabajar con variables reales “latentes”) por las
variables observadas más el error de medida, se llega al problema descrito.

Este problema difiere en su magnitud según si el error se da en las variables explicativas o en


las variables endógenas. Así, si sólo existen errores en la variable endógena, los estimadores
mínimo cuadráticos serán insesgados y consistentes, pero presentarán un problema de
eficiencia (se incrementa la varianza del error). Si, por el contrario, los errores de medición se
encuentran en las variables explicativas del modelo, los estimadores mínimo cuadráticos serán
sesgados e inconsistentes.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Otro hecho a tener en cuenta es que habitualmente no se conoce el valor real de la variable, no
conociéndose, por tanto, el error cometido en su medición (estimación), debiendo el
investigador trabajar con la variable observada, lo que conduce a la necesidad de trabajar con
estimadores consistentes.
Actualmente existe una línea de investigación en la cual se trabaja con errores en las variables,
conocida como el análisis de ecuaciones estructurales los cuales, partiendo del hecho de que
no se miden perfectamente las variables latentes mediante la información disponible,
incorporan dentro de su implementación los errores de medida. Dentro de esta línea de
investigación cabe destacar los siguientes métodos:

• Método de Agrupación de las Observaciones, que consiste en la división de los


valores muestrales en grupos o submuestras a partir de los cuales, una vez ordenados
de menor a mayor los valores de la variable explicativa, se calculan las medias
aritméticas, obteniéndose de esta manera tanto la pendiente como el término
independiente. Los estimadores así obtenidos son consistentes, pero no eficientes.

• Método de Variables Instrumentales (VI), consiste en encontrar un instrumento o


variable que, no estando incluida en el modelo, esté incorrelacionada con el término de
error y correlacionada con la variable explicativa para la que actúa de instrumento y
que posee errores de medida. El estimador obtenido de esta manera será un estimador
consistente, si bien el método plantea ciertas dificultades, ya que es difícil encontrar en
la práctica instrumentos de una variable medida con error que no estén correlacionados
con el término de error.

• Método de la Regresión Ponderada, en la que se da una ponderación igual a los


errores de X y de Y. Posteriormente, y una vez fijada la relación entre las varianzas de
los errores, se procede a estimar X en función de Y, y de Y en función de X, debiendo
encontrarse la regresión verdadera entre ambas estimaciones.

6.3. Modelo con variables cuantitativas y cualitativas como


regresores.
En un modelo econométrico, se entiende por variable al concepto económico que queremos
analizar. Normalmente utilizaremos variables cuantitativas, es decir, aquellas cuyos valores
vienen expresados de forma numérica. Sin embargo, también existe la posibilidad de incluir en
el modelo econométrico información cualitativa, siempre que la información cualitativa pueda
expresarse de forma cuantitativa. Dentro de este tipo de variables se distinguen::

• Variables proxies: son variables aproximadas a la variables objeto de análisis. Por


ejemplo, si quiero utilizar una variable que mida el nivel cultural de un país (variable
cualitativa) puedo utilizar como variable proxy el número de bibliotecas existentes en un
país, que si bien no recoge el concepto exacto que yo quiero medir, si se aproxima al
mismo.

• Variables ficticias o dummy: estas variables toman únicamente (en principio) dos
valores arbitrarios según se de o no cierta cualidad en un fenómeno. Habitualmente a
la variable ficticia se le asigna el valor 1 si ocurre un determinado fenómeno y 0 en
caso contrario. Estas variables, a su vez, pueden ser de dos tipos:

− Ficticia de intervalo: Por ejemplo si estoy analizando la variable exportaciones


en España desde 1970 hasta el año 2000, hay un hecho importante que es la
entrada de España en la Unión Económica que debo recoger a través de la
utilización de la variable ficticia.

− Ficticia de escalón: Por ejemplo si está analizando el crecimiento económico


de un país en el que en un año determinado hubo un acontecimiento
meteorológico que tuvo una repercusión negativa sobre la economía, al
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


tratarse éste un dato casual (y no equilibrado con el resto de valores que toma
la serie) debo introducir en el modelo este tipo de información para que la
tenga en cuenta en la estimación y cometa un menor error.

• Variables definidas por su pertenencia o no a un grupo: si yo tengo una variable


cualitativa que me define la pertenencia o no de un país a un grupo (por ejemplo renta
alta, media y baja) podré introducir esta variable cualitativa en el modelo codificándola,
es decir expresando sus valores en números de tal forma que puedo asociar cada nivel
de renta con un valor número arbitrario (por ejemplo 1: renta baja; 2: renta media; y 3:
renta alta).Se entiende por datos, los diferentes valores que toma una variable. Los
datos pueden corresponder a los valores de una variable en el tiempo (serie temporal),
o avalores para diferentes sujetos en un momento dado (datos de corte transversal).

A continuación vamos a plantear el ejercicio de la inclusión de una variables cualitativa


dicotómicas ó dummy en un modelo de regresión lineal.

Supongamos que tenemos el siguiente modelo:

Yt=β1+β2Xt+εt (1) siendo i=1,….,T1, T1+1…T

En el periodo T1 sabemos de la existencia de un suceso extraordinario que afecta a la


evolución de la variable dependiente, y queremos lógicamente saber el efecto que causa dicho
suceso extraordinario sobre la ecuación a estimar.

Por ello habremos de definir las siguientes variables dummy:

1 si t ≤ T1 0 si t ≤ T1
D1t =  D 2 t = (1 − D 2 t ) = 
0 si t > T1 1 si t > T1

La estructura de ambas variables sería la siguiente:

1   0
.  .
.  .
   
1   0
D1 =   D 2 =  
0 1
.  . 
   
.  . 
0 1

D1 tienen tantos 1 como observaciones hay hasta T1 y D2 tiene tantos 1 como observaciones
hay entre T1 y T.
Analizar el efecto del suceso extraordinario sobre la regresión, puede realizarse de forma
separada para cada periodo de 1 a T1 y T1 a T o conjuntamente para todo el periodo, bien
sobre el termino constante B1 o sobre la pendiente B2.

Para el análisis del término constante tendremos que plantear los siguientes modelos de
regresión:

Yt=β1+α1D1t+β2Xt+εt (2)
Yt=β1+α2D2t+β2Xt+εt (3)
Yt=α1D1t+α2D2t +β2Xt+εt (4)

En este caso :

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


− Si se utiliza la especificación del modelo (2) el análisis de la invariabilidad de β1
exige contrastar la hipótesis nula H0: α1=0

− Si se utiliza la especificación del modelo (3) el análisis de la invariabilidad de β1


exige contrastar la hipótesis nula H0: α2=0

− Si se utiliza la especificación del modelo (2) el análisis de la invariabilidad de β1


exige contrastar la hipótesis nula H0: α1=α2

Si queremos analizar la pendiente del modelo, plantearemos las siguientes ecuaciones de


regresión:

Para el análisis del término constante tendremos que plantear los siguientes modelos de
regresión:

Yt=β1+β2Xt+δ1(D1t Xt)+εt (5)


Yt=β1+β2Xt+δ2(D2t Xt)+εt (6)
Yt=β1+δ1(D1t Xt)+ +δ2(D2t Xt)+εt (7)

En cuyo caso:

− Si se utiliza la especificación del modelo (5) el análisis de la invariabilidad de β2 exige


contrastar la hipótesis nula H0: δ1=0

− Si se utiliza la especificación del modelo (6) el análisis de la invariabilidad de β2 exige


contrastar la hipótesis nula H0: δ2=0

− Si se utiliza la especificación del modelo (7) el análisis de la invariabilidad de β2 exige


contrastar la hipótesis nula H0: δ1=δ2

Las variables dummy también pueden ser utilizadas para modelizar variables definidas por su
pertenencia o no a un grupo. Supongamos ahora que estamos modelizando la relación que
existe entre la renta disponible y las primas de seguro contratadas por un grupo “N” de
individuos, a partir de datos del importe de las primas de seguro contratadas por cada individuo
Yi, y la renta o los ingresos que declara cada uno de ellos Ri:

Yi=β1+β2Ri+εt (8), siendo i=1…..N

De este grupo de individuos conocemos algunas otras características que pueden ser
transcendentes a la hora de nuestro análisis, por ejemplo el nivel de estudios. En concreto
disponemos de información sobre el nivel de estudios que han completado: sin estudios,
primarios, secundarios o universitarios. Utilizando dicha información creamos las siguientes
variables dummy:

 1 si i tiene estudios universitarios 1 si i no tiene estudios universitarios


D1t =  D 2 t = (1 − D 2 t ) = 
0 si i no tiene estudios universitarios  0 si i tiene estudios universitarios

Si por ejemplo la muestra de individuos que tenemos es de 10 (N=10), de los cuales tres de
ello tienen estudios universitarios, las variables dummy tendrían la siguiente estructura:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


1   0
0   1
0   1
   
1   0
D1 = 0 D 2 = 1 
0   1
0  1 
   
0  1 
1   0
   

Al igual que en el ejemplo anterior el investigador puede estar interesado en analizar el efecto
que tiene el nivel de formación en el gasto en primas de seguros de los diferentes individuos. Al
igual que en el ejemplo anterior podemos contrastar el efecto que tiene el nivel de estudios en
el termino independiente (α), o en el coeficiente (β) que relaciona el nivel de renta con el
importe pagado en primas.

El planteamiento del problema para el análisis del término constante sería entonces:

Yi=β1+α1D1i+β2Ri+εi (9)
Yi=β1+α2D2i+β2Ri+εi (10)
Yi=α1D1i+α2D2i +β2Ri+εi (11)

En este caso:

− Si se utiliza la especificación del modelo (9) el análisis de la invariabilidad de β1 exige


contrastar la hipótesis nula H0: α1=0

− Si se utiliza la especificación del modelo (10) el análisis de la invariabilidad de β1 exige


contrastar la hipótesis nula H0: α2=0

− Si se utiliza la especificación del modelo (11) el análisis de la invariabilidad de β1 exige


contrastar la hipótesis nula H0: α1=α2

Para el análisis de la pendiente tendremos que plantear los siguientes modelos de regresión:

Yi=β1+β2Ri+δ1(D1i Ri)+εi (12)


Yi=β1+β2Ri+δ2(D2i Ri)+εi (13)
Yi=β1+δ1(D1i Ri)+ +δ2(D2i Ri)+εi (14)
En cuyo caso:

− Si se utiliza la especificación del modelo (12) el análisis de la invariabilidad de β2 exige


contrastar la hipótesis nula H0: δ1=0

− Si se utiliza la especificación del modelo (13) el análisis de la invariabilidad de β2 exige


contrastar la hipótesis nula H0: δ2=0

− Si se utiliza la especificación del modelo (14) el análisis de la invariabilidad de β2 exige


contrastar la hipótesis nula H0: δ1=δ2

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


6.4. El empleo de variables cualitativas para el tratamiento de la
estacionalidad
En Economía se suele trabajar con datos anuales, pero en muchos casos y derivado del
carácter predictivo del modelo o bien de la objetiva utilización del mismo, se hace necesario
trabajar con series de datos diarias, mensuales o trimestrales, y muchas series en economía
generalmente adolecen del carácter estacional de las mismas (consumos bajos en los meses
de verano, consumos turísticos altos en este periodo, disminución de las ventas en domingos y
lunes, etc.) Las variables dummy pueden utilizarse para recoger el efecto de la estacionalidad
en el modelo econométrico que estimamos.

Las variables dummy para ajuste estacional son variables artificiales que asumen valores
discretos, generalmente de 0 y 1. Estas fueron originalmente aplicadas por Lovell a inicios de
los años 60 y sirven para "explicar" la estacionalidad en las series de tiempo, la cual, como se
señalo en el apartado 6.3, es un patrón de comportamiento regular de una serie a lo largo de
cada año, que puede obedecer a factores tales como costumbres, días festivos decretados,
vacaciones de verano, época de navidad y otros factores similares que ocasionan incrementos
o disminuciones en las magnitudes de ciertas variables, como por ejemplo la producción, las
ventas, etc.

Si se trabaja con datos trimestrales, cabría pensar en utilizar una variables artificial para cada
trimestre, que definidas como: q1, q2, q3 y q4; su representación matricial para dos años
cualesquiera sería:

1 0 0 0 1 x1 
0 1 0 0 1 x 2 

0 0 1 0 1 x3 
 
0 0 0 1 1 x4 
X = 1 0 0 0 1 x5 
 
0 1 0 0 1 x6 
0 0 1 0 1 x7 
 
0 0 0 1 1 x8 
. . . . 1 . 

No obstante hay que tener presente que las columnas correspondientes a las variables
estacionales darían lugar a una combinación lineal exacta con la constante, lo cual produciría
que el determinante de la matriz X'X fuera igual a cero y, por tanto, singular (no invertible), lo
que impide estimar los coeficientes del modelo de regresión.

Para evitar este inconveniente se utilizan únicamente tres de las cuatro variables dummy y por
supuesto la constante. Así, si se excluye la variable q4 en la matriz X, el efecto estadístico de la
variable omitida estaría implícitamente recogido con la columna de la constante. En definitiva,
la matriz de variables exógenas estaría determinada por las tres dummy: q1, q2, q3 y la
constante, y las variables exógenas cuantitativas con lo cual la matriz sería:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


1 0 0 1 x1 
0 1 0 1 x 2 

0 0 1 1 x3 
 
0 0 0 1 x4 
X = 1 0 0 1 x5 
 
0 1 0 1 x6 
0 0 1 1 x7 
 
0 0 0 1 x8 
. . . 1 . 

Otra forma muy utilizada consiste en expresar las variables artificiales estacionales como
desviaciones con respecto a la que corresponde al cuarto trimestre. Estas nuevas variables,
que podrían denominarse S1, S2 y S3, corresponderían a las siguientes diferencias vectoriales:

S1 = q1 - q4

S2 = q2 - q4

S3 = q3 - q4

Una vez efectuadas las operaciones anteriores e incorporado el vector de la constante, la


nueva matriz X queda definida de la siguiente manera:

1 0 0 1 x1 
0 1 0 1 x 2 

0 0 1 1 x3 
 
− 1 − 1 − 1 1 x4 
X =1 0 0 1 x5 
 
0 1 0 1 x6 
0 0 1 1 x7 
 
− 1 − 1 − 1 1 x8 
 . . 
 . . 1

Como se observa en la matriz anterior, los vectores de las variables dummy estacionales han
sido definidos de forma tal que su suma sea cero en cada año, por lo que este sistema permite
que el efecto estacional se anule en el año y que se obvie el problema de singularidad de la
matriz.
A manera de ejemplo, considérese un modelo de regresión con cifras trimestrales, en donde la
variable Y depende de la variable X y en el que se incorporan tres variables dummy
trimestrales (Si, para todo i = 1, 2, 3) y un término de error ( ). Este modelo estaría
representado de la siguiente manera:

Y = 0 + 1X + 1S1 + 2S2 + 3S3 +

La estimación se llevaría a cabo con las tres variables dummy trimestrales S1, S2 y S3. Los
coeficientes de las tres variables dummy identifican las diferencias con respecto al cuarto
trimestre.

Es importante mencionar que en el caso de variables con periodicidad mensual, se crearían


únicamente once variables estacionales, en forma equivalente a lo explicado en esta sección.
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Sin embargo, en este caso se presenta el inconveniente de que se requiere gran cantidad de
observaciones.

No obstante hay que tener presente que el uso de las variables estacionales presenta
problemas cuando la estacionalidad de la serie Y es móvil, es decir, cuando varía año con año.
En este caso, es difícil que modelos de este tipo capturen de una forma adecuada la
estacionalidad de la variable dependiente.

Ejemplo 6.2.
Se disponen de datos trimestrales correspondientes a los ejercicios 1996-2003, relativos al
consumo de electricidad en GWh en España (Yt) y al PIB a precios de mercado en millones de
euros constantes de 1995.
Tabla 7.2
Demanda de Electricidad PIB (millones de
Año Q
(GWh) euros)
1996 1 40919 109275
2 37275 111875
3 38070 111211
4 39981 116096
1997 1 40246 113396
2 39070 115566
3 40464 115744
4 42602 121807
1998 1 43263 118399
2 41535 120735
3 43273 121472
4 45010 126179
1999 1 46551 122424
2 43735 126471
3 45908 126474
4 48160 131977
2000 1 49922 129443
2 46861 133021
3 48208 130743
4 50020 135507
2001 1 52029 134079
2 49314 135900
3 50887 134475
4 53405 139292
2002 1 53928 136892
2 51523 138746
3 51950 137060
4 53762 142154
2003 1 57156 140080
2 53231 141861
3 56516 140207
4 56990 146163
Fuente: Ministerio de Economía

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


En la figura 6.1 se aprecia el carácter estacional de la demanda de energía eléctrica:

Consumo de Electricidad (GWh)

60.000

55.000

50.000

45.000

40.000

35.000

30.000
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
1996 1997 1998 1999 2000 2001 2002 2003

Fig. 6.1. Consumo Trimestral de Electricidad

Los trimestres de mayor consumo son los terceros y cuartos (otoño e invierno) y los de menor,
el segundo y tercero (primavera y verano).

Para evitar la multicolinealidad estimamos con las cualitativas de los tres primeros trimestres:

Yt = -24,705.2+3,087.2Q1t-996.1Q2t +1,066.2Q3t +0.55Xt+et

con los siguientes resultados:

Estadísticas de la regresión
Coeficiente de correlación 0.9908421
múltiple 7
0.9817682
2
Coeficiente de determinación R 1
0.9790672
2
R ajustado 1
854.45583
Error típico 1
Observaciones 32

Coeficiente Estadístico
s Error típico t
Intercepció - -
n 24705.2227 1999.20037 12.3575521
PIB 0.55474441 0.01492667 37.1646554
Q1 3087.18799 439.461556 7.024933
- -
Q2 996.097068 432.19015 2.30476578
Q3 1066.19716 434.284718 2.45506488

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Para considerar la hipótesis H0: βi=0, hay que tener presente que el valor teórico de la t-Student
correspondiente a una distribución con (32-5) grados de libertad es 1.69 para α=0.05/2 (95% de
confianza). Se comprueba, por tanto, que todos los coeficientes son significativamente distintos
de cero.

6.5. El modelo probabilístico lineal


El modelo de probabilidad lineal se caracteriza por tener la variable endógena “y” dicotómica o
binaria, es decir toma el valor “y=1” si un determinado suceso ocurre y el valor “y=0” en caso
contrario. Estos modelos son gran utilización en análisis estadístico en las ciencias sociales,
pero encuentran una difícil aplicación en el análisis estadístico en economía debido a las
dificultades de interpretación económica de los resultados que ofrecen este tipo de
investigaciones. A este respecto, hay que considerar que estos modelos lo que realmente
investigan es la probabilidad de que se de una opción (determinada por la variable endógena) o
no se de (valores y=1 o y=0).

A pesar del carácter dicotómico de la variable endógena, el modelo de probabilidad lineal se


especifica de la forma habitual, teniendo presente que las variables exógenas no son
dicotómicas sino continuas:

Yi=β1+β2Xi+εi (1) siendo i=1,……N

De acuerdo con la expresión (1) el hecho de que la variable endógena tome valores discretos
(1 ó 0), el término de perturbación εi, únicamente puede tomar dos valores:

− Si Yi=0 ⇒ εi = -β1- β2Xi con probabilidad p.

− Si Yi=1 ⇒ εi = 1-β1- β2Xi con probabilidad (1-p).

Dado que la esperanza del término de error ha de ser nula E(εi)=0, entonces se demuestra que
p= 1-β1-β2Xi y (1-p) = β1+β2Xi , lo que permite evaluar la probabilidad de que la variable
endógena tome el valor correspondiente:

− Prob (Yi=0) = Prob (εi = -β1- β2Xi ) = p = 1-β1- β2Xi.

− Prob (Yi=1) = Prob (εi = 1-β1- β2Xi ) = (1-p) = β1+ β2Xi .

A su vez la varianza del término de perturbación, se calcularía a partir de p:

Var(εi)= (1-β1-β2Xi )( β1+β2Xi)=p*(1-p)

Una problemática inherente a los estimadores MCO de estos modelos, son los siguientes:

− La perturbación aleatoria (εi) no sigue una distribución normal. Es sencillo observar


este hecho ya que el carácter binario (1 o 0) de la variable endógena afecta a la
distribución de la perturbación, teniendo esta una distribución Binomial. Este problema
se aminora cuando se utilizan tamaños de muestra (N) grandes en donde la
distribución Binomial es susceptible de aproximarse a una Normal.

− La perturbación aleatoria no tiene una varianza constante (es heteroscedástica), lo


cual supone una falta de eficiencia. Para solucionarlo habría que realizar
transformaciones que nos diesen una perturbación homocedástica, esta
transformación consiste en multiplicar todas las variables por una cierta cantidad que
elimine el problema de la heteroscedasticidad. Dicha cantidad puede ser:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


1
) ) ) )
( β 1 + β 2 X i )(1 − β 1 − β 2 X i )
siendo β los estimaciones MCO del modelo.

− El mayor problema que plantean estos modelos es no obstante que las predicciones
realizadas sobre la variable endógena no siempre se encuentran en el intervalo [0,1],
ya que pueden ser mayores que cero y menores que 1. Este problema tiene dos
soluciones, una es tomar como valor 0 todas las estimaciones de la variable
endógena con valores negativos, y 1 cuando estas resulten mayores que 1. La
segunda, solución es utilizar funciones de distribución que estén acotadas entre cero y
uno. Según sea esta distribución tendremos las distintas versiones de los modelos con
variable dependiente dicotómica. Las más utilizadas son los modelos Probit y Logit.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


7. NUMEROS INDICES

7.1. Introducción
El número índice es un valor expresado como porcentaje de una cifra que se toma como
unidad base. Por ejemplo, cuando decimos que el índice de precios de consumo (base media
de 1992=100) correspondiente al mes de diciembre de 1997 es 122,9, estamos señalando que
los precios en diciembre de 1997 eran un 22,9 más elevados que los que estaban en vigor a lo
largo de 1992.

Los números índices no tienen unidades y pueden referirse tanto a precios (índice de precios
de consumo, índice de precios percibidos por los agricultores, índice de precios industriales)
como a cantidades (índice de producción industrial).

El número índice es un recurso estadístico para medir diferencias entre grupos de datos.
Un número índice se puede construir de muchas formas distintas. La forma de cada
índice en particular dependerá del uso que se le quiera dar.

Los números índices se elaboran tanto con precios (p) como con cantidades (q). El año en que
se inicia el cálculo de un número índice se denomina año base y se nombran por p0 o q0 según
tratemos de precios o de cantidades, a los precios o las cantidades de los años sucesivos los
indicamos por pt o qt . Si trabajamos con diferentes tipos de mercancías utilizamos los
subíndices (i) para referirnos a un tipo de mercancía, de modo que utilizamos los símbolos pit o
qit para señalar el precio o la cantidad de la mercancía i en el período t. Si hubiese N
mercancías el valor total de la cesta de productos durante el periodo t se expresa :

N
Valor total durante el periodo t = ∑ pit qit
i =1

Los números índices se clasifican en ponderados y no ponderados. Los números índices no


ponderados son los más sencillos de calcular, pero deben de utilizarse con especial cuidado.
Los números índices ponderados requieren que definamos previamente a su construcción los
criterios de ponderación o de peso. Una vez definida una ponderación debe de respetarse en
los sucesivos períodos. En este apartado estudiaremos los índices ponderados que son de
aplicación común.

A la hora de elaborar un número índice hay que tener presente una serie de propiedades que el
índice debe de cumplir. Dichas propiedades son:

a) Existencia: Todo número índice ha de tener un valor finito distinto de cero.

b) Identidad: Si se hacen coincidir el período base y el período actual el valor del índice tiene
que ser igual a la unidad (o 100 si se elabora en porcentajes).

c) Inversión: El valor del índice ha de ser invertible al intercambiar los períodos entre sí. Es
1
decir : I to = el índice del año o calculado con la base del año t, ha de ser igual al inverso
I ot
del índice del año t calculado en base del año o.

d) Proporcionalidad: Si en el período actual todas las magnitudes experimentan una variación


proporcional, el número índice tiene que experimentar también dicha variación.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


e) Homogeneidad: Un número índice no puede estar afectado por los cambios que se realicen
en las unidades de medida.

7.2. Índices simples y complejos

Considerado un período determinado (por ejemplo, enero de 1990) como período base del
índice, se elabora el índice simple a partir de la razón de precios (precios relativos) o
cantidades (cantidades relativas) respecto al valor de aquéllos en el período base multiplicados
por 100:

xit
Iit = 100
xio

En el siguiente período el índice simple sería

xi ( t +1)
Ii ( t + 1) = 100
xio

Al comparar los números índice Iit e Ii(t+1) se ve el incremento del precio de dicho producto en
cuestión. Los índices simples pueden agregarse de diferentes formas, a dichas
agregaciones se les conoce como índices complejos. Si suponemos que tenemos “N”
diferentes productos, obtendríamos operando los siguientes índices complejos:

a) índice media aritmética de índices simples cuando operamos del siguiente modo :

I1 + I 2 +...+ I N

i =1
Ii
I= =
N N

b) índice media geométrica de índices simples cuando operamos del siguiente modo :

N
I = N I1 . I 2 .... I N = N ∏ I i
i =1

c) índice media armónica de índices simples cuando operamos del siguiente modo :

N N
I= = N
1 1 1 1
+ +...+
I1 I 2 IN ∑I
i =1 i

d) índice media agregativa de índices simples cuando operamos del siguiente modo :

x + x 2t + ... + x Nt ∑x it
I = it = i =1

x1o + x 2 o + ... + x No N

∑x
i =1
io

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


7.3. Índices ponderados.

Una ponderación wi es un valor de referencia para cada producto que determina su importancia
relativa en el índice total. Al ser el ponderador un valor relativo lo normal es que se presente
calculado en tanto por uno, por ciento ó por mil, expresando así el porcentaje que representa
dicho producto en la cesta de productos que cubre el índice:

pi 0 qi 0
Wi = n

∑p q i0 i0

Una vez obtenidos los ponderadores (wi) se calculan el índice media aritmética ponderada de
índices simples cuando operamos del siguiente modo :

I w + I w +...+ I N wN ∑ I .w
i =1
i i
I= 1 1 2 2 =
w1 + w2 +...+ wN N

∑w
i =1
i

Ejemplo 7.1.

En la tabla 7.1 aparece la información que disponemos sobre una cesta de productos:
2000 2001 2002
Productos Precio venta Unidades Precio venta Unidades Precio venta Unidades
M1 1 3000 1,2 4000 1,4 5500
M2 1,5 4000 1,5 3000 1,6 4500
M3 2 2500 2 2500 2,4 2000
M4 4 2000 4,5 1500 4,5 2000

Calculamos los índices simples de precios para los productos de la cesta:

Productos 2000 2001 2002


M1 100 120,00 140,00
M2 100 100,00 106,67
M3 100 100,00 120,00
M4 100 112,50 112,50

Los índices simples para la cesta de productos serán:

Indices 2000 2001 2002


simples
Media 100 108,13 119,79
aritmética
Media 100 107,79 119,16
geométrica
Media 100 107,46 118,55
armónica
Media 100 108,13 119,79
agregativa

El ponderador sería tanto por uno el valor del producto, es decir el precio por la cantidad
vendida, en el total vendido:

2000 2001 2002

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


M1 0,13636364 0,2280285 0,26829268
M2 0,27272727 0,21377672 0,25087108
M3 0,22727273 0,23752969 0,16724739
M4 0,36363636 0,32066508 0,31358885

Y el índice media aritmetica ponderado resultarán ser los siguientes:

Indice 2000 2001 2002


ponderado
Media 100 108,57 119,67
aritmética

7.4. Índices de precios.


Los índices de precios se elaboran usualmente utilizando índices complejos ponderados,
siendo los más utilizados los denominados índices de Laspeyres, Paasche y Fisher.

a) Índice de Laspeyres

El índice de Laspeyres es una media aritmética ponderada de índices simples, cuyo criterio de
ponderación es wi=pio.qio. La fórmula que define el índice de Laspeyres es la siguiente:

N N

∑I w ∑p i i it qio
i =1 i =1
Lp = N
= N

∑I
i =1
i ∑p
i=1
io qio

Se suele utilizar este índice a la hora de elaborar los índices de precios por cuestiones
prácticas ya que únicamente requiere investigar en el año base el valor de los ponderadores,
que es la parte mas costosa de la elaboración del índice, (téngase en cuenta que en el IPC se
realiza una encuesta de presupuestos familiares en los años base que requiere una muestra de
20.000 hogares). Una vez determinados los ponderadores el índice de Laspeyres únicamente
requiere que se investigue en los sucesivos períodos la evolución de los precios.

b) Índice de Paasche
También es una media aritmética ponderada de los índices simples, pero utilizando como
coeficiente ponderador wi=pio.qit; por tanto su definición queda como:

N N

∑ I i wi ∑p it qit
i =1 i =1
Pp = N
= N

∑I
i =1
i ∑p
i=1
io qit

La diferencia entre el índice Paasche y el índice Laspeyres es que exige calcular las
ponderaciones para cada periodo corriente “t”, haciendo su cálculo estadístico más laborioso, y
presentando el inconveniente de que sólo permite comparar la evolución del precio de cada
año con el año base, dado que las ponderaciones varían de período en período. Ambas
razones han determinado que este índice sea más inusual que el anterior.

c) Índice de Fisher.

El índice de Fisher es la media geométrica de los índices de Laspeyres y Paasche, es decir :

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Ep = Lp. Pp

Como los índices de precios de consideran un año determinado para calcular el ponderador
bien sea a partir de q0 .p0 , o de qt .p0, utilizan la denominación de año base para referirse al
año “0” a partir del que se calcula el ponderador wi.

7.5. Enlaces y cambios de base.


Uno de los problemas que tienen los índices ponderados como el índice de Laspeyres es que
pierden representatividad a medida que los datos se alejan del periodo base. Téngase presente
que, por ejemplo, el IPC que el INE calculó en 1991 utilizó los ponderadores obtenidos en la
Encuesta de Presupuestos Familiares de 1983 que, a su vez, reflejaba la estructura media de
consumo de los españoles en aquel año. El tiempo transcurrido entre 1983 y 1991 era lo
suficientemente dilatado para que se hubieran producido cambios en los hábitos de consumo y
en consecuencia el INE procedió a elaborar una nueva Encuesta de Presupuesto Familiares (la
de 1992), cuya estructura de consumo ó cesta de compra es la que actualmente se utiliza
como base para obtener el IPC.

La decisión que tomó el INE de realizar un nuevo IPC con la estructura de consumo resultante
de la Encuesta de Presupuestos Familiares de 1992 es lo que provoca el Cambio de Base del
IPC. Al ser los ponderadores distintos los utilizados entre 1983 y 1991 y los actuales, los
índices de precios son esencialmente distintos, y por lo tanto no se pueden comparar a priori
entre sí. El procedimiento a través del cual hacemos comparables números índices obtenidos
con bases distintas es lo que se denomina Enlace. El enlace de índices se basa en la
propiedad de inversión de los números índices.

Supongamos que queremos efectuar un cambio de base desde un índice construido con base
1992, a otro en base 2001.
t t
Sea I 92 el índice construido en base 1992 e I 01 el índice construido con la base 2001, entonces:
t 01 t
I .I I
t
I 01 = 91
01
01
= 92
01
I 92 I 92
01
I 01

I 9201
En el caso del IPC español el INE publica el valor del cociente que denomina coeficiente
I 0101
legal de enlace. El valor del coeficiente legal de enlace el la serie del IPC base 2001 y el
construido con la base 1992 para España y Cantabria, figuran en la tabla siguiente:

Tabla nº 7.2
Indice de Precios de Consumo. Base 2001. Coeficientes de Enlace
IPC. Base 2001. Coeficientes de Enlace.
Comunidades Autónomas. Grupos COICOP

Nacional Cantabria
General. Base 2001 0,740268 0,746689
Alimentos Y Bebidas No Alcohólicas 0,780515 0,769814
Bebidas Alcohólicas Y Tabaco 0,546851 0,528061
Vestido Y Calzado 0,843242 0,858994
Vivienda 0,701667 0,726533
Menaje 0,780330 0,859012

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Medicina 0,766029 0,876321
Transporte 0,712176 0,708012
Comunicaciones 0,825968 0,820249
Ocio Y Cultura 0,753008 0,719466
Enseñanza 0,575517 0,561891
Hoteles, Caf‚s Y Restaurantes 0,681374 0,667208
Otros Bienes Y Servicios 0,702260 0,699994

Fuente: Instituto Nacional de Estadística

Las series enlazadas se calculan multiplicando cada uno de los índices en base 92 por este
coeficiente.

No obstante, hay que tener presente que estos coeficientes mantienen las tasas de variación
publicadas hasta diciembre de 2001 de los índices en base 1992 pero no permiten calcular
tasas de variación entre periodos de distintas bases, ya que no solucionan la ruptura
ocasionada por la inclusión de los precios rebajados.

Por lo tanto, las tasas de variación entre periodos de distintas bases obtenidas mediante los
índices en base 1992 enlazados con el coeficiente de enlace legal y los índices en base 2001
no estarían bien calculadas.

Ejemplo 7.2

A continuación vamos ha realizar un ejercicio de enlace de diferentes bases del índice de


precios percibidos por los agricultores.

En la Tabla nº 7.3 tenemos una tabla con las series 1996-2001 del Índice de Precios Percibidos
por la Agricultores en España del producto Leche, base 1995; y la serie 2000-2006 de dicho
índice en base 2000. El enlace de la serie 1996-2011 a la base 2000 se realiza conforme a la
regla antes expuesta:
Tabla nº 7.3
Indice de precios percibidos por los agricultores en España. Precio de la leche.

Precios de Precios Precios


la leche Leche Leche
(Base (Base (Enlace
Años 1995) 2000) 1996-2000)
1996 99,96 96,74
1997 101,70 98,42
1998 105,21 101,82
1999 104,02 100,67
2000 103,33 100,00 100,00
2001 114,62 110,23 110,23
2002 104,16 104,16
2003 104,20 104,20
2004 110,01 110,01
2005 109,52 109,52
2006 107,54 107,54

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


7.6. Deflactación de series económicas.
La utilidad más importante que tienen los índices de precios, aparte de describir el
comportamiento de los precios durante un período concreto, es la de deflactar series
cronológicas o temporales valoradas en pesetas. Deflactar es eliminar el componente de
subida de precios que es inherente a toda serie temporal que viene referida a un valor
monetario (ventas de una empresa, los depósitos y créditos bancarios, el PIB, etc...). Las
ventas de una empresa, por ejemplo, se incrementan de un año a otro (ó de un mes a otro),
bien por haber aumentado el número de pedidos que realizan los clientes o bien por que la
empresa o el mercado haya decidido una subida en los precios de los artículos pedidos. Si
nosotros valoramos el número de pedidos del año actual utilizando los precios vigentes el
ejercicio pasado dispondríamos de un elemento comparativo con respecto al ejercicio anterior
que nos señalaría de manera inequívoca si nuestro volumen de negocio se ha incrementado
con independencia de lo ocurrido con los precios

En consecuencia, cuando obtenemos el valor de la serie utilizando como referencia para su


valoración el precio que rige en un período determinado (un año en concreto), realizamos una
valoración a precios constantes en tanto que dicha serie valorada a los precios vigentes en
cada período nos da su valor a “precios corrientes”.

En la práctica, para pasar de una serie en pesetas corrientes a pesetas constantes se realiza
dividiendo la primera por un índice de precios adecuado. Este procedimiento recibe el nombre
de deflactación y al índice de precios elegido se le denomina deflactor.

No obstante, hay que señalar que, cuando utilizamos como deflactor un índice de Laspeyres:

vt Σpit . qit Σpit . qit


= = Σpio. qio
lp Σpit . qio Σpit. qio
Σpio . qio

No pasamos exactamente valores corrientes a constante, cosa que si ocurre con el Indice de
Paasche cuando es utilizado como del

vt Σpit . qit
= = Σpio. qio
lp Σpit . qit
Σpio . qit

En el cuadro siguiente se ha deflactado la serie de salarios ordinarios en la construcción de


Cantabria por trabajador en el periodo 2002 a 2006 utilizando el Índice General de Precios al
Consumo de Cantabria de 2002 a 2006 (media trimestral) en base 2006:

Tabla nº 7.2

Coste
Coste salarial en
salarial euros del
Año Trimestre ordinario IPC 2006
2002 1 1105,61 87,04 1270,30
2002 2 1163,12 88,84 1309,25
2002 3 1197,78 88,80 1348,92
2002 4 1203,04 90,16 1334,33
2003 1 1180,87 90,05 1311,40
2003 2 1216,98 91,06 1336,41
2003 3 1200,49 90,96 1319,81
2003 4 1226,42 92,44 1326,78
2004 1 1215,01 91,77 1323,91
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


2004 2 1265,44 93,79 1349,28
2004 3 1247,24 93,66 1331,68
2004 4 1280,62 95,30 1343,79
2005 1 1288,86 94,52 1363,55
2005 2 1301,36 96,58 1347,48
2005 3 1295,75 96,89 1337,41
2005 4 1320,46 98,43 1341,50
2006 1 1359,89 98,31 1383,21
2006 2 1368,91 100,43 1363,00
2006 3 1386,91 100,31 1382,57
2006 4 1362,92 100,94 1350,25
2007 1 1355,71 100,52 1348,71
2007 2 1389,98 102,66 1353,99
2007 3 1428,71 102,76 1390,35

Fuente : ICANE.

7.7 Principales índices de precios españoles.


A continuación exponemos las principales carácterísticas de los índices de precios españoles:

Índice de Precios al Consumo (IPC)

El IPC es una medida estadística de la evolución del conjunto de precios de los bienes y servicios
que consume la población residente en viviendas familiares en España.

El consumo se define en el IPC a través de todos los gastos que los hogares dedican al consumo;
se excluyen, por tanto, las inversiones que realizan los hogares. Además, sólo se tienen en cuenta
los gastos reales que realiza la población, lo que implica la exclusión de cualquier operación de
gasto imputada (autoconsumo, autosuministro, alquiler imputado, salario en especie o consumos
subvencionados, como los sanitarios o educacionales).

La cesta de la compra para elaborar el IPC se obtenía de una encuesta de gastos de consumo de
los hogares.

Tradicionalmente, el IPC cambiaba de base cada ocho o nueve años; esto era así porque la fuente
utilizada para la elaboración de las ponderaciones y de la cesta de la compra era la Encuesta
Básica de Presupuestos Familiares (EBPF), cuya periodicidad marcaba la de los cambios de base
del IPC. De hecho hasta 1997 convivían dos encuestas de presupuestos familiares: una continua,
con periodicidad trimestral, y una básica, que se realizaba cada ocho o nueve años. A partir de ese
año ambas encuestas fueron sustituidas por una sola, cuya periodicidad es trimestral y la
información que proporciona está más cercana a la encuesta básica, en cuanto al nivel de
desagregación. Esta nueva encuesta, denominada Encuesta Continua de Presupuestos
Familiares (ECPF), proporciona la información necesaria para realizar un cambio de sistema del
IPC, la actualización de las ponderaciones así como la renovación de la composición de la cesta
de la compra. Pero, además, posibilita la actualización permanente de dichas ponderaciones así
como la revisión de la cesta de la compra.

Para calcular el IPC en las bases anteriores al 2001 correspondiente al período t se utiliza el índice
de Laspeyres. La ponderación de un artículo (wi=pio.qio) representa la proporción del gasto
efectuado en ese artículo respecto al gasto total efectuado por los hogares. La estructura de
ponderaciones permanecía fija durante el período de vigencia del Sistema de Índices de Precios
de Consumo.

La nueva fórmula de cálculo del IPC Base 2001 se denomina Laspeyres encadenado, el período
de referencia de los precios varía cada año. Durante el año 2002 coincide con el año base y para

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


años posteriores al 2002 será el mes de diciembre del año inmediatamente anterior al
considerado.

El principal inconveniente de estos índices es la falta de aditividad, no permite obtener el indice


medio a partir de la suma ponderada de los indices que lo componen. El índice general no se
puede obtener como media ponderada de los doce grupos.

El número total de artículos que componen la cesta de la compra del IPC base 2001 es 484. La
estructura funcional del IPC consta de 12 grupos, 37 subgrupos, 80 clases y 117 subclases.

También, a diferencia de las bases anteriores, los precios medios utilizados en el cálculo del índice
se obtienen a partir de medias geométricas. La entrada en vigor del Sistema 2001 supuso también
una ruptura en las series de índices debido a la inclusión de los precios rebajados. Esta ruptura
afecta al cálculo de las tasas de variación cuando los índices de los períodos de tiempo
seleccionados están medidos en bases diferentes; cuando esto ocurre, la fórmula general para
calcular las tasas de variación debe ser modificada.

El IPC que elabora el INE se armoniza a escala europea en el IPCA, este es un indicador
estadístico cuyo objetivo es proporcionar una medida común de la inflación que permita realizar
comparaciones internacionales y examinar, así, el cumplimiento que en esta materia exige el
Tratado de Maastricht para la entrada en la Unión Monetaria Europea.

La base legal del proceso de armonización del IPC es el Reglamento del Consejo nº 2494/95 de
23 de octubre de 1995 que establece las directrices para la obtención de índices comparables, así
como un calendario de obligado cumplimiento para todos los países de la Unión Europea.

La principal diferencia entre el IPC y el IPCA es que este excluye los Servicios médicos y la
Enseñanza reglada. Diferencias menores se dan en la ponderación de los Seguros, para los que
sólo se consideran los gastos ligados a las primas netas, los Automóviles, de los cuales se elimina
los gastos correspondientes a ventas entre consumidores, o los Medicamentos y productos
farmacéuticos, que sólo incluyen los no subvencionados.

El IPCA está formado por doce grandes grupos. Para definir estos grupos se ha utilizado la
COICOP.

Índice de Precios Industriales (IPRI)

El IPRI es un indicador coyuntural que mide la evolución mensual de los precios de los productos
industriales fabricados y vendidos en el mercado interior, en el primer paso de su comercialización,
es decir, mide la producción a precios de venta a salida de fábrica obtenidos por los
establecimientos industriales en las transacciones que estos efectúan, excluyendo los gastos de
transporte y comercialización y el IVA facturado.

Se elabora a partir de una encuesta de periodicidad mensual, que investiga más de 8.000
establecimientos industriales. La cobertura del índice se extiende a todos los sectores industriales
excluida la construcción.

El IPRI investiga los precios de las ramas de actividad industriales al nivel de 4 dígitos de la CNAE
(subgrupos). Cada una de estas ramas de actividad aparece representada por una cesta de
productos. Estos productos, a su vez, se desagregan en variedades (desagregación de productos
con características físicas suficientemente homogéneas) y subvariedades (modelos concretos de
una variedad que fabrica un establecimiento determinado). En total se seleccionan 1.500
variedades y alrededor de 26.000 datos elementales o datos primarios de precios.

Se calcula como un Índice de Laspeyres, que se pondera de acuerdo a la importancia de las


ramas de actividad y de los productos en 2000, según la información que suministra la Encuesta
Industrial, de la siguiente forma:

• Al nivel de rama de actividad (división, agrupación, grupo y subgrupo de la


CNAE) según el valor de la cifra de negocios.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


• Al nivel de productos, según el valor de la producción.

En el nuevo sistema del índice de precios industriales se ofrece información para las distintas
Comunidades Autónomas.

Índice de Coste de la Construcción.

El Índice de Coste de la Construcción ó Índice de Consumos intermedios de la


construcción se elabora a partir de datos procedentes de la Encuesta de la Estructura de la
Construcción, y del IPRI.

El Índice de Coste de la Construcción tiene como base el año 1990. Es un índice de Laspeyres
que aplica la estructura de ponderaciones de “materiales y consumos diversos" obtenida a partir
de la Encuesta de Estructura de la Construcción a la evolución de los precios industriales del IPRI,
base 1990. El Índice de Coste a la Construcción se desagrega en tres índices de precios de los
consumos de construcción según la tipología de las obras.

Índices de precios percibidos por el agricultor.

El Ministerio de Agricultura y Pesca elabora desde 1953 la estadística Índice de Precios Percibidos
por el agricultor, que con periodicidad mensual suministra información sobre los precios medios
nacionales de los productos agrarios, e índices de precios agregados para la totalidad de los
productos agrarios y para los grupos más significativos.

Los índices de precios agregados son índices de Laspeyres que necesitan de ponderadores
referidos a un año base para formar los números índices compuestos de diferentes
especificaciones de productos. La base actual con la que se elabora el índice es la de 1990, otros
cambios de base tuvieron lugar en 1965, 1976 y 1985.

La metodología de elaboración del Índice de precios percibidos por el agricultor se apoya en un


análisis de la estructura productiva y comercial de la producción agraria en el año base, que da
lugar a una definición de las especificaciones de productos a considerar, la distribución geográfica
(áreas territoriales) y frecuencia mensual de las tomas de datos necesarios. Ello origina una
estructura de ponderaciones para cada área geográfica que se utiliza para la elaboración de los
precios mensuales, y una ponderación para cada especificación que se utiliza para elaborar los
Índices agregados.

En definitiva, para cada año base se confecciona una matriz en donde figuran las cantidades
comercializadas en el período base en cada área territorial (provincia) y mes, que tiene en cuenta
la estacionalidad de la producción y la diversidad agronómica de las áreas. De dicha matriz se
obtiene el calendario de precios que es investigado mes a mes por las unidades provinciales.

El precio percibido se define como el precio de mercado, sin incluir gastos de transporte,
adecuación del producto, impuestos indirectos o tasas. En conjunto se investigan 5555 precios en
el conjunto de las áreas, lo que da lugar a XX especificaciones de productos.

Índices de precios hoteleros.

El Indice de Precios Hoteleros (IPH) es una medida estadística de la evolución mensual del
conjunto de las principales tarifas de precios que los empresarios aplican a sus clientes.

Para su obtención se utiliza la Encuesta de Ocupación en Alojamientos Turísticos:


Establecimientos Hoteleros (EOH) con la información que se obtiene, mensualmente, de unos
8.500 establecimientos a los que se les envía un cuestionario. A partir de esta encuesta se
obtiene información sobre la ocupación hotelera (viajeros entrados, pernoctaciones, grado de
ocupación etc.), su estructura (plazas, personal, etc.) y demás variables de interés, con una
amplia desagregación geográfica y por categorías de los establecimientos. En el cuestionario,

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


se les pide, entre otras variables, los precios aplicados a distintos tipos de clientes por una
habitación doble con baño. Esos precios se desglosan en las siguientes tarifas:
• Tarifa normal.
• Tarifa fin de semana.
• Tarifa especial a tour-operador.
• Tarifa especial a empresas.
• Tarifa especial a grupos.

El índice de precios se calcula a partir de:


5
I sT = 100∑ I tsT wt
t =1

M tST M t0 Bt0
donde y , I t
sT
= y wt = 5
M t0
∑ M t0 Bt0
t =1
que representa el porcentaje de ingresos percibidos por los hoteleros por las habitaciones
ocupadas en una tarifa concreta sobre los ingresos obtenidos por el total de tarifas; y siendo,
sT
Mt : precio de la habitación doble con baño (sin incluir IVA ni desayuno) en la tarifa t, en el mes
0
s del año T. Bt : número total de habitaciones ocupadas a las que se les aplicó la tarifa t en el
año base.
0
Mt : precio medio, en el año base 2001, de la habitación doble con baño (sin incluir IVA ni
desayuno) en la tarifa t.

En la encuesta se solicita a los hoteleros que indiquen el porcentaje de aplicación de cada una
de las tarifas sobre el total de habitaciones ocupadas. De ahí se extrae la información para
calcular el total de habitaciones ocupadas en cada tarifa para todos los meses del año base. La
0
suma de esa variable a lo largo de los doce meses del año 2001 (Bt ) es la que se utiliza en el
cálculo de las ponderaciones (W t).
Las ponderaciones se calculan a nivel de provincia, categoría del establecimiento y tarifa, y
posteriormente se agregan por tarifas, categorías o comunidades autónomas según el índice
agregado que se quiera obtener. Dichas ponderaciones permanecen fijas hasta que se
actualiza la base, lo cual está previsto realizar anualmente

A diferencia del Índice de Precios de Consumo, el IPH es un indicador desde la óptica de la


oferta, ya que mide la evolución de los precios que efectivamente perciben los hoteleros en
aplicación de las distintas tarifas por las que facturan. Por tanto, no mide la evolución de los
precios que pagan los hogares ni la tarifa oficial que aplican los hoteleros, sino el
comportamiento de los precios facturados por los hoteleros a distinto tipo de clientes (hogares,
empresas, agencias de viaje y tour-operadores).
Se calculan y difunden índices para las diecisiete comunidades autónomas, Ceuta y Melilla;
además, también se publican índices para las distintas tarifas a nivel nacional.

Índices de costes laborales.

El Indice de Costes Laborales es una operación estadística continua, de carácter coyuntural y


periodicidad trimestral, que tiene por objetivos proporcionar información sobre:
- El Coste Laboral medio por trabajador y mes.
- El Coste Laboral medio por hora efectiva de trabajo.
- El tiempo trabajado y no trabajado.

Se obtienen resultados nacionales y por comunidades autónomas. La encuesta se extiende al


conjunto de la industria, la construcción y los servicios, en concreto se investigan a aquellas
cuentas de cotización con actividades económicas comprendidas en las secciones de la C a la
K y de la M a la O de la Clasificación Nacional de Actividades Económicas 1993 (CNAE-93). En
total se investigan 54 divisiones de la CNAE-93. Quedan excluidas, la Administración Pública,

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Defensa y Seguridad Social Obligatoria (Sección L de la CNAE-93), el servicio doméstico
(Sección P) y los organismos extraterritoriales (Sección Q).

Los trabajadores objeto de encuesta son todos los trabajadores asociados a la cuenta de
cotización por los que haya existido obligación de cotizar durante al menos un día en el mes de
referencia.

A efectos del cálculo del coste laboral por trabajador, aquellos que han estado de alta en la
cuenta de cotización durante un periodo de tiempo inferior al mes se contabilizan como la parte
proporcional al tiempo que han estado de alta en dicha cuenta.

Para los resultados obtenidos de coste salarial y jornada laboral, los trabajadores se clasifican
según su tipo de jornada en trabajadores a tiempo completo y a tiempo parcial. Se consideran
trabajadores a tiempo completo aquellos que realizan la jornada habitual de la empresa en la
actividad de que se trate. Son trabajadores a tiempo parcial, y así debe quedar reflejado en su
contrato, aquellos que realicen una jornada inferior a la jornada considerada como habitual de
la empresa en la actividad de que se trate o, en caso de no existir ésta, inferior a la máxima
legal establecida.

En la encuesta se define como el coste total en que incurre el empleador por la utilización de
factor trabajo. Incluye el Coste Salarial más los Otros Costes. El coste salarial comprende todas
las remuneraciones, tanto en metálico como en especie, realizadas a los trabajadores por la
prestación profesional de sus servicios laborales por cuenta ajena, ya retribuyan el trabajo
efectivo, cualquiera que sea la forma de remuneración, o los periodos de descanso
computables como de trabajo. El Coste Salarial incluye por tanto el salario base, complementos
salariales, pagos por horas extraordinarias, pagos extraordinarios y pagos atrasados.
Los Otros Costes incluyen las Percepciones no Salariales (las retribuciones percibidas por el
trabajador no por el desarrollo de su actividad laboral sino como compensación de gastos
ocasionados por la ejecución del trabajo o para cubrir necesidades o situaciones de inactividad
no imputables al trabajador) y las Cotizaciones Obligatorias a la Seguridad Social.

La Jornada Laboral se define como el número de horas que cada trabajador dedica a
desempeñar su actividad laboral. Se distinguen los siguientes conceptos:
- Horas pactadas: Son las horas legalmente establecidas por acuerdo verbal,
contrato individual o convenio colectivo entre el trabajador y la empresa.
- Horas efectivas: Son las horas realmente trabajadas tanto en periodos normales de
trabajo como en jornada extraordinaria, incluyendo las horas perdidas en lugar de
trabajo, que tienen la consideración de tiempo efectivo en virtud de la normativa
vigente.Se obtienen como la suma de las horas pactadas más las horas extras y/o
complementarias menos las horas no trabajadas excepto las horas perdidas en el
lugar de trabajo.
- Horas no trabajadas: Son las horas no trabajadas durante la jornada laboral por
cualquier motivo (vacaciones y fiestas, incapacidad temporal, maternidad, adopción
y motivos personales, descansos como compensación por horas extraordinarias,
horas de representación sindical, cumplimiento de un deber inexcusable, asistencia
a exámenes y visitas médicas, días u horas no trabajadas por razones técnicas,
organizativas o de producción, horas perdidas en el lugar de trabajo, conflictividad
laboral, absentismo, guarda legal, cierre patronal, …).

En la Encuesta de Coste Laboral se calculan índices simples de variación de los Costes


Laborales medios. Para ello, se toma como período base el año 2000, de forma que los Indices
de Costes de 2000 se hacen 100. Un índice cualquiera se calcula mediante la fórmula:
Ct
It =
Co
Donde C0 es el coste medio en el período base 2000 y Ct es el coste medio en el trimestre
actual.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


8. SERIES TEMPORALES

8.1. Introducción a las series temporales

El presente epígrafe pretende ser una breve introducción al estudio de las series temporales,
las cuales poseen una gran importancia en el campo de la Economía dada la abundancia de
este tipo de observaciones; de hecho, las series temporales constituyen la mayor parte del
material estadístico con el que trabajan los economistas.

Pero, ¿qué es una serie temporal? Por definición, una serie temporal es una sucesión de
observaciones de una variable realizadas a intervalos regulares de tiempo. Según realicemos
la medida de la variable considerada podemos distinguir distintos tipos de series temporales:

− Discretas o Continuas, en base al intervalo de tiempo considerado para su medición.

− Flujo o Stock. En Economía, se dice que una serie de datos es de tipo flujo si está
referida a un período determinado de tiempo (un día, un mes, un año, etc.). Por su
parte, se dice que una serie de datos es de tipo stock si está referida a una fecha
determinada (por ejemplo, el 31 de Diciembre de cada año). Un ejemplo de datos de
tipo flujo serían las ventas de una empresa ya que éstas tendrán un valor distinto si se
obtiene el dato al cabo de una semana, un mes ó un año; por su parte, la cotización de
cierre de las acciones de esa misma empresa sería una variable de tipo stock, ya que
sólo puede ser registrado a una fecha y hora determinadas. Obsérvese que existen
relación entre ambos tipos de variables, pues la cotización al cierre de las acciones no
es más que el precio de cierre del día anterior más, o menos, el flujo de precios de la
sesión considerada.

− Dependiendo de la unidad de medida, podemos encontrar series temporales en


pesetas o en diversas magnitudes físicas (kilogramos, litros, millas, etc.)

− En base a la periodicidad de los datos, podemos distinguir series temporales de datos


diarios, semanales, mensuales, trimestrales, anuales, etc.

Antes de profundizar en el análisis de las series temporales es necesario señalar que, para
llevarlo a cabo, hay que tener en cuenta los siguientes supuestos:

− Se considera que existe una cierta estabilidad en la estructura del fenómeno estudiado.
Para que se cumpla este supuesto será necesario estudiar períodos lo más
homogéneos posibles.

− Los datos deben ser homogéneos en el tiempo, o, lo que es lo mismo, se debe


mantener la definición y la medición de la magnitud objeto de estudio. Este supuesto no
se da en muchas de las series económicas, ya que es frecuente que las estadísticas se
perfeccionen con el paso del tiempo, produciéndose saltos en la serie debidos a un
cambio en la medición de la magnitud estudiada. Un caso particularmente frecuente es
el cambio de base en los índices de precios, de producción, etc. Tales cambios de
base implican cambios en los productos y las ponderaciones que entran en la
elaboración del índice que repercuten considerablemente en la comparabilidad de la
serie en el tiempo.

El objetivo fundamental del estudio de las series temporales es el conocimiento del


comportamiento de una variable a través del tiempo para, a partir de dicho conocimiento, y bajo
el supuesto de que no van a producirse cambios estructurales, poder realizar predicciones, es
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


decir, determinar qué valor tomará la variable objeto de estudio en uno o más períodos de
tiempo situados en el futuro, mediante la aplicación de un determinado modelo calculado
previamente.

Dado que en la mayor parte de los problemas económicos, los agentes se enfrentan a una
toma de decisiones bajo un contexto de incertidumbre, la predicción de una variable reviste una
importancia notoria pues supone, para el agente que la realiza, una reducción de la
incertidumbre y, por ende, una mejora de sus resultados.

Las técnicas de predicción basadas en series temporales se pueden agrupar en dos grandes
bloques:

− Métodos cualitativos, en los que el pasado no proporciona una información directa


sobre el fenómeno considerado, como ocurre con la aparición de nuevos productos en
el mercado. Así, por ejemplo, si se pretende efectuar un estudio del comportamiento de
una acción en Bolsa, y la sociedad acaba de salir a cotizar al mercado, no se puede
acudir a la información del pasado ya que ésta no existe.

− Métodos cuantitativos, en los que se extrae toda la información posible contenida en


los datos y, en base al patrón de conducta seguida en el pasado, realizar predicciones
sobre el futuro.

Indudablemente, la calidad de las previsiones realizadas dependerán, en buena medida, del


proceso generador de la serie: así, si la variable observada sigue algún tipo de esquema o
patrón de comportamiento más o menos fijo (serie determinista) seguramente obtengamos
predicciones más o menos fiables, con un grado de error bajo. Por el contrario, si la serie no
sigue ningún patrón de comportamiento específico (serie aleatoria), seguramente nuestras
predicciones carecerán de validez por completo.

Generalmente, en el caso de las series económicas no existen variables deterministas o


aleatorias puras, sino que contienen ambos tipos de elementos. El objeto de los métodos de
previsión cuantitativos es conocer los componentes subyacentes de una serie y su forma de
integración, con objeto de realizar de su evolución futura.

Dentro de los métodos de predicción cuantitativos, se pueden distinguir dos grandes enfoques
alternativos:

− Por un lado, el análisis univariante de series temporales mediante el cual se intenta


realizar previsiones de valores futuros de una variable, utilizando como información la
contenida en los valores pasados de la propia serie temporal. Dentro de esta
metodología se incluyen los métodos de descomposición y la familia de modelos
ARIMA univariantes que veremos más adelante.

− El otro gran bloque dentro de los métodos cuantitativos estaría integrado por el análisis
multivariante o de tipo causal, denominado así porque en la explicación de la variable o
variables objeto de estudio intervienen otras adicionales de ella o ellas mismas.

En el tratamiento de series temporales que vamos a abordar, únicamente se considerará la


información presente y pasada de la variable investigada. Si la variable investigada es Y y se
dispone de los valores que toma dicha variable desde el momento 1 hasta T, el conjunto de
información disponible vendrá dado por:

Y1, Y2, Y3, …, YT-1, YT

Dada esa información, la predicción de la variable Y para el período T+1 la podemos expresar
como:
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


YˆT +1 / T

Con esta notación queremos indicar que la predicción para el periodo T+1 se hace
condicionada a la información disponible en el momento T. El acento circunflejo sobre la Y nos
indica que esa predicción se ha obtenido a partir de un modelo estimado. Conviene también
hacer notar que T+1 significa que se está haciendo la predicción para un período hacia delante,
es decir, con la información disponible en t hacemos una predicción para el período siguiente.

Análogamente, la predicción para el período T+2 y para el período T+m, con la información
disponible en T, vendrá dada, respectivamente, por:

YˆT + 2 / T ; YˆT + m / T

que serán predicciones de 2 y m períodos hacia adelante.

Si, genéricamente, para el período t se efectúa una predicción con la información disponible en
t–1, y a la que designamos por Yˆt / t −1 , para el período t podemos hacer una comparación de
este valor con el que realmente observemos (Yt). La diferencia entre ambos valores será el
error de predicción de un período hacia adelante y vendrá dado por:

et / t −1 = Yt − Yˆt / t −1

Cuando un fenómeno es determinista y se conoce la ley que lo determina, las predicciones son
exactas, verificándose que et / t −1 = 0 . Por el contrario, si el fenómeno es poco sistemático o el
modelo es inadecuado, entonces los errores de predicción que se vayan obteniendo serán
grandes.

Para cuantificar globalmente los errores de predicción se utilizan los siguientes estadísticos: la
Raíz del Error Cuadrático Medio (RECM) y el Error Absoluto Medio (EAM).

En el caso de que se disponga de T observaciones y se hayan hecho predicciones a partir de


la observación 2, las fórmulas para la obtención de la raíz del Error Cuadrático Medio y el Error
Absoluto Medio son las siguientes:

T T

∑e
t =2
2
t / t −1 ∑ (Y − Yˆ
t =2
t t / t −1 )
2

RECM = =
T −1 T −1

T T


t =2
et / t −1 ∑ Y − Yˆ
t =2
t t / t −1

EAM = =
T −1 T −1

De forma análoga se pueden aplicar la RECM y el EAM en predicciones de 2, 3, …, m períodos


hacia adelante.

En el análisis de series temporales se aplican, en general, métodos alternativos a unos mismos


datos, seleccionando aquel modelo o aquel método que, en la predicción de períodos
presentes y pasados, arroja errores de predicción menores, es decir, arroja una RECM o un
EAM menor.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


8.2. Componentes de una Serie Temporal
Tradicionalmente, en los métodos de descomposición de series temporales, se parte de la idea
de que la serie temporal se puede descomponer en todos o algunos de los siguientes
componentes:

− Tendencia (T), que representa la evolución de la serie en el largo plazo

− Fluctuación cíclica (C), que refleja las fluctuaciones de carácter periódico, pero no
necesariamente regular, a medio plazo en torno a la tendencia. Este componente es
frecuente hallarlo en las series económicas, y se debe a los cambios en la actividad
económica.

Para la obtención de la tendencia es necesario disponer de una serie larga y de un


número de ciclos completo, para que ésta no se vea influida por la fase del ciclo en que
finaliza la serie, por lo que, a veces, resulta difícil separar ambos componentes. En
estos casos resulta útil englobar ambos componentes en uno solo, denominado ciclo-
tendencia o tendencia generalizada.

− Variación Estacional (S): recoge aquellos comportamientos de tipo regular y repetitivo


que se dan a lo largo de un período de tiempo, generalmente igual o inferior a un año, y
que son producidos por factores tales como las variaciones climatológicas, las
vacaciones, las fiestas, etc.

− Movimientos Irregulares (I), que pueden ser aleatorios, la cual recoge los pequeños
efectos accidentales, o erráticos, como resultado de hechos no previsibles, pero
identificables a posteriori (huelgas, catástrofes, etc.)

En este punto, cabe señalar que en una serie concreta no tienen por qué darse los cuatro
componentes. Así, por ejemplo, una serie con periodicidad anual carece de estacionalidad.

La asociación de estos cuatro componentes en una serie temporal, Y, puede responder a


distintos esquemas; así, puede ser de tipo aditivo:

Y=T+C+S+I

También puede tener una forma multiplicativa:

Y=TCSI

O bien ser una combinación de ambos, por ejemplo:

Y=TCS+I

Una forma sencilla para ver como están asociadas las componentes de una serie temporal es
representar gráficamente la serie que estamos analizando. Si al realizar la representación
gráfica se observa que las fluctuaciones son más o menos regulares a lo largo de la serie, sin
verse afectadas por la tendencia (véase Fig. 9.1), se puede emplear el esquema aditivo.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Figura 8.1. Esquema aditivo

Si, por el contrario, se observa que la magnitud de las fluctuaciones varía con la tendencia,
siendo más altas cuando ésta es creciente y más bajas cuando es decreciente (véase Fig. 8.2),
se debe adoptar entonces el esquema multiplicativo.

Figura 8.2. Esquema multiplicativo.

8.3. Análisis de la tendencia


Como decíamos en el apartado anterior, la tendencia es el componente de la serie temporal
que representa la evolución a largo plazo de la serie. La tendencia se asocia al movimiento
uniforme o regular observado en la serie durante un período de tiempo extenso. La tendencia
es la información más relevante de la serie temporal ya que nos informa de si dentro de cinco,
diez o quince años tendrá un nivel mayor, menor o similar al que la serie tiene hoy día.

El análisis de la tendencia se realiza fundamentalmente con dos objetivos: por un lado, para
conocer cuáles son las pautas de comportamiento a lo largo del tiempo, de la variable objeto de
estudio, y por otro, para predecir sus valores futuros.

Las tendencias suelen representarse mediante funciones de tiempo continuas y diferenciables.


Las funciones de tendencia más utilizadas son:

1. Lineal.
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


2. Polinómica.
3. Exponencial.
4. Modelo autorregresivo
5. Función
6. Curva de Gompertz
7. Modelo logarítmico recíproco

Si una serie temporal Xt se ajusta a una tendencia lineal, la función de tiempo que se plantea
es la siguiente:

Xt =α+βt t= 1, 2, …, n

Una tendencia polinómica de grado p se ajustará a una función del siguiente tipo:

f(t) = α+β1 + β2t + …+βpt


2 p

Si la tendencia sigue una ley exponencial, entonces la función de ajuste será:


rt
f(t) = ae
donde a y r son constantes.

Un modelo autorregresivo ajusta la tendencia de la forma siguiente:

Xt =γ0+γ1xt-1 + ut siendo γ>0

La curva logística se representa mediante la función:

T
T (t ) =
1 − be − rt
donde t, b y r son constantes positivas.

La curva de Gompertz responde a la siguiente ecuación:


e-rt
f (t) = T·b

donde T, r, b son parámetros positivos.

Finalmente, el modelo logarítmico recíproco, viene definido por la relación:

f(t) = a + b 1/t B<0

Para calcular las funciones de tendencia, lo habitual es linealizar las formas de las funciones no
lineales y proceder a su estimación como si fuera una función de tendencia lineal.

Una vez establecido un modelo teórico para la tendencia, se debe proceder a la determinación
o cálculo de los parámetros que desconocemos mediante diversos procedimientos estadísticos,
que pasamos a describir a continuación.

Método de los semipromedios


El método de los semipromedios es la forma más rápida de estimar una línea de tendencia
recta. El método requiere dividir la serie de datos en dos mitades y calcular el promedio de
cada mitad que se centra en el punto medio. La recta que una ambas medias (o
semipromedios) será la línea de tendencia estimada.

Ejemplo 8.1.

Utilizando la serie cronológica de ventas de gasolina en Cantabria sobre la que vamos a


realizar un ajuste de una tendencia basada en el método de semipromedios:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Tabla 8.1.
AÑOS Tm.
1997 105.329
1998 105.525
1999 95.429
2000 88.350
2001 102.230
2002 94.142
2003 98.082
2004 97.321
2005 90.566
2006 87.920
Tabla 8.1. Tendencia de la evolución de las ventas de gasolinas en Cantabria.
Años 1997-2006. (miles de tm). Fuente: ICANE

Dividimos la serie en dos mitades, cada una de cinco años, y calculamos los promedios de
cada mitad. Los promedios los centramos en las observaciones centrales, las correspondientes
a 1999 y 2004:

105.329 + 105.525 + 92.429 + 88.350 + 102.230


Promedio centrado en 1999 = = 99.373
5

94.142 + 98.082 + 97.321 + 90.566 + 87.920


Promedio centrado en 2004 = = 93.606
5

La ecuación de la línea de tendencia será:


*
Yt = a + bt
*
donde Yt es el valor de la tendencia estimada de las ventas de gasolina.

El valor de a se obtiene al hacer t=0, y se hace corresponder con el valor del primer promedio:

a = Y0* = 99.373

El coeficiente de la pendiente de la recta b representaría el incremento anual de la tendencia, y


se calcula a partir de los dos promedios:

93.603 − 99.373
b= = −1.153
5
Nótese que al ser cinco los años que hay de diferencia entre 2004 y 1999, años en los que
hemos centrado los promedios, el denominador que utilizamos para calcular el incremento
anual es igual a 5.
*
La ecuación Yt =99.373-1.153t nos sirve para obtener la tendencia una vez conocidos los
valores t o del regresor, que ha de tener necesariamente valor cero en 1987. Los valores de Xt
se elaboran a partir de una sucesión de puntuaciones consecutivas que van desde un mínimo
de -2 de 1997 hasta un máximo de 7 en 2006:

Tm. Semipromedio t Tendencia


1997 105.329 -2 101.679
1998 105.525 -1 100.526

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


1999 95.429 99.373 0 99.373
2000 88.350 1 98.219
2001 102.230 2 97.066
2002 94.142 3 95.913
2003 98.082 4 94.759
2004 97.321 93.606 5 93.606
2005 90.566 6 92.453
2006 87.920 7 91.300
Tabla 8.2. Tendencia de la evolución de las ventas de gasolinas en Cantabria.
Años 1997-2006. (miles de tm.).Método de semipromedios.

Representamos en el gráfico 8.2 la tendencia:

110.000

105.000

100.000
Tm.
95.000
Tendencia
90.000

85.000

80.000
97

98

99

00

01

02

03

04

05

06
19

19

19

20

20

20

20

20

20

20

Gráfico 8.2.

Método de mínimos cuadrados

El método de mínimos cuadrados es el que más se utiliza para ajustar tendencias. Este método
da los mismos resultados que el método anterior cuando es utilizado para obtener tendencias
lineales. Si realizamos sencillas transformaciones aritméticas de los datos puede también ser
utilizado para representar funciones de tendencias no lineales.

Estimar una tendencia lineal por el método de MCO equivale a estimar la siguiente función:
*
Yt = a + bt

utilizando como variable explicativa un vector de números secuenciales {1,2,3,…,n}


representativos del periodo.

Si se quiere obtener una tendencia exponencial, debemos linealizar la función lo que requiere
su transformación en logaritmos:
rt
Y = be

entonces:

ln Yt = ln b + rt

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Una vez estimada la tendencia lineal por mínimos cuadrados, calculamos la exponencial del
logaritmo para devolver la tendencia a la escala de los datos originales.

Ejemplo 8.2

Veamos un ejemplo: consideremos la siguiente tabla en la que se muestra la evolución de las


ventas de gasolina en Cantabria. Con dichos datos vamos a estimar una tendencia exponencial
mediante el método de mínimos cuadrados.

Tm.(Y) Logaritmo X Tendencia Tendencia


(Y) logarítmica
1997 105.329 11,56 1 11,54 102.715
1998 105.525 11,57 2 11,53 101.252
1999 95.429 11,47 3 11,51 99.810
2000 88.350 11,39 4 11,50 98.389
2001 102.230 11,53 5 11,48 96.987
2002 94.142 11,45 6 11,47 95.606
2003 98.082 11,49 7 11,45 94.244
2004 97.321 11,49 8 11,44 92.902
2005 90.566 11,41 9 11,42 91.579
2006 87.920 11,38 10 11,41 90.275
Tabla 8.3. Tendencia de la evolución de las ventas de gasolina en Cantabria.
Años 1997-2006. (miles de tm.).Método de mínimos cuadrados.

Veamos la representación de dichos datos en el gráfico 8.3.; en él comprobamos cómo se


ajusta a los datos de venta de gasolina en Cantabria:

110.000

105.000
Tm.
100.000
Tendencia
95.000

90.000 Tendencia
exponencial
85.000

80.000
97

98

99

00

01

02

03

04

05

06
19

19

19

20

20

20

20

20

20

20

Gráfico 8.3.

Para analizar la calidad del ajuste realizado hay que considerar los estadísticos de la regresión
2
mínimo cuadrada :

Estadísticas de la regresión
Coeficiente de correlación múltiple 0,64744046
2
Coeficiente de determinación R 0,41917914

2
El capítulo 5.1 dedicado a la regresión minimo-cuadrada estudia los fundamentos de dicha técnica y los
estadísticos que se mencionan.
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


2
R ajustado 0,34657654
Error típico 0,05422273
Observaciones 10
2
El coeficiente R es una medida de que la magnitud de los errores con respecto al tamaño de
la variable Y; errores muy pequeños en relación al tamaño de Y determinan que el coeficiente
2
R se aproxime a 1; por el contrario errores muy altos en relación al tamaño de la variable Y,
2
darán lugar a valores de R más alejados de 1 y más cercanos a cero. En el ejercicio que
2
hemos realizado la magnitud del coeficiente de determinación (R =0,4192) sería indicativo de
un mal ajuste.

Otros estadísticos que debemos considerar son los que hace referencia al grado de
significación de los coeficientes b y m:

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior Superior
95,0% 95,0%
Intercepción 11,5540567 0,03704118 311,924649 1,2494E-17 11,4686396 11,6394738 11,4686396 11,6394738
Variable X -
-0,01434426 0,00596973 -2,40283376 0,04298622 0,02811047 -0,00057805 -0,02811047 -0,00057805

La intercepción en el origen es el coeficiente a, y la “Variable X 1” es el coeficiente b. La tabla


da el abanico de valores más probables para ambos coeficientes al nivel de confianza del 95%,
estos valores son los que figuran en las casillas Inferior y Superior. En el caso del coeficiente a,
el ajuste mínimo-cuadrado da como resultado que lo más probable es que se encuentre entre
el intervalo que va desde el valor 11,47 hasta el 11,63, siendo su valor medio 12,55; en tanto
que el coeficiente b estará en el intervalo que va desde -0,03 hasta -0,0006, resultando ser su
valor medio -0,01. Como entre estos intervalos no figura el valor cero, señalamos que los
coeficientes estimados son estadísticamente significativos.

En el ejemplo la función lineal estimada sería:


*
Yt = 11,47 - 0,01t

que en forma exponencial quedaría:


-0,011t
Yt = 104198,9.e

Medias móviles

En el análisis de series temporales, el método de medias móviles tiene diversas aplicaciones:


así, este método puede sernos útil si queremos calcular la tendencia de una serie temporal sin
tener que ajustarnos a una función previa, ofreciendo así una visión suavizada o alisada de una
serie, ya que promediando varios valores se elimina parte de los movimientos irregulares de la
serie; también puede servirnos para realizar predicciones cuando la tendencia de la serie tiene
una media constante.

Veamos qué es una media móvil: se trata, sencillamente de una media aritmética que se
caracteriza porque toma un valor para cada momento del tiempo y porque en su cálculo no
entran todas las observaciones de la muestra disponible.

Entre los distintos tipos de medias móviles que se pueden construir nos vamos a referir a dos
tipos: medias móviles centradas y medias móviles asimétricas. El primer tipo se utiliza para la
representación de la tendencia, mientras que el segundo lo aplicaremos para la predicción en
modelos con media constante.

Las medias móviles centradas se caracterizan porque el número de observaciones que


entran en su cálculo es impar, asignándose cada media móvil a la observación central. Así, una
media móvil centrada en t de longitud 2n + 1 viene dada por la siguiente expresión:
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


1 n
Y + Yt − n +1 + ... + Yt + ... + Yt + n −1 + Yt + n
MM ( 2n + 1) t = ∑
2n + 1 i = − n
Yt +i = t −n
2n + 1

Como puede observarse, el subíndice asignado a la media móvil, t, es el mismo que el de la


observación central, Yt. Obsérvese también que, por construcción, no se pueden calcular las
medias móviles correspondientes a las n primeras y a las n últimas observaciones.
Por su parte, en el caso de las medias móviles asimétricas se asigna cada media móvil al
período correspondiente a la observación más adelantada de todas las que intervienen en su
cálculo. Así la media móvil asimétrica de n puntos asociada a la observación t tendrá la
siguiente expresión:

1 t Y + Yt − n + 2 + ... + Yt −1 + Yt
MMA( n ) t = ∑ Yt +i = t −n +1
n i =t − n +1 n

Este tipo de medias móviles se emplea en la predicción de series cuya tendencia muestra una
media constante en el tiempo, utilizándose la siguiente ecuación:

1 T +1 Y Y
MMA( n ) T +1 = ∑ Yt = MMA( n ) T + T +1 − T −n +1
n i =T − n + 2 n n

Es decir, para predecir el valor de la serie en el período siguiente se suma a la media móvil, la
media aritmética de los n últimos períodos, siendo n la longitud de la media móvil.

La utilización de medias móviles implica la elección arbitraria de su longitud u orden, es decir,


del número de observaciones que intervienen en el cálculo de cada media móvil. Cuanto mayor
sea la longitud, mejor se eliminarán las irregularidades de la serie, ya que al intervenir más
observaciones en su cálculo se compensarán las fluctuaciones de este tipo, pero por el
contrario, el coste informativo será mayor. Por el contrario, cuando la longitud es pequeña, la
media móvil refleja con mayor rapidez los cambios que puedan producirse en la evolución de la
serie. Es conveniente, pues, sopesar estos factores al decidir la longitud de la media móvil.

Ejemplo 8.3
Veamos a continuación un ejemplo, continuando con la serie de ventas de gasolina, optamos
por calcular una media móvil trienal que ofrece los siguientes resultados:

Tm. Media móvil


trienal
1997 105.329
1998 105.525 102.094
1999 95.429 96.435
2000 88.350 95.336
2001 102.230 94.907
2002 94.142 98.151
2003 98.082 96.515
2004 97.321 95.323
2005 90.566 91.936
2006 87.920
Tabla 9.4. Tendencia de la evolución de las ventas de gasolina en Cantabria.
Años 1997-2006. (miles de tm.).Media móvil trienal

El valor de la media móvil trienal asignado a 1998 se calcula así:


105329 + 105525 + 95429
102094 =
3
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


A su vez, el valor de la media móvil trienal asignado a 1999 se calcula así:
105525 + 95429 + 88350
96435 =
3

Media movil trienal

110.000

105.000

100.000 Tm.
95.000
Media móvil
90.000 trienal

85.000

80.000
97

99

01

03

05
19

19

20

20

20

Gráfico 8.4.

Como se aprecia en el gráfico 9.4., el inconveniente que tiene la media móvil es que perdemos
información de la tendencia en los ejercicios inicial y final. En este sentido, volvemos a resaltar
que las medias móviles, comparadas con métodos basados en ajustes aritméticos, tienen un
coste informativo.

Alisado Exponencial Simple

El método del alisado exponencial simple consiste, al igual que en el caso de las medias
móviles, en una transformación de la variable original. Si una variable Y es sometida a un
proceso de alisado exponencial simple se obtiene como resultado la variable alisada St.
Teóricamente, la variable alisada St se obtendría según la expresión:
2 3
St = (1 – w) Yt + (1 – w) wYt-1+ (1-w) w Yt-2 + (1 – w) w Yt-3 + … (1)

donde w es un parámetro que toma valores comprendidos entre 0 y 1, y los puntos


suspensivos indican que el número de términos de la variable alisada puede ser infinito. La
3
expresión anterior en realidad no es más que una media aritmética ponderada de infinitos
valores de Y.

Se denomina alisada ya que suaviza o alisa las oscilaciones que tiene la serie, al obtenerse
como una media ponderada de distintos valores. Por otra parte, el calificativo de exponencial
se debe a que la ponderación o peso de las observaciones decrece exponencialmente a
medida que nos alejamos del momento actual t. Esto quiere decir que las observaciones que
están alejadas tienen muy poca incidencia en el valor que toma St. Finalmente, el calificativo de
simple se aplica para distinguirla de otros casos en que, como veremos más adelante, una
variable se somete a una doble operación de alisado.

3
Para que pueda aceptarse que es una media aritmética ponderada debe verificarse que las ponderaciones, sumen 1.
La demostración, que excede las pretensiones de este texto, se basa en el cálculo de la suma de infinitos términos de
una progresión geométrica convergente.
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Una vez que se han visto estos aspectos conceptuales, vamos a proceder a la obtención
operativa de la variable alisada, ya que la expresión no es directamente aplicable, por contener
infinitos términos. Retardando un período en la expresión anterior se tiene que:
2
St-1 = (1 – w) Yt-1 + (1 – w) wYt-2 + (1-w) w Yt-3 + … (2)

Multiplicando ambos miembros por w se obtiene:


2 3
wSt-1 = (1 – w) wYt-1 + (1 – w) w Yt-2 + (1 – w) w Yt-3 + … (3)

Restando (3) de (1) miembro a miembro y ordenando los términos se tiene que:

St = (1 - w) Yt + wSt-1

O también:

St = αYt + (1 - α) St-1

donde α = 1 – w.

Ahora ya sólo nos falta calcular los valores de α y S0, parámetros a partir de los cuales resulta
sencillo hallar los valores de la variable alisada de forma manera recursiva, tal que:

S1 = αY1 + (1 - α) S0
S2 = αY2 + (1 - α) S1
S3 = αY3 + (1 - α) S2
………………………
Al asignar un valor a α hay que tener en cuenta que un valor pequeño de α significa que
estamos dando mucho peso a las observaciones pasadas a través del término St-1. Por el
contrario, cuando α es grande se da más importancia a la observación actual de la variable Y.
En general, parece que un valor de α igual a 0.2 es apropiado en la mayor parte de los casos.
Alternativamente, se puede seleccionar aquel valor de α para el que se obtenga una Raíz del
Error Cuadrático Medio menor en la predicción del período muestral.

Respecto a la asignación de valor a S0 se suelen hacer estos supuestos: cuando la serie tiene
muchas oscilaciones se toma S = Y1; por el contrario, cuando la serie tiene una cierta
estabilidad se hace S0 = Y.

Ejemplo 8.4
En este ejemplo se presenta un alisado exponencial para la serie de ventas de gasolina,
utilizando como factor de alisado el valor 0,5.
Alisado
Tm.(Y) Media movil a=0,50
1997 105.329
1998 105.525 102.094 102.094
1999 95.429 98.762
2000 88.350 93.556
2001 102.230 97.893
2002 94.142 96.017
2003 98.082 97.050
2004 97.321 97.185
2005 90.566 93.876
2006 87.920 90.898

Tabla 8.5. Tendencia de la evolución de las ventas de gasolina en Cantabria.


Años 1997-2006. (miles de tm.). Alisado exponencial

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


El valor inicio del alisado, S0 , es la media de los tres primeros años:
105329 + 105525 + 95429
102094 =
3

Alisado exponencial

110.000
105.000
100.000
Tm.(Y)
95.000
Alisado a=0,50
90.000
85.000
80.000
97

99

01

03

05
19

19

20

20

20

Gráfico 8.5.

Alisado Exponencial Doble

Una variante más avanzada del método anterior es el Alisado Exponencial Doble, también
conocido como método de Brown. Básicamente, lo que se hace mediante este método es
someter a la variable a una doble operación de alisado: en la primera operación se alisa
directamente la variable objeto de estudio, mientras que en la segunda operación se procede a
alisar la variable alisada previamente obtenida. Así pues, las fórmulas del Alisado Exponencial
Doble son las siguientes:

Primer alisado: S’t = αYt + (1–α) S’t-1


Segundo alisado: S’’t = αS’t + (1–α) S’’t-1

Obsérvese que en los dos alisados se utiliza el mismo coeficiente α. A partir de las dos
variables alisadas se estiman los coeficientes de la recta para utilizarlos en la predicción.

Las fórmulas que permiten pasar de los coeficientes de alisado a los coeficientes de la recta
son las siguientes:

b0t = 2 S t' − S t''


α
b1t = ( S t' − S t'' )
1−α
Finalmente, si con la información disponible en t, deseamos realizar una predicción de la
variable para el momento t+m, aplicaremos la siguiente fórmula:

Yˆt +m = b0t + b1t m

Asimismo, al igual que en el caso del Alisado Exponencial Simple, para poder obtener St' y St’’
es necesario conocer los valores iniciales, que en este caso serían dos, S0’ y S0’’. Para
determinarlos se utilizan las siguientes relaciones que permiten obtener b0t y b1t, aunque en
sentido inverso.
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Realizando un ajuste de la recta por mínimos cuadrados con toda la información disponible se
obtendrán las estimaciones bˆ0t y bˆ1t .

Haciendo que:

b00 = bˆ0t y b10 = bˆ1t

y tomando t = 0, se obtiene:

1−α
S 0' = b00 − b10
α
1−α
S 0'' = b00 − 2b10
α
A partir de estos valores se inicia la recursión ya señalada.

En lo que respecta al valor de α, es válido lo que se dijo en el caso del Alisado Exponencial
Simple, siendo aconsejable tomar α = 0.2 o, alternativamente, seleccionar aquel valor de α que
haga mínima la Raíz del Error Cuadrático Medio cuando realicemos predicciones.

8.4. Análisis de la estacionalidad


En este apartado pasamos a examinar el análisis de la estacionalidad de las series temporales,
entendiéndose por tal, aquellos ciclos regulares cuya duración es inferior al año. Las
variaciones o ciclos estacionales son muy frecuentes en las series temporales, sea cual sea su
naturaleza, y pueden presentar un esquema horario, diario, semanal, mensual, trimestral o
incluso semestral, no siendo necesario que tengan alguna relación con las estaciones del año.
Lo verdaderamente importante de los ciclos estacionales es su temporalidad o repetición
regular.

Algunos ejemplos de ciclos estacionales serían:

− El aumento de viajeros en los autobuses urbanos en determinadas horas del día.

− Las ventas diarias de un supermercado que suelen presentar entre semana un


esquema bastante regular.

− El movimiento de viajeros en los establecimientos hoteleros que se concentra en


determinados meses del año.

− El consumo de energía eléctrica que suele ser mayor los meses de invierno.

El motivo principal que induce a estudiar los ciclos estacionales es que, de no tenerse en
cuenta estas variaciones, se obtienen bastantes distorsiones a la hora de analizar la evolución
de las series, actuando muchas veces el factor estacional como una máscara que impide
captar adecuadamente la evolución del fenómeno objeto de estudio. Un ejemplo de estas
distorsiones ocurre, por ejemplo, cuando se compara el consumo de electricidad en el primer y
segundo trimestre del año, ya que el ciclo estacional al delimitar un aumento del consumo en
los meses de invierno, impide una interpretación correcta sobre el uso subyacente de la
energía de dicho período.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Por ello, será conveniente eliminar el influjo de los ciclos estacionales en la serie, a fin de poder
realizar comparaciones entre dos estaciones sucesivas y predecir correctamente el
comportamiento futuro de la variable.

Para ello, existen diferentes procedimientos: utilización de filtros lineales, X11-ARIMA, SEATS
(Signal Extraction in ARIMA Time Series), etc., cuya solución requiere de un cálculo
matemático relativamente complejo; aquí únicamente estudiaremos los procedimientos de
desestacionalización más sencillos: el método de porcentaje promedio y el método del
porcentaje promedio móvil.

Asimismo, cabe señalar que, con carácter previo a la desestacionalización, a menudo hay que
realizar una serie de ajustes en la serie temporal para tener en cuenta hechos o eventos que
pueden afectar al ciclo estacional que tratamos de analizar. Estos eventos que suelen ser
festividades, interrupciones del trabajo debido a huelgas, paros, regulaciones de empleo, etc.,
no siempre son eliminados por los promedios dentro del mes o trimestre en que se producen,
de ahí que sea necesario corregir previamente los datos iniciales. Una forma de compensar
estas variaciones es multiplicar la serie de datos origínales por la siguiente razón:

Número de días efectivos de un mes en un promedio de años (ó en un calendario laboral)


Número de días efectivos del mes dado

en la que la definición de los días efectivos dependerá de la serie cronológica que nos interesa
y de los motivos por los que realizamos el ajuste.

Finalmente, para saber si una serie temporal presenta variaciones estacionales de relevancia,
se suele hacer un análisis de la varianza del componente estacional-irregular de la serie,
utilizando como factor de variación la referencia temporal de la serie (semanal, mensual,
trimestral, etc.…). Dicho análisis proporciona como estadístico la F de Snedecor, cuyo valor
comparado con el que figura en las tablas del Anexo, nos permite determinar si tiene
significación el factor temporal para explicar la varianza de la serie; de admitirse dicha
posibilidad, quedaría demostrado que los movimientos estacionales de la serie son lo
suficientemente determinantes como para proceder a su desestacionalización posterior.

Ejemplo 8.5

Veamos a continuación un ejemplo: vamos a realizar un test de presencia de estacionalidad a


la serie mensual de ventas de gasolina en Cantabria durante el período 1997-2006.

Años
Meses 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
1 7405 8098 6596 5951 7242 6230 6458 6818 6195 6186
2 6323 7756 6675 5846 6913 6236 6240 6654 6013 6013
3 8799 8939 8054 6762 8076 7798 7305 7661 7564 7118
4 8337 8777 7957 7013 8634 7661 8410 8353 7206 7329
5 8517 7843 7561 6744 7973 7645 8278 7772 7614 7402
6 8169 8351 8049 6745 8690 7676 8235 8319 7823 7322
7 11051 10575 10101 9638 10416 9882 10151 9780 9334 8591
8 12188 12229 10992 10996 12817 9858 11749 10894 10649 9906
9 9465 8638 8032 8865 8607 6915 8529 8357 7762 7634
10 8752 8114 7374 5900 7662 9768 8049 7592 7081 7026
11 7629 7731 6661 6405 7114 6923 6838 7151 6407 6466
12 8694 8474 7377 7485 8086 7550 7840 7970 6918 6927
TOTAL 105329 105525 95429 88350 102230 94142 98082 97321 90566 87920
Tabla 8.6. Ventas de Gasolina en Cantabria

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Para ello, obtenemos la componente estacional-irregular de la serie como diferencia entre la
serie original y una tendencia que calculamos mediante una media móvil centrada de 12
términos.

Años
Meses 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
1 0 -824 -1752 -1477 -891 -1888 -1550 -1379 -1614 -1212
2 0 -1170 -1570 -1582 -1372 -1635 -1925 -1472 -1776 -1323
3 0 82 -141 -736 -187 68 -995 -450 -175 -208
4 0 -27 -176 -362 224 -245 254 280 -491 8
5 0 -969 -483 -610 -496 -245 129 -327 -21 76
6 -608 -443 97 -618 171 -169 62 209 276 -5
7 2216 1906 2202 2168 1981 2018 1948 1722 1788 0
8 3233 3651 3162 3437 4439 1994 3511 2889 3103 0
9 499 133 310 1197 252 -908 261 360 253 0
10 -251 -322 -269 -1904 -612 1882 -214 -309 -439 0
11 -1318 -682 -914 -1501 -1133 -1016 -1383 -737 -1095 0
12 -268 86 -90 -583 -76 -435 -388 123 -542 0
Tabla 8.7. Ventas de Gasolina en Cantabria. Componente Estacional-Irregular

Para realizar un test de presencia de estacionalidad utilizamos la técnica de Análisis de


Varianza de un factor, utilizando como factor la agrupación por meses de los datos de ventas
de gasolina.

El análisis de varianza ofrece en este caso los siguientes resultados:


ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Entre
grupos 11 185129269 16829933,6 82,2705918 3,9469E-44
Dentro de
los
grupos 97 19843099,7 204568,038
Total 108 204972369

Como se puede apreciar, el valor de la F es lo suficientemente grande para admitir la hipótesis


H 0 de que el factor temporal mensual explica una parte de la varianza que tiene toda la serie.
El valor crítico de la F por debajo del cual rechazamos la hipótesis H0 en las tablas estaría en
torno a 2.

Método del porcentaje promedio

El método del porcentaje promedio es un procedimiento rápido y simple para elaborar un índice
estacional. El primer paso consiste en expresar la información de cada mes (o trimestre) como
un promedio para el año; en un segundo paso se obtienen porcentajes de los promedios
anuales; y, finalmente, en un tercer paso, dichos porcentajes se promedian en cada mes,
obteniéndose como resultado el índice estacional.

Ejemplo 8.6.
Para ilustrar el método del porcentaje promedio utilizamos el anterior ejemplo de las ventas
mensuales de gasolina en Cantabria para el período 1997-2006.

• En primer lugar obtenemos el promedio mensual de las ventas anuales:

Años
Meses 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


1 7405 8098 6596 5951 7242 6230 6458 6818 6195 6186
2 6323 7756 6675 5846 6913 6236 6240 6654 6013 6013
3 8799 8939 8054 6762 8076 7798 7305 7661 7564 7118
4 8337 8777 7957 7013 8634 7661 8410 8353 7206 7329
5 8517 7843 7561 6744 7973 7645 8278 7772 7614 7402
6 8169 8351 8049 6745 8690 7676 8235 8319 7823 7322
7 11051 10575 10101 9638 10416 9882 10151 9780 9334 8591
8 12188 12229 10992 10996 12817 9858 11749 10894 10649 9906
9 9465 8638 8032 8865 8607 6915 8529 8357 7762 7634
10 8752 8114 7374 5900 7662 9768 8049 7592 7081 7026
11 7629 7731 6661 6405 7114 6923 6838 7151 6407 6466
12 8694 8474 7377 7485 8086 7550 7840 7970 6918 6927
TOTAL 105329 105525 95429 88350 102230 94142 98082 97321 90566 87920
MEDIA 8777 8794 7952 7363 8519 7845 8174 8110 7547 7327
Tabla 8.8.

• Después calculamos en cada año el porcentaje del promedio, que es la relación que se da
entre las ventas de cada mes y su promedio anual.

Años
Meses 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
1 84% 92% 83% 81% 85% 79% 79% 84% 82% 84%
2 72% 88% 84% 79% 81% 79% 76% 82% 80% 82%
3 100% 102% 101% 92% 95% 99% 89% 94% 100% 97%
4 95% 100% 100% 95% 101% 98% 103% 103% 95% 100%
5 97% 89% 95% 92% 94% 97% 101% 96% 101% 101%
6 93% 95% 101% 92% 102% 98% 101% 103% 104% 100%
7 126% 120% 127% 131% 122% 126% 124% 121% 124% 117%
8 139% 139% 138% 149% 150% 126% 144% 134% 141% 135%
9 108% 98% 101% 120% 101% 88% 104% 103% 103% 104%
10 100% 92% 93% 80% 90% 125% 98% 94% 94% 96%
11 87% 88% 84% 87% 84% 88% 84% 88% 85% 88%
12 99% 96% 93% 102% 95% 96% 96% 98% 92% 95%
Tabla 8.9.

• El índice estacional sería el promedio para cada mes de los diez datos anuales:

Años Índice
Meses estacional
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
1 84% 92% 83% 81% 85% 79% 79% 84% 82% 84% 83,42%
2 72% 88% 84% 79% 81% 79% 76% 82% 80% 82% 80,43%
3 100% 102% 101% 92% 95% 99% 89% 94% 100% 97% 97,04%
4 95% 100% 100% 95% 101% 98% 103% 103% 95% 100% 99,05%
5 97% 89% 95% 92% 94% 97% 101% 96% 101% 101% 96,30%
6 93% 95% 101% 92% 102% 98% 101% 103% 104% 100% 98,76%
7 126% 120% 127% 131% 122% 126% 124% 121% 124% 117% 123,80%
8 139% 139% 138% 149% 150% 126% 144% 134% 141% 135% 139,60%
9 108% 98% 101% 120% 101% 88% 104% 103% 103% 104% 103,11%
10 100% 92% 93% 80% 90% 125% 98% 94% 94% 96% 96,11%
11 87% 88% 84% 87% 84% 88% 84% 88% 85% 88% 86,23%
12 99% 96% 93% 102% 95% 96% 96% 98% 92% 95% 96,14%
1200%

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Tabla 8.10.

El índice nos señala que en el período estudiado las ventas de enero han estado un
83.42% por debajo de las ventas mensuales promedio de cada año, y que en el mes de
agosto el nivel de ventas fue un 139.60% superior al nivel de venta mensuales promedio
anual. Dado que el valor medio mensual del índice ha de ser igual a 100, la suma de los 12
datos de que consta el índice mensual debe ser igual a 1200.

• Para obtener una serie de las ventas ajustadas estacionalmente, esto es, descontando el
efecto que provoca el ciclo estacional, se dividiría las ventas de cada mes por el
correspondiente índice estacional y se multiplicaría por 100:

Años
Meses 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
1 8876 9707 7907 7133 8681 7468 7741 8173 7426 7415
2 7861 9643 8299 7268 8595 7753 7758 8273 7476 7476
3 9067 9211 8299 6968 8322 8036 7528 7894 7795 7335
4 8417 8861 8033 7080 8717 7734 8491 8433 7275 7399
5 8845 8145 7852 7003 8280 7939 8596 8071 7907 7687
6 8271 8456 8150 6829 8799 7772 8338 8423 7921 7414
7 8926 8542 8159 7785 8413 7982 8199 7900 7539 6939
8 8731 8760 7874 7877 9181 7062 8416 7804 7628 7096
9 9180 8378 7790 8598 8348 6707 8272 8105 7528 7404
10 9106 8442 7672 6139 7972 10163 8375 7899 7368 7310
11 8847 8965 7725 7428 8250 8028 7930 8293 7430 7498
12 9043 8814 7673 7786 8411 7853 8155 8290 7196 7205
Tabla 8.11.

Método del porcentaje del promedio móvil

El método del porcentaje del promedio móvil es uno de los métodos más usados para la
medición de la variación estacional. Su cálculo es también bastante sencillo: en primer lugar se
obtiene un promedio móvil de 12 meses de la serie de datos originales (o de 4 trimestres si se
utilizan los datos trimestrales) tal que:

L/2

∑ Yt +i
( − L / 2 ) +1 L L L
MM ( L) t +0.5 = , t= , + 1,..., N −
L 2 2 2

Luego se recurre a un promedio móvil de 2 meses para centrar convenientemente el promedio


anterior, al que se le denomina promedio móvil centrado de doce meses; es decir:

MM ( L) t −0.5 + MM ( L) t +0.5 L L L
MM ( L x 2) t = , t = + 1, + 2,..., N −
2 2 2 2

Finalmente se obtiene el índice dividiendo los datos originales por el promedio móvil centrado,
MM(L x 2)t:

Yt
EI t =
MM ( L x 2) t

es decir, una estimación conjunta del componente estacional y del componente irregular. A los
valores obtenidos mediante la expresión anterior se los denomina índices brutos de variación
estacional.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Si disponemos de información para K años completos, el número total de observaciones es N y
la longitud del período estacional es L, se verificará que K·L = N. Bajo estos supuestos, para
cada estación se dispone de K–1 índices brutos de variación estacional, ya que se pierden L/2
datos al principio y L/2 datos al final, es decir, se pierde un dato en cada estación.

Para cada estación se puede calcular una media de todos los índices brutos disponibles. Así,
para la estación h, la media se obtendrá sumando todos los índices brutos de variación
estacional correspondientes a esa estación y dividiendo por K–1, que es el número de datos
disponibles en cada caso; es decir:

E h* =
∑ EI t
, h = 1,2,..., L
K −1

Al haber realizado un promedio de K–1 datos, el componente irregular queda eliminado si K es


suficientemente grande. En todo caso, al promediar siempre se atenuará el efecto del
componente irregular. Por ello, el resultado obtenido es un índice de variación estacional en el
que se supone que el componente irregular ha desaparecido completamente.

Sin embargo, estos índices no van a ser los definitivos, ya que se trata de índices no
normalizados. Si existe estacionalidad, ésta no debe afectar al nivel de la serie, por lo que es
razonable exigir a los coeficientes de estacionalidad el requisito de que su media sea 1, ó,
alternativamente, que su suma sea L. Cuando los índices de estacionalidad cumplen este
requisito se dice que están normalizados. Los índices de variación estacional normalizados se
pueden calcular fácilmente aplicando una proporción. Así, si utilizamos el símbolo Ê h para
designar el índice de variación estacional de la estación h, su expresión vendrá dada por

L
Eˆ h =ˆ E h* L

∑E
h =1
*
h

Finalmente, la serie desestacionalizada se obtendrá dividiendo cada valor de la serie original


por el índice de variación estacional correspondiente. Así, en el caso de que el período t
pertenezca a la estación h, entonces el valor de la serie desestacionalizada, al que
designaremos por Dt, vendrá dado por:

Yt
Dt =

h

Ejemplo 8.7.

Veamos a continuación un ejemplo, utilizando de nuevo la serie de ventas de gasolina de


Cantabria para obtener dicho índice estacional.

Años Meses
Ventas Media móvil 12 meses
1997 1 7.405
2 6.323
3 8.799
4 8.337
5 8.517
6 8.169 8.777
7 11.051 8.835
8 12.188 8.955
9 9.465 8.966
10 8.752 9.003
11 7.629 8.947
12 8.694 8.962
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


1998 1 8.098 8.922
2 7.756 8.926
3 8.939 8.857
4 8.777 8.804
5 7.843 8.812
Tabla 8.12.

El primer promedio móvil se centra en el 6º mes (Junio), lo que implica dejar sin valores seis
meses al final de la serie.

El segundo promedio, que es una media móvil de dos meses, se realiza para centrar
convenientemente el promedio móvil anterior, el primer valor que aparece es el valor promedio
de 8.777 y 8.835, y se centra en el 7º mes (Julio), quedando así ambos extremos de la serie
resultante con seis meses de ausencia de datos:

Años Meses Ventas Media móvil 12 Promedio móvil


meses centrado
1997 1 7.405
2 6.323
3 8.799
4 8.337
5 8.517
6 8.169 8.777
7 11.051 8.835 8.806
8 12.188 8.955 8.895
9 9.465 8.966 8.960
10 8.752 9.003 8.985
11 7.629 8.947 8.975
12 8.694 8.962 8.954
1998 1 8.098 8.922 8.942
2 7.756 8.926 8.924
3 8.939 8.857 8.891
4 8.777 8.804 8.830
5 7.843 8.812 8.808
Tabla 8.13.

Finalmente se calcula el índice dividiendo los datos originales por el promedio móvil centrado y
multiplicando por cien:

Años Meses Ventas Media móvil Promedio Índice


12 meses móvil estacional
centrado
1997 1 7.405
2 6.323
3 8.799
4 8.337
5 8.517
6 8.169 8.777
7 11.051 8.835 8.806 125,49%
8 12.188 8.955 8.895 137,02%
9 9.465 8.966 8.960 105,63%
10 8.752 9.003 8.985 97,41%
11 7.629 8.947 8.975 85,00%
12 8.694 8.962 8.954 97,09%
1998 1 8.098 8.922 8.942 90,56%
2 7.756 8.926 8.924 86,91%
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


3 8.939 8.857 8.891 100,54%
4 8.777 8.804 8.830 99,40%
5 7.843 8.812 8.808 89,05%
Tabla 8.14

La serie desestacionalizada de las ventas de gasolina en Cantabria sería el promedio móvil


centrado de 12 meses:

14.000

12.000

10.000 Ventas

8.000
Promedio móvil
6.000 centrado
Serie
4.000 desestacionalizada

2.000

0
1997

Gráfico 8.4.

Predicción con estacionalidad estable

Los coeficientes de estacionalidad calculados en el epígrafe anterior pueden ser utilizados para
realizar predicciones de la variable. Para ello, vamos a considerar el supuesto de que
disponemos de una muestra de tamaño T y deseamos realizar predicciones para los L períodos
siguientes (por ejemplo, si los datos son trimestrales y la muestra comprende años completos,
se trataría de predecir los valores que toma la variable en los trimestres del primer año
postmuestral).

Bajo el supuesto de estacionalidad estable, el predictor vendrá dado por la siguiente expresión:

Yˆt + h / T = TˆT + h Eˆ h , h = 1, 2, …, L

donde TˆT + h es la predicción obtenida de la tendencia mediante el ajuste de una función a los
datos desestacionalizados.

Desestacionalización con Estacionalidad Cambiante


Hasta ahora hemos considerado el supuesto de que los coeficientes de estacionalidad eran
estables, es decir, que se repetían año tras año. Sin embargo, en muchas ocasiones este
supuesto no es realista, pudiendo ocurrir que estos coeficientes estén afectados por una
tendencia.

Bajo el supuesto de estacionalidad cambiante, las fases para la aplicación del método de la
razón a la media móvil son las siguientes:

1. Obtención de unas medias móviles de orden estacional.


2. Obtención de unas medias móviles centradas.
3. Obtención de los índices brutos de variación estacional.
4. Obtención de los índices de variación estacional sin normalizar.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Las tres primeras fases son las mismas que se aplicaban bajo el supuesto de estacionalidad
estable. Una vez obtenidos los índices brutos de variación estacional, se debe proceder a la
representación de este indicador para cada estación por separado. A la vista de esta
representación se tomará la decisión de cuál es la función matemática adecuada para
representar la tendencia de la estacionalidad.

Recuérdese que los índices brutos de variación estacional son una estimación conjunta del
componente estacional y del componente irregular. Por ello, al realizar el ajuste de modelos
que recojan la tendencia de la estacionalidad, lo que estamos haciendo en realidad es separar
estos dos componentes. Así, adoptando el supuesto de que están integrados de forma aditiva,
se tendrá la siguiente descomposición:

EI t = E t* + I t , h = 1, 2, …, L

donde Et* son los valores estimados al ajustar una función del tiempo en la que la variable
dependiente es EI. En la mayor parte de las ocasiones es adecuado el ajuste de una recta para
tal finalidad. Si éste es el caso resulta:

E t* = aˆ h 0 + aˆ h1 r , h = 1, 2, …, L

donde r es el año en que se encuentra el período t. Teniendo en cuenta que al calcular los
índices brutos de variación estacional se pierden L/2 datos al principio y L/2 al final y
suponiendo que se dispone de información sobre K años completos, entonces r variará, según
los casos, entre 2 y K o entre 1 y K–1.

Después de realizado el ajuste se procederá a la predicción de los coeficientes de


estacionalidad de cada uno de los años que integran la muestra. De esta forma se obtienen
unos índices de variación estacional sin normalizar, aunque distintos para cada año.

Seguidamente, la obtención de los índices de variación estacional normalizados se realizará


haciendo una ligera modificación en la fórmula ya estudiada. Concretamente, la fórmula a
aplicar será la siguiente:

L
Eˆ t =ˆ E t* , m = 1, 2, …, r
∑E
m
*
m

Como puede verse en la fórmula anterior, la normalización se realiza año a año. Por ello, el
factor de normalización es igual a L dividido por la suma de los índices de variación estacional
correspondientes al mismo año (r) en que se encuentra el período t.

Finalmente, la serie desestacionalizada, al igual que antes, se obtiene dividiendo la serie


original por el índice de variación estacional correspondiente, es decir,

Yt
Dt =
Eˆt

Obsérvese que, bajo el supuesto de estacionalidad cambiante, a cada dato de la variable le


corresponde un índice de variación estacional distinto, a diferencia de lo que ocurría bajo el
supuesto de estacionalidad constante, donde el índice de variación estacional permanecía fijo
dentro de cada estación.

Desestacionalización y Predicción con Estacionalidad Cambiante

Bajo el supuesto de estacionalidad cambiante, el predictor vendrá dado por la siguiente


expresión:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Yˆt + h / T = TˆT + h Eˆ h , h = 1, 2, …, L

donde TˆT + h es la predicción obtenida de la tendencia mediante el ajuste de una función a los
datos desestacionalizados y E es la predicción de la estacionalidad para el período T+h,
obtenida a partir de un ajuste y su posterior normalización.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Anexo I: Análisis de regresión con Excel

La notación de la regresión lineal en EXCEL es la siguiente:


Y = mX + b
Siendo, Y la variable dependiente, X , la variable independiente, el parámetro m es la
pendiente y el parámetro b es una constante que indica que cuando X=0, Y=b.
Para calcular los parámetros de la regresión lineal se procedería:

m=Cov(xy)/Var(x)

Cov(xy)=Covarianza de XY = Media Aritmética(XY)-Media A(X)*Media A(Y)

b=Media A(X)-Media A(Y)*m

COVARIANZA

Obtiene el promedio del producto de desviaciones de puntos de datos partiendo de las medias
respectivas. La covarianza es una medida de la relación entre dos rangos de datos y está
vinculada a la unidad de medida correspondiente a X e Y.

Sintaxis: Cálculo de Covarianza de X1 e Y

Escribimos en la celda Covar(b3:b24;c3:c24)

COEFICIENTE DE CORRELACIÓN

Mide el grado de relación existente entre las variables, y se calcula mediante:

Corr(XY)=Cov(XY)/(Desv(x)*Desv(y))

Este toma valores entre 1 y -1,

Si Corr(XY)= 1 Relación Directa y Absoluta (Aumento de X=>Aumento Y).


0 No existe Correlación (X e Y son incorreladas).
-1 Relación Indirecta y Absoluta (Aumento de X=>Dism. Y).

Sintaxis: Cálculo de Coef. de Correlación de X1 e Y

Escribimos en la celda =Coef.de.Correl(b3:b24;c3:c24)

Asistente: Nos situamos en Asistente de funciones, estadísticas, y COEF. DE CORREL. y


en el paso 2 de 2

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


en Matri 1 situamos el rango de valores de Y, y en Matriz2 el de la X1

COEFICIENTE DE DETERMINACIÓN

Muestra la bondad de la recta de regresión para estudiar la relación de dependencia entre las
variables. Su valor fluctúa entre 0 y 1. En 1 nos indicaría que la recta es perfecta para
determinar esa relación y en 0 que no nos es útil la recta de regresión para determinarla.

En el caso de que fuera 1, nos indicaría que no existirían diferencias entre valores estimados y
valores reales.

Sintaxis: =COEFICIENTE.R2(matriz_ymatriz_x)

ESTIMACIÓN LINEAL para 2 variables

Calculamos ahora la recta de regresión lineal entre dos variables, Y y X1 mediante :

Y=m*X1 + b

Sintaxis: ESTIMACION.LINEAL(Matrix_Y;Matriz_X;constante;estadística)

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Conocido_y Valores de la Variable dependiente (Obligatorio).
Conocido_x Valores de la Variable independiente.
Constante Determina si b debe de calcularse (se omite o pone Verdadero), lo que
debe ser lo habitual, salvo que se sepa con certeza que cuando X=0, Y
es distinto de cero. En este último caso, debe de ponerse 0 o FALSO.
Estadística Determina si se calcula estadísticos adicionales de la recta de regresión.

La función devuelve una MATRIZ, por lo que debe de seleccionarse el rango de salida :

Seleccionar el rango de salida, Entrar en el asistente de funciones y confirmar con Ctrl


+ Shift+ Return

las salidas de los indicadores se nos muestran de la siguiente forma

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


m b
se(m) se(b)
R2 se(y)
F df
ss(reg) ss(res)

m Pendiente de la recta de regresión.


Puede ser calculada separadamente mediante la función PENDIENTE
Sintaxis =Pendiente(matriz_y;matriz_x)

b Punto de intersección con eje Y. Puede calcularse independientemente


con la función INTERSECCION.eje
Sintaxis =Interseccion.eje(matriz_y;matrix_x)

se(m) Valor del error típico de la pendiente.

se(b) Valor del error típico de la intersección.

R2 Coeficiente de Determinación de la recta de regresión.


Puede calcularse separadamente mediante la función COEFICIENTE.R2

Sintaxis =Coeficiente.R2(matriz_y;matriz_x)

se(y) Error típico de la estimación Puede calcularse independientemente


con la función ERROR.TIPICO.XY

Sintaxis =Error.Tipico.XY(Matriz_y;Matriz_x)

F Estadístico F o valor F observado.


Puede calcularse independientemente con la función DISTR.F

Sintaxis =Distr.F(X;grados_libertad1;grados_libertad_2)

df Grados de libertad para la prueba F.

se(reg) Suma de los cuadrados de la regresión.

se(resid) Suma de los cuadrados de los residuos.

TENDENCIA

Una vez calculados los valores m y b de la recta y analizado los dos estadísticos anteriores,
podemos realizar el pronóstico de valores que alcanzará Y en función de los nuevos valores de
X.

y$ =mX+b

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Mediante esta función podemos calcular, tanto los valores que obtendría la Y para distintos
valores de X1, como las diferencias entre los valores reales de X1 y los valores estimados para
cada X1.
Para ello utilizamos el asistente de funciones, Tendencia

con lo que hemos calculado los valores estimados, para los datos reales que tenemos.

Mediante el asistente de gráficas podemos representar las diferencias entre los valores reales y
los obtenidos por regresión lineal. (Para ello ordenamos los datos de la tabla anterior de menor
a mayor).

Así mismo, vamos a calcular valores de tendencia para datos ajenos a la muestra utilizada,
para ello hay que escribir en la matriz de Nuevas_X, las deseadas.

También se puede realizar, calculando mediante la función PRONOSTICO para un valor


determinado de X1

Sintaxis: =Pronóstico(xmatriz_ymatriz_x)

REGRESIÓN LINEAL MÚLTIPLE

Al igual que hemos realizado la regresión lineal mínimo cuadrática para establecer la
dependencia entre Y e X, también podemos realizarlas para observar dicha dependencia de Y
respecto a varias variables (X1..Xn).

En este caso la regresión será del tipo :

Y=m1X1+..+mnXn+b

De la misma manera calcularemos el coeficiente de determinación y los coeficientes de


correlación parciales entre variables.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


En Excel es posible calcular otros estadísticos que pueden ser muy útiles, tales como ‘EL Valor
F Observado’, los grados de libertad, la suma de regresión de cuadrados, la suma residual de
los cuadrados, error típico de la estimación...

Veamos ahora el caso de que la variable dependiente está relacionada con más de una
variable independiente.

Para n variables dependientes, la recta de regresión será :

Y=x1*m1 + ...+xn*mn + b

Para 3 variables independientes:

Y=X1*m1+X2*m2+X3*m3+b

y los resultados se muestran en la siguiente matriz de datos :

Seleccionamos la regresión mediante el asistente de fórmulas :

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


ESTIMACIÓN EXPONENCIAL

En ocasiones la dependencia entre variables no se ajusta a una recta o al ajustarla nos sale un
coeficiente de determinación que indica que no es útil, y podemos realizar la estimación
mediante una curva exponencial.

En Excel podemos realizar la tendencia de datos mediante la función crecimiento que ajusta
los datos de X, Y a lo largo de la curva.

Hasta ahora, hemos realizado la estimación mediante regresión lineal, pero todos los procesos
obtenidos en la lineal (univariante y multivariante), se pueden realizar de igual forma con una
ica.
regresión exponencial mediante una estimación logarítm

La curva obtenida será de la forma:


y=(b*(m1x1)..(mnxn)) o matricialmente y=b*mx

En este caso si al especificar la constante en el asistente ponemos Falso, el valor que no


calcula se asume igual a 1.

Ya que Excel calcula la formula para los cálculos:


Ln(Y)=Ln(b)+ x1 * Ln(m1) + .. + Xn * Ln(mn)

los estadísticos que nos resultan serán :

se(m) Errores típicos de Ln(m)


se(b) Error típico de Ln(b)

En el asistente seleccionaremos la función ESTIMACION.LOGARITMICA.


La tendencia de los datos la realizamos mediante la función CRECIMIENTO.

Estimación de un Modelo de Regresión Lineal con la macro


“Análisis de datos”

A continuación, vamos a estimar los parámetros de un determinado modelo por Mínimos


Cuadrados Ordinarios utilizando la macro “Análisis de datos”, programa que simplifica
notablemente los cálculos a realizar cuando disponemos de muchas observaciones y/o
variables exógenas.

Supongamos que la cantidad demandada de manzanas viene determinada en función de su


precio, y queremos cuantificar dicha relación. Partimos de la siguiente tabla de datos:

Cantidad (Kg.) Precio (u.m. / Kg.)

2.456 82
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


2.325 92
2.250 94
2.200 99
2.100 106
2.082 108
2.045 112
2.024 115

Si realizamos un diagrama de dispersión mediante la opción Gráfico, dentro del menú Insertar
de Excel, obtendremos un gráfico como el siguiente en el que puede comprobarse la relación
que aparentemente existe entre cantidades demandadas de manzanas y su precio.

Curva de demanda

120

115

110

105

100 Precio (u.m. / Kg.)

95

90

85

80
2.000 2.100 2.200 2.300 2.400 2.500

Relación entre la demanda de manzanas y su precio


Pasamos a continuación a estimar la recta de regresión por Mínimos Cuadrados Ordinarios.
Para ello, el alumno debe verificar que tiene instalada la opción Herramientas para el Análisis
dentro la opción Complementos del menú Herramientas.

En caso de no tener dicha opción instalada en nuestro ordenador, deberemos marcar las
casillas que se ven en la figura, insertando seguidamente el CD-Rom de Microsoft Office para
proceder a su instalación. Una vez instaladas estas opciones, dispondremos de una nueva
opción en el menú Herramientas llamada Análisis de Datos. Si pinchamos en ella, nos
aparecerá una ventana similar a la siguiente, en la que seleccionaremos la opción Regresión:

Al seleccionar dicha opción nos aparecerá un cuadro de diálogo como el siguiente:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


En este cuadro de diálogo podemos seleccionar el rango de nuestra hoja de cálculo que
contiene los datos referidos a la variable endógena (Rango Y de entrada) y a las variables
exógenas (Rango X). Asimismo, se incluyen otras opciones sumamente útiles tales como
eliminar el término independiente del modelo (Constante igual a cero), determinar el nivel de
confianza al cual se realizarán los tests de significación de los parámetros, la posibilidad de
obtener una tabla con los términos de error del modelo (Residuos) y su gráfico (Grafico de
Residuales), etc.

Una vez introducidos los rangos de las variables y seleccionado las opciones que deseemos
(no debemos olvidar indicar en qué Hoja, Rango o Libro deseamos que nos aparezcan los
resultados), pulsamos en Aceptar y nos aparecerá una ventana similar a ésta:

La estimación de los parámetros del modelo aparecen en la columna Coeficientes, junto con su
Desviación Típica o Error Típico y el estadístico t de significatividad individual (obsérvese que
al término independiente del modelo, Excel lo denomina Intercepción). A la vista de los
resultados, el modelo estimado tiene la siguiente forma:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Cantidad = 3534.27 – 13.36· Precio
(48.1) (-18.46)

donde entre paréntesis se muestra el estadístico t experimental asociado a cada parámetro,


siendo ambas claramente superiores a 2.365 (valor en tablas de una t de Student con n – k = 7
grados de libertad al 95% de confianza.

Para el análisis de la bondad de ajuste del modelo, Excel ofrece los siguientes resultados:

a) Por un lado, si marcamos la casilla Curva de Regresión Ajustada obtenemos un gráfico


con los valores originales y estimados de la variable endógena, lo que nos permitirá
realizar un primer acercamiento visual al grado de ajuste de la recta (véase grafico)

Precio Curva de regresión ajustada

2.500

2.400 Cantidad
Pronóstico Cantidad
2.300
Cantidad

2.200

2.100

2.000

1.900
80 85 90 95 100 105 110 115 120
Precio

Recta de regresión entre la demanda de manzanas y su precio

b) Por otro lado, Excel muestra en la parte superior de los resultados el valor del
coeficiente de determinación que, en nuestro caso, es del 98%, lo que nos indica un
grado de ajuste muy bueno.

Para evaluar la significatividad estadística de los parámetros estimados, además de los


estadísticos t asociados a cada parámetro estimado y los respectivos intervalos de confianza
para cada uno de ellos, Excel nos muestra también el estadístico F que aparece en la tabla
Análisis de Varianza, mediante el que se realiza un contraste de significación global de los
parámetros estimados. En los resultados obtenidos, el estadístico F tomo un valor 340.8
asociado a un p-value de 0.0000016, valor que es claramente inferior a 0.05, por lo que se
rechaza la hipótesis nula, lo que nos permite afirmar que todos los parámetros del modelo son
globalmente significativos, es decir, todos son significativamente distintos de cero. En este
punto, cabe señalar que si estimamos un modelo con varias variables exógenas y nos
encontramos con que alguno de los parámetros del modelo es estadísticamente igual a cero,
deberíamos eliminar dicha variable del modelo al no haberse encontrado una relación de
causalidad con la variable endógena.

Respecto al análisis de los errores o residuos del modelo, Excel ofrece el Cuadro de Valores
Ajustados (Pronóstico Cantidad), los Residuos del modelo y los Residuos Estándares (es decir,
tipificados). Según la teoría que hemos estudiado hasta ahora, los residuos estándares deben
seguir una distribución Normal de media 0 y desviación estándar 1; por tanto, aquellos residuos
cuyo valor absoluto supere 1.96 se corresponderán con valores atípicos, también denominados
outliers en la literatura estadística. En nuestro ejemplo, afortunadamente, no se observa ningún
outlier como puede apreciarse en la siguiente tabla de Análisis de Residuos:
Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Análisis de los residuos
Observación Pronóstico Cantidad Residuos Residuos estándares
1 2439,03 16,97 0,79
2 2305,46 19,54 0,91
3 2278,75 -28,75 -1,33
4 2211,96 -11,96 -0,56
5 2118,47 -18,47 -0,86
6 2091,75 -9,75 -0,45
7 2038,33 6,67 0,31
8 1998,26 25,74 1,20

El gráfico de los residuos también constituye una herramienta de análisis importante, ya que
nos permite evaluar la aleatoriedad de los mismos. En nuestro ejemplo, se observa una ligera
falta de aleatoriedad, derivada de que los cuatro últimos residuos presentan una marcada
racha creciente.

Precio Gráfico de los residuales

40
30
20
10
Residuos

0
-10
-20
-30
-40
80 85 90 95 100 105 110 115 120
Precio

Gráfico de residuos del modelo de demanda de manzanas frente al precio

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Anexo II: Acceso a datos externos desde Excel

Además de poder utilizar ficheros de datos en distintos formatos (HTML, XML, texto, etc.),
Excel permite importar datos desde servidores de bases de datos (SQL Server, Oracle,
MySQL, p. ej.), siempre y cuando tengamos instalado en nuestro PC el controlador
correspondiente.
En el caso de que los datos de interés se encuentren en una base de datos Access, podremos
acceder a los mismos de dos maneras: bien como fichero o bien como servidor de bases de
datos, mediante la creación de una conexión ODBC u OLEDB.

Vamos a explicar dos ejemplos de acceso a una BD Access.

Caso 1: Acceso como archivo

Procedemos a abrir el fichero Access desde el menú “Archivo” -> “Abrir”. En “Tipo de archivo”
seleccionamos “Bases de datos de Access (*.mdb; *.mde)

La advertencia de seguridad nos informa sobre la posibilidad de que la consulta de datos


proporcione un acceso a información no autorizada. Una BD Access, además de los datos de
interés, puede contener consultas a otras fuentes de datos y debemos tener esto en cuenta
cuando utilizamos archivos procedentes de otro usuario o departamento. En este caso, abrimos
el fichero puesto que es de confianza.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


La ventana “Seleccionar tabla” nos muestra las tablas y vistas o consultas existentes en la BD,
para seleccionar la que nos interese. Solamente podemos seleccionar una tabla, por lo que, si
deseamos cargar datos procedentes de diferentes tablas, tendremos que repetir esta operación
para cada una de ellas.

Una vez seleccionada una tabla, se cargan los datos en la hoja activa, incluyendo las
cabeceras con el nombre de las columnas.

Una vez cargados los datos, la barra de herramientas de datos externos nos permitirá:

- modificar la consulta, por ejemplo filtrar los datos mediante una sentencia SQL

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


- establecer propiedades del rango de datos y comportamiento de la hoja de datos
(actualización al abrir, refresco cada cierto tiempo, etc.)

- actualizar los datos inmediatamente

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Caso 2: Acceso como servidor base de datos
Para importar datos desde un servidor de BBDD, acudiremos al menú “Datos” -> “Obtener
datos externos” -> “Importar datos”

Por defecto, Excel nos muestra los ficheros existentes para orígenes de datos ya definidos. Si
no disponemos de una conexión para la base de datos, podemos crearla pulsando el botón
“Nuevo origen…”. El Asistente para la conexión de datos nos guiará paso a paso para
establecer una conexión. En primer lugar, seleccionamos el tipo de origen de datos.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


En el ejemplo, seleccionamos DSN (nombre de origen de datos) ODBC para abrir el origen de
datos Access instalado por defecto

En la ventana de exploración, buscamos el fichero “datos_climaticos.mdb”

A continuación, seleccionaríamos una tabla, tal y como hicimos en el caso anterior

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Por último, guardamos los datos de conexión, para su uso posterior

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Anexo III: Macros en Excel

¿Qué son las macros?


Las tareas que se realizan con frecuencia pueden automatizarse mediante macros. Una macro
(macroinstrucción) consiste en una serie de comandos y funciones que se almacenan en un
módulo de Visual Basic y que pueden ejecutarse siempre que sea necesario realizar la tarea.
Son, por lo tanto, programas sencillos pero que pueden resultar tremendamente útiles en
nuestro trabajo diario, con la ventaja de que no es necesario conocer un lenguaje de
programación para crearlas. Simplemente dejaremos que Excel lo haga por nosotros.

Grabar macros

Al grabar una macro, Excel almacena información sobre cada paso dado cuando se ejecutan
de forma manual una serie de comandos. A continuación, se ejecuta la macro para que repita
los comandos. Si se comete algún error mientras se graba la macro, también se graban las
correcciones que se realicen. Visual Basic almacena cada macro en un nuevo módulo adjunto
a un libro.

Para que una macro se ejecute cada vez que haga clic en un botón determinado o presione
una combinación de teclas específica, asigne la macro a un botón de la barra de herramientas,
a un método abreviado de teclado o a un objeto gráfico de una hoja de cálculo.

Ejecutar fácilmente una macro

Se puede ejecutar una macro seleccionándola de una lista en el cuadro de diálogo “Macro”.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral


Administrar macros

Tras grabar una macro, se puede ver el código de macro con el Editor de Visual Basic para
corregir errores o modificar lo que hace la macro. Por ejemplo, si la macro de ajuste de texto
también tiene que aplicar el formato de negrita al texto, se puede grabar otra macro para
aplicar el formato de negrita a una celda y, a continuación, copiar las instrucciones de esa
macro a la macro de ajuste de texto.

El Editor de Visual Basic es un programa diseñado para que los usuarios principiantes puedan
escribir y editar fácilmente código de macro, y proporciona mucha Ayuda en pantalla. No es
preciso saber cómo se programa o se utiliza el lenguaje de Visual Basic para realizar cambios
sencillos en las macros. El Editor de Visual Basic permite modificar macros, copiarlas de un
módulo a otro, copiarlas entre diferentes libros, cambiar el nombre de los módulos que
almacenan las macros o cambiar el nombre de las macros.

Seguridad de macros

Excel incluye protecciones para ayudar a proteger contra virus susceptibles de ser transmitidos
por macros. Si se comparten macros con otros usuarios, se puede certificar esas macros con
una firma digital de modo que los demás usuarios pueden comprobar que proceden de una
fuente fidedigna. Al abrir un libro que contiene macros, se puede comprobar su origen antes de
habilitarlas.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Profesores: Francisco Parra, Mª Paz Moral

También podría gustarte