Está en la página 1de 296

Rafael Díez

Vicente Coll
Olga Mª Blasco

Guía didáctica de
Estadística Descriptiva
para las
Ciencias Sociales

Eumed.net
Universidad de Málaga 2008
Guía didáctica de Estadística Descriptiva para las
Ciencias Sociales
© Rafael Díez García, Vicente Coll Serrano y Olga Mª Blasco
Blasco

Diseño de cubierta:
© Rafael Díez García
Vicente Coll Serrano
Olga Mª Blasco Blasco

Reservados los derechos para todos los países. De conformidad con lo


dispuesto en el artículo 270 del Código penal vigente, podrán ser
castigados con multas y privación de libertad quienes reprodujeren o
plagiaren, en todo o en parte, una obra literaria, artística o científica
fijada en cualquier tipo de soporte sin la preceptiva autorización. Ninguna
parte de esta publicación, incluido el diseño de la cubierta, puede ser
reproducida, almacenada o transmitida de ninguna forma, ni por ningún
medio, sea éste electrónico, químico, mecánico, electro-óptico,
grabación, fotocopia o cualquier otro, sin la previa autorización escrita
por parte de los autores.

ISBN:

Depósito Legal:

Maquetación: © Rafael Díez García


Vicente Coll Serrano
Olga Mª Blasco Blasco
Índice
6 Índice analítico.

Página

TEMA 1. INTRODUCCIÓN.
Ficha del tema 1. 16
Objetivos de aprendizaje. 17
Bibliografía básica para complementar el tema. 18
Programación de la guía didáctica:
1.1. Estadística: concepto, contenido y relaciones con el área económi-
ca y empresarial. 19
1.2. La investigación estadística. Análisis descriptivo, modelización e in-
ferencia. 28
1.3. Datos estadísticos: naturaleza, descripción numérica y representa-
ción gráfica. 32
Conceptos clave. 43
Ejemplos. 44

TEMA 2. ANALISIS DE DATOS UNIDIMENSIONALES.


Ficha del tema 2. 53
Objetivos de aprendizaje. 54

© Rafael Díez, Vicente Coll y Olga Blasco


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 7

Página

Bibliografía básica para complementar el tema. 55


Programación de la guía didáctica:
2.1. Principales medidas de posición, dispersión y de forma o perfil. 56
2.2. Transformaciones lineales y tipificación de variables. 76
2.2.1. Transformaciones lineales. 76
2.2.2. Tipificación de variables. 83
2.2.3. Regla de Tchebysheff. 86
2.3. Otras medidas de posición: moda y cuantiles (mediana). 88
Conceptos clave. 95
Ejemplos. 96

TEMA 3. MEDIDAS DE CONCENTRACIÓN.


Ficha del tema 3. 116
Objetivos de aprendizaje. 117
Bibliografía básica para complementar el tema. 118
Programación de la guía didáctica:
3.1. Introducción: concepto, instrumentos, concentración mínima y
máxima. 119
3.2. Curva de Lorenz. 122

© Rafael Díez, Vicente Coll y Olga Blasco


8 Índice analítico.

Página

3.3. Índice de Gini. 123


Conceptos clave. 124
Ejemplos. 125

TEMA 4. ANÁLISIS DE DATOS BIDIMENSINALES.


Ficha del tema 4. 128
Objetivos de aprendizaje. 129
Bibliografía básica para complementar el tema. 130
Programación de la guía didáctica:
4.1. Representación de datos multidimensionales: matriz de datos, ta-
blas de correlación y contingencia, gráfico de dispersión. 131
4.2. Distribuciones conjuntas, marginales y condicionadas. Indepen-
dencia estadística. 134
4.3. Momentos. Vector de valores medios y matriz de varianzas-
covarianzas. 146
4.4. El coeficiente de correlación lineal simple. Matriz de correlación. 155
4.5. Asociación. 158
Conceptos clave. 163
Ejemplos. 164

© Rafael Díez, Vicente Coll y Olga Blasco


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 9

Página

TEMA 5. ANÁLISIS DE REGRESIÓN.


Ficha del tema 5. 176
Objetivos de aprendizaje. 177
Bibliografía básica para complementar el tema. 178
Programación de la guía didáctica:
5.1. Introducción. 179
5.2. Regresión mínimo-cuadrática: caso lineal. 187
5.3. Análisis de la bondad de un ajuste: capacidad explicativa de una
ecuación de regresión. Coeficiente de determinación. Caso lineal. 199
5.4. Regresión no lineal: potencial y exponencial. 211
Conceptos clave. 216
Ejemplos. 217

TEMA 6. TASAS DE VARIACIÓN Y NÚMEROS ÍNDICE.


Ficha del tema 6. 224
Objetivos de aprendizaje. 225
Bibliografía básica para complementar el tema. 226

© Rafael Díez, Vicente Coll y Olga Blasco


10 Índice analítico.

Página

Programación de la guía didáctica:


6.1. Introducción. 227
6.2. Tasas de variación. 229
6.3. Números Índices: clasificación y propiedades. 230
6.3.1. Definición y clasificación. 230
6.3.2. Índices simples. 231
6.3.3. Índices complejos. 233
6.3.4. Propiedades. 236
6.4. Índices de precios y cantidades más importantes. 237
6.4.1. Índice de precios complejo ponderado. 239
6.4.2. Índice de cantidad complejo ponderado. 240
6.4.3. Índice complejo de valor. 241
6.5. Cambio de base, renovación y enlace. 242
6.6. Deflactación de series estadísticas. 244
Conceptos clave. 248
Ejemplos. 249

TEMA 7. ANÁLISIS CLÁSICO DE SERIES TEMPORALES.


Ficha del tema 7. 256

© Rafael Díez, Vicente Coll y Olga Blasco


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 11

Página

Objetivos de aprendizaje. 257


Bibliografía básica para complementar el tema. 258
Programación de la guía didáctica:
7.1. Introducción. 259
7.2. Componentes de una serie. Descomposición. 260
7.3. Análisis de la tendencia. 262
7.3.1. Tendencia anual. 265
7.3.2. Tendencia k-esimal. 267
7.4. Análisis de la variación estacional. Desestacionalización. 270
7.4.1. Obtención de los IVE. 272
7.4.2. Desestacionalización. 275
7.5. Predicción. Corrección por estacionalidad. 276
7.5.1. Predicción de la tendencia. 276
7.5.2. Corrección por estacionalidad. 277
Conceptos clave. 278
Ejemplos. 279

© Rafael Díez, Vicente Coll y Olga Blasco


12

PRÓLOGO

El texto de Estadística que se presenta con el nombre de Guía Didáctica de Estadística Descripti-
va para las Ciencias Sociales, tiene una estructura que lo sitúa entre un conjunto de fichas resu-
men de los contenidos de una materia y un libro de texto. Es mucho más amplio que un mero re-
sumen de conceptos y fórmulas, pero no supone un desarrollo exhaustivo de los epígrafes de una
programación; tampoco contiene demostraciones salvo alguna conveniente excepción. No por ello
deja de ser un texto riguroso y sistemático, ajustado a una programación. Hemos diseñado esta
Guía didáctica de forma que su contenido sirva de refuerzo a la clase presencial de un curso de in-
troducción de Estadística.

La Guía Didáctica pretende ser un texto que acompañe y encamine a los estudiantes en el estu-
dio de la materia, aportándoles información concreta y precisa sobre los conceptos clave y técni-
cas de la Estadística Descriptiva. Cada uno de estos conceptos viene acompañado por ejemplos
ilustrativos que ayudarán al estudiante a asimilarlos.

© Rafael Díez, Vicente Coll y Olga Blasco


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 13

Se encuentra también disponible, como material complementario de esta Guía Didáctica, las Fi-
chas Técnicas de Estadística Descriptiva para las Ciencias Sociales.

Cómo utilizar la Guía Didáctica de Estadística Descriptiva para las Ciencias Sociales.

La Guía Didáctica se compone de un total de 7 temas. En cada tema se facilita una ficha que
presenta su estructura-organización:
Objetivos de aprendizaje.
Bibliografía básica para complementar el tema.
Programación del tema.
Conceptos clave.
Ejemplos.

Los apartados de la ficha están hipervinculados. También están vinculados los ejemplos pro-
puestos que aparecen en el desarrollo de los epígrafes de cada tema. Observará que el puntero de
ratón cambia de forma. Al hacer clic sobre el texto vinculado se accederá a la parte del documento
donde se desarrolla el contenido.

© Rafael Díez, Vicente Coll y Olga Blasco


14

A pie de página aparecen dos o tres iconos.

Para acceder al índice de la Guía Didáctica.


Índice

Para volver a la ficha del tema.


Ficha

Para volver al texto (solo disponible en los enunciados de ejemplos)


Texto

Esperamos que los contenidos tratados en la Guía Didáctica de Estadística Descriptiva para las
Ciencias Sociales resulten de utilidad al lector.

Contacto con los autores:


Rafael Díez García: Rafael.Díez@uv.es
Vicente Coll Serrano: Vicente.Coll@uv.es
Olga Blasco Blasco: Olga.Blasco@uv.es

© Rafael Díez, Vicente Coll y Olga Blasco


TEMA 1
INTRODUCCIÓN
16 Introducción.

Ficha del tema 1.

Objetivos de aprendizaje.
Bibliografía básica para complementar el tema.
Programación de la guía didáctica:
1.1. Estadística: concepto, contenido y relaciones con el área económica y
empresarial.
1.2. La investigación estadística. Análisis descriptivo, modelización e infe-
rencia.
1.3. Datos estadísticos: naturaleza, descripción numérica y representación
gráfica.
Conceptos clave.
Ejemplos.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 17

OBJETIVOS DE APRENDIZAJE.

Conocer y distinguir las dos ramas básicas de la estadística, la estadística


descriptiva y la inferencia estadística, intuyendo como interacciona entre
ambas la teoría matemática de la probabilidad creando modelos.

Distinguir entre datos de tipo cualitativo y cuantitativo, discreto y continuo,


aprendiendo a ordenarlos en distribuciones de frecuencias agrupadas y sin
agrupar.

Construir histogramas y polígonos acumulativos partir de una distribución de


frecuencias agrupada en intervalos.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
18 Introducción.

BIBLIOGRAFÍA BÁSICA (teoría y problemas)

ESTEBAN, J.; y otros.: “Estadística Descriptiva y nociones de Probabili-


dad”, Ed. Thomson, 2005.

Tema 1. (Con ejercicios, cuestiones de autoevaluación y problemas


resueltos y propuestos).

MONTIEL, A.M.; RIUS, F.; BARÓN F.J.: “Elementos básicos de Estadística


Económica y Empresarial”, Ed. Prentice Hall, Madrid 1997.

Capítulos 1 y 2.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 19

1.1. ESTADÍSTICA: CONCEPTO, CONTENIDO Y RELACIONES CON EL


ÁREA ECONÓMICA Y EMPRESARIAL.

Ejemplo introductorio. Se ha contabilizado el número de días de baja, du-


rante un trimestre, de los trabajadores de dos empresas obteniéndose los
siguientes resultados:

DATOS empresa A DATOS empresa B Compara el número de días de ba-


0 2 1 1 3 0 1 1 2 9 1 ja en las dos empresas:
2 0 1 5 2 0 0 1 1 0 0 Distribución frecuencias.
2 3 3 2 1 1 1 0 1 1 1
4 2 2 1 3 9 9 9 0 0 1 Media aritmética
0 0 1 1 9 0
Varianza

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
20 Introducción.

La ESTADÍSTICA, como ciencia, compara series de datos y ayuda a tomar


decisiones ante lo incierto, es decir, a resolver casos de incertidumbre. La
información estadística se utiliza muy a menudo para validar o avalar que
las decisiones que pretendemos tomar son las más verosímiles o probables.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 21

Nº días baja
empresa A Nº trabajadores
Porcentaje
Valores Frecuencia Porcentaje
acumulado
0 2 10 10
1 5 25 35
2 7 35 70
3 4 20 90
4 1 5 95
5 1 5 100
Total 20 100
8 7
7
nº trabajadores A

6 5
5 4
4
3 2
2 1 1
1
0
0 1 2 3 4 5
nº días de baja A

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
22 Introducción.

Nº días baja
empresa B Nº trabajadores
Porcentaje
Valores Frecuencia Porcentaje
acumulado
0 11 36,67 36,67
1 13 43,33 80,00
2 1 3,33 83,33
9 5 16,67 100,00
Total 30 100,00

14 13
12 11
nº trabajadores

10
8
6 5
4
2 1
0
0 1 2 9
nº días de baja B

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 23

Cálculo de la Media y la Varianza.


Nº días
baja A Nº trabajadores
Porcentaje Cálculo de Cálculo de
Valores Frecuencia Porcentaje
acumulado Media Varianza
0 2 10 10 0 8
1 5 25 35 5 5
2 7 35 70 14 0
3 4 20 90 12 4
4 1 5 95 4 4
5 1 5 100 5 9
Total 20 100 40 30
Nº días
baja B Nº trabajadores
Porcentaje Cálculo de Cálculo de
Valores Frecuencia Porcentaje
acumulado Media Varianza
0 11 36,67 36,67 0 44
1 13 43,33 80,00 13 13
2 1 3,33 83,33 2 0
9 5 16,67 100,00 45 245
Total 30 100 60 302

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
24 Introducción.

DATOS EMPRESA A

Media 2,00
Varianza 1,5
Desviación típica 1,22

DATOS EMPRESA B

Media 2,00
Varianza 10,0667
Desviación típica 3,17

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 25

La Estadística tiene aplicaciones importantes en el ámbito de la economía y


la empresa:

ECONOMÍA: el análisis de datos generados por variables como la pro-


ductividad económica, inflación, tipos de interés, empleo – desempleo....
James Hechman y Daniel McFadden compartieron el premio Nobel de
Economía en el año 2000 por desarrollar métodos de análisis de datos es-
tadísticos, utilizados actualmente para estudiar comportamientos indivi-
duales en economía. Se utilizan métodos estadísticos para construir
índices como el IPC, para medir y predecir la inflación. Asimismo, la es-
tadística es una herramienta indispensable para la econometría y el
análisis de series temporales (estudio de variaciones estacionales y cí-
clicas de magnitudes económicas). El premio Nobel de Economía de 2003
lo ganaron Robert Engle, por desarrollar métodos de análisis de series
temporales con volatilidad variante en el tiempo (ARCH) Y Clive Granger
por sus trabajos en el análisis de series temporales con tendencias co-
munes (cointegración).

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
26 Introducción.

DIRECCIÓN DE EMPRESAS: se utilizan métodos de control de calidad


estadísticos para dirigir y perfeccionar constantemente el proceso de
producción y por consiguiente el rendimiento de la compañía. En 1986
W. Edwards Deming y otros abogaron por una filosofía total de la calidad
con un perfeccionamiento continuo de la misma.

CONTABILIDAD, AUDITORÍA: toma de decisiones en cuanto al estado


de las cuentas, liquidez de las empresas, inventario... etc., basándose en
el análisis estadístico, donde los datos a analizar son las tasas de va-
riación de las finanzas (cuentas de la empresa). Los análisis estadísticos
pueden demostrar si las tasas de variación de las finanzas en algunas
empresas difieren significativamente de las que son típicas o usuales
en el grupo industrial de empresas determinado. Los directivos de las
empresas, los inversionistas y los empleados deben estar interesados en
conocer este tipo de resultados ya que las compañías con unos índices de
variación en sus finanzas atípicos suelen ir a la quiebra.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 27

GESTIÓN Y RECURSOS HUMANOS: evaluar y comparar la capacidad


de colectivos de trabajadores para realizar tareas (reparto de tareas),
utilizar resultados de un test de aptitud para complementar la informa-
ción subjetiva de los candidatos a un empleo.

MARKETING: los fabricantes de productos de consumo dirigen la inves-


tigación en marketing a recoger y analizar datos relacionados con las
técnicas de venta y distribución de bienes y servicios. La investigación en
marketing a menudo incluye el “mercado potencial” y estudios de la “cuo-
ta de mercado”, investigación acerca del producto, de la promoción y dis-
tribución. Utiliza cuestionarios y encuestas por correo, teléfono o en-
trevista personal para obtener información que ayude a las empresas a
decidir si deberían y cómo deberían poner un producto en el mercado.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
28 Introducción.

1.2. LA INVESTIGACIÓN ESTADÍSTICA. ANÁLISIS DESCRIPTIVO,


MODELIZACIÓN E INFERENCIA.

Podemos distinguir tres fases implicadas cuando se aplica el método estadís-


tico:
1. MUESTREO: LA RECOPILACIÓN DE LOS DATOS SIN ELABORAR.

MUESTRA ⇐ POBLACIÓN
MUESTRA ALEATORIA Y DE
↑ TAMAÑO ADECUADO.
Técnicas muestreo

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 29

2. ESTADÍSTICA DESCRIPTIVA: presentación en informe.

El objetivo de la Estadística Descriptiva es describir un conjunto de da-


tos:

ORDENAR LOS DATOS


RECOPILARLOS EN TABLAS ESTADÍSTICAS: DISTRIBUCIONES DE
FRECUENCIAS.
GRÁFICOS DE LA DISTRIBUCIÓN DE FRECUENCIAS.
CÁLCULO DE ESTADÍSTICOS: RESUMEN DE DATOS.
INTERPRETAR RESULTADOS: PRESENTACIÓN INFORME.

El organizar los datos de forma tal que se puedan ver las tendencias y
normas, se pueda dibujar gráficos, calcular estadísticos y redactar infor-
mes se llama ESTADÍSTICA DESCRIPTIVA.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
30 Introducción.

Estadístico: una medida que se pueda calcular a partir de los datos re-
ales generados por una variable y que resuma y dé una propiedad de
ese conjunto de datos.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 31

3. INFERENCIA ESTADÍSTICA: exposición de predicciones y toma de deci-


siones.

El objetivo de la Inferencia Estadística es hacer afirmaciones sobre la


POBLACIÓN basadas en la información disponible en la MUESTRA.

PREDICCIÓN. PROBABILIDAD.
ESTIMACIÓN DE PARÁMETROS. Parámetro: propiedad de la población.
TOMA DE DECISIONES.
Al no haber absoluta certeza de la veracidad de tales afirmaciones sobre
la población, se ha de utilizar el término PROBABILIDAD como una medi-
da de la incertidumbre de esas conclusiones: el propósito de la estadísti-
ca es ayudar al que toma la decisión a tener razón más veces que lo con-
trario. Darle una idea sobre el peligro que hay de que no tenga razón
cuando toma una decisión particular.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
32 Introducción.

1.3. Datos estadísticos: naturaleza, descripción numérica y repre-


sentación gráfica.

CARÁCTER: el aspecto, fenómeno, propiedad que se desea estudiar de la


población.

MODALIDAD: diferentes formas de manifestarse el carácter.

VARIABLE ESTADÍSTICA X: el carácter medido sobre los elementos.

DATOS xi

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 33

1.3.1. Clasificación de los DATOS (VARIABLES) por su NATURALEZA.

CUALITATIVOS: MODALEDADES no numéricas, CATEGORÍAS


VARIABLES CUALITATIVAS: ORDINALES
NOMINALES o ATRIBUTOS

CUANTITATIVOS: MODALIDADES numéricas, VALORES


VARIABLES CUANTITATIVAS: DISCRETAS
CONTINUAS

Ejemplo 1.1. Ejemplo 1.2. Ejemplo 1.3.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
34 Introducción.

1.3.2. DESCRIPCIÓN NUMÉRICA de los datos (variables cuantitativas)

N DATOS k DATOS diferentes


VARIABLE sin elaborar ordenados
X ( xi )iN=1 de menor a mayor
( xi ) k
i =1
x1 , x2 ,L , x N
x1 < x 2 < L < x k

DISTRIBUCIÓN
DE
FRECUENCIAS

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 35

DISTRIBUCIÓN DE FRECUENCIAS
Organización de la serie de DATOS

SIN AGRUPAR: POCOS DATOS DIFERENTES

(k pequeño comparado con N).

Ejemplo 1.4.

AGRUPADA en intervalos: MUCHOS DATOS DIFERENTES (k grande).

Ejemplo 1.5.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
36 Introducción.

FRECUENCIA: conteo. TIPOS DE FRECUENCIA.

FRECUENCIAS ABSOLUTAS:

ni (frecuencia absoluta) frecuencia

i
Ni Ni = ∑ n j (frec. absoluta acumulada) frecuencia acumulada (i
j =1
= 1, 2,…, k)

FRECUENCIAS RELATIVAS:

ni
fi fi = (frecuencia relativa) fi × 100 porcentaje
N
i Ni
Fi Fi = ∑ f j ; Fi = Fi × 100 porcentaje acumulado
j =1 N
(i = 1, 2,…, k) (frec. relativa acumulada)
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 37

Distribución de frecuencias SIN AGRUPAR .

VARIABLE X : ( xi , n ) x1 < x 2 < L < x k


k
i i =1
(k pequeño comparado con N)

Tabla estadística: valores diferentes ordenados de menor a mayor y fre-

cuencia.

Ejemplo 1.4.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
38 Introducción.

Distribución de frecuencias AGRUPADA EN INTERVALOS.

Cómo agrupar en intervalos muchos datos diferentes:

Observar valor mínimo xm y valor máximo xM.

Recorrido de la variable (amplitud total): Re = x M − x m

ln N
Sturges k = +1
Número de intervalos (k): ln 2
k = N (N no muy grande)

Re
Amplitud intervalos (a): a=
k

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 39

NOTACIÓN INTERVALOS

Intervalo i–ésimo: [Li −1 , Li [ (i = 1, 2,…, k).

Li − 1 + Li
Marca de clase (m.d.c.): m.d .c = x i = (punto medio del in-
2
tervalo).

Amplitud del intervalo i–ésimo: a i = Li − Li − 1 .

Ejemplo 1.5.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
40 Introducción.

1.3.3. Representación gráfica (variables cuantitativas).

DATOS SIN AGRUPAR: gráfico de barras.


Diagrama en escalera (acumulativo).

DATOS AGRUPADOS: HISTOGRAMA.


Polígono acumulativo.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 41

HISTOGRAMA (gráfico de ÁREA)

Rectángulos yuxtapuestos.

Un rectángulo para cada intervalo.

Área de rectángulo representa la frecuencia del intervalo.

Altura de rectángulo i - ésimo:

ni fi
densidad de frecuencia d i = o di =
ai ai
Si la amplitud de todos lo intervalos es la misma (“a” constante), la al-
tura de cada rectángulo puede ser la frecuencia del intervalo.

Ejemplo 1.6. Ejemplo 1.7.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
42 Introducción.

ni HISTOGRAMA
di =
ai

densidad frecuencia

Área
ni

ai

Li −1 Li
Intervalos

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 43

Conceptos clave.
Datos de naturaleza continua.
Datos de naturaleza discreta.
Densidad de frecuencia.
Distribución de frecuencias agrupada.
Distribución de frecuencias sin agrupar.
Estadística Descriptiva.
Frecuencia absoluta acumulada.
Frecuencia absoluta.
Frecuencia relativa (porcentaje).
Frecuencia relativa acumulada.
Histograma.
Inferencia Estadística.
Intervalo.
Marca de clase.
Polígono acumulativo.
Variables cualitativas.
Variables cuantitativas.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
44 Introducción.

EJEMPLOS.

Ejemplo 1.1. Clasifica las siguientes variables en cualitativas o cuantitati-


vas, identificando posibles valores de esas variables y elementos de la po-
blación o muestra sobre la que observaríamos o mediríamos la variable:
a) Edad
b) Forma de pago al realizar una compra
c) Estado civil
d) Número de habitaciones por casa
e) Salario mensual percibido por los supervisores de ventas de una consul-
toría.
f) Medio de transporte utilizado para ir a clase por los estudiantes del cam-
pus de Tarongers

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 45

g) Grado de riesgo de los fondos de inversión de una entidad financiera (1 =


riesgo menor, 5 = riesgo mayor)
h) Diámetro de las tuercas que produce una máquina. (Las tuercas deberían
tener todas 6 mm de diámetro)
i) Número de defectos encontrados en “n” ordenadores portátiles fabricados
durante un mes.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


46 Introducción.

Ejemplo 1.2. Indicar de las variables siguientes cuales generarían datos


discretos y cuales datos continuos:

a) Número de acciones vendidas cada día en un mercado de valores.


b) Temperaturas registradas cada media hora en un observatorio.
c) Censos anuales del colegio de profesores.
d) Longitud de 1.000 cerrojos producidos en una fábrica.
e) 30 analistas financieros dan una predicción de las ganancias por acción
(en euros) de cierta empresa para el año próximo.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 47

Ejemplo 1.3. Preguntadas 300 personas acerca de su estado civil, 145 con-
testaron estar solteras, 100 casadas, 30 divorciadas y 25 viudas.
a) Identifica la variable estadística (V.E.) y clasifícala, modalidades del ca-
rácter.
b) Clasifica la V.E. en una tabla estadística o distribución de frecuencias: ob-
tener frecuencias absolutas, relativas y acumuladas.

Solución: a) X: Estado Civil. Variable cualitativa con cuatro modali-


dades: Soltera, Casada, Divorciada, Viuda.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


48 Introducción.

Ejemplo 1.4. El departamento de prevención de riesgos laborales de una


gran empresa de la construcción ha recogido información sobre el número
de accidentes laborales diarios con baja laboral que se han producido du-
rante los 44 días siguientes a la aplicación de nuevas normas de seguridad,
obteniendo los siguientes resultados:

Número de accidentes diarios 44 días)


2 1 0 3 3 4 4 3 7 4 4
1 0 4 2 4 0 2 2 4 3 2
0 3 0 3 5 1 5 0 0 3 0
7 5 4 5 3 9 3 10 3 0 9
Obtener:
a) La tabla estadística o distribución de frecuencias.
b) Diagramas de barras (con frecuencias absolutas y relativas).
c) Diagrama en escalera o acumulativo.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 49

Ejemplo 1.5. El departamento de personal de una empresa aplica un test


de habilidad mental a sus empleados con el objetivo de seleccionar a un
número determinado de ellos para la realización de ciertas tareas. Las pun-
tuaciones obtenidas han sido las siguientes:
43 40 41 50 62 35 38 50 32 35 36 45 58 30 33 45
49 46 47 51 64 36 39 51 51 48 49 53 66 38 41 43
71 45 46 55 68 40 53 55 52 49 50 59 62 45 48 60
32 30 40 39 42 30 35 40 38 36 46 45 68 50 69 69

a) Forma una distribución de frecuencias con 7 intervalos.


b) Histograma.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


50 Introducción.

Ejemplo 1.6. Dada una distribución con 128 valores:


a) Determínese, mediante la fórmula de Sturges, el número de intervalos en
que puede agruparse.
b) Si el recorrido de la distribución es de 48 unidades, ¿cuál será la amplitud
de cada intervalo?.

Solución: a) K= 8 ; b) 6

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 51

Ejemplo 1.7. Al representar mediante un histograma la siguiente distribu-


ción de frecuencias:
Intervalos ni
0-10 100
10-50 200

El intervalo de 0 a 10 se representa por un rectángulo de 18 cm. de altura


¿Cuál debe ser la altura del intervalo de 10 a 50?
vas.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


TEMA 2
ANÁLISIS DE DATOS
UNIDIMENSIONALES
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 53

Ficha del tema 2.

Objetivos de aprendizaje.
Bibliografía básica para complementar el tema.
Programación de la guía didáctica:
2.1. Principales medidas de posición, dispersión y de forma o perfil.
2.2. Transformaciones lineales y tipificación de variables.
2.3. Otras medidas de posición: moda y cuantiles (mediana).
Conceptos clave.
Ejemplos.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
54 Análisis de datos unidimensionales.

OBJETIVOS DE APRENDIZAJE.

Aprender a calcular e interpretar los estadísticos descriptivos más importan-


tes.

Conceptos de dispersión absoluta y dispersión relativa.

Comparar dispersión y datos tipificados entre dos o más variables.

Información que aportan la media y la varianza en cuanto a la distribución


de los datos de una variable alrededor de la media (Regla de Tchebysheff).

Estudiar cómo se ven afectados los estadísticos y coeficientes al transformar


linealmente los datos de una variable.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 55

BIBLIOGRAFÍA BÁSICA (teoría y problemas)

ESTEBAN, J.; y otros.: “Estadística Descriptiva y nociones de Probabili-


dad”, Ed. Thomson, 2005.

Tema 2. (Con ejercicios, cuestiones de autoevaluación y problemas


resueltos y propuestos).

MONTIEL, A.M.; RIUS, F.; BARÓN F.J.: “Elementos básicos de Estadística


Económica y Empresarial”, Ed. Prentice Hall, Madrid 1997.

Capítulos 3 y 4.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
56 Análisis de datos unidimensionales.

2.1. Principales medidas de posición, dispersión y de forma o perfil.


2.1.1. Principales medidas de posición y dispersión.
POSICIÓN: LA MEDIA ARITMÉTICA. x
1 N
X : (x ) x = ∑ xi
N
Variable estadística con N datos en total i i =1
N i =1
1 k
X : ( xi , n ) x = ∑ x i ni
k
Distribución de frecuencias i i =1
N i =1
k
También: x = ∑ xi f i
i =1

Se utilizará preferentemente la primera expresión.

En una distribución agrupada en INTERVALOS: x i ⇒ m.d .c.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 57

PROPIEDADES DE LA MEDIA
1. La media es el CENTRO DE GRAVEDAD de la distribución (c.d.g):
N
∑ ( xi − x ) = 0 (medida de posición central).
i =1

2. Población con N datos, subdividida en “p” subpoblaciones disjuntas de


p
tamaños N 1 , N 2 ,L ,N p con ∑Nj = N y medias x1 , x2 ,L , x p , la me-
j =1

1 p
dia total se puede determinar: xT = ∑ x j N j
N j =1
Ver ejemplo en: ESTEBAN, J.; y otros.: “Estadística Descriptiva y nociones de Probabilidad”, Ed. Thomson, 2006.

Tema 2, página 29 (ejemplo 2.4)

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
58 Análisis de datos unidimensionales.

CONSIDERACIONES SOBRE LA MEDIA.


1. La media es un resumen de los N datos de la variable (PROMEDIO).
Datos homogéneos (cercanos a la media), media representativa.
Datos heterogéneos (alejados de la media, extremos), media no represen-

tativa.

2. La media es un ESTADÍSTICO de tipo ABSOLUTO que tiene la misma uni-


dad de medida que la variable. Además su valor estará dentro del recorri-

do de la variable: Re : x m a x M

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 59

DISPERSIÓN: LA VARIANZA.

X : (x )N
En una V.E. con N datos i i =1 , las medidas de DISPERSIÓN miden la

amplitud, diseminación o VARIABILIDAD de los DATOS, en su conjunto.

Miden la posición que ocupan los datos respecto a un punto de interés que

tomamos como referencia. La referencia más apropiada, óptima para la va-

rianza, es la media aritmética, por ser el centro de gravedad de la distribu-

ción.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
60 Análisis de datos unidimensionales.

VARIANZA s2:
media de los cuadrados de las desviaciones de los datos a su media.

X : (x )
N
Variable estadística con N datos en total: i i =1

1 N
s = ∑ ( xi − x )
2 2

N i =1
X : ( x i , n i )i = 1
k
Distribución de frecuencias:

1 k
s = ∑ ( x i − x ) ni
2 2

N i =1
k
s = ∑ ( xi − x ) f i
2 2
También:
i =1

Se utilizará preferentemente la primera expresión.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 61

En una distribución agrupada en INTERVALOS: x i ⇒ m.d .c .

DESVIACIÓN TÍPICA s:
Desviación típica s = + varianza
PROPIEDADES DE LA VARIANZA Y LA D.T.

1. s
2
≥ 0 ; s ≥ 0 . Son cero cuando todos los datos son iguales.
1 N 2 1 k 2
2. Se demuestra que: s = ∑ xi − x 2
2
o bien s = ∑ x i ni − x 2 . Esta
2

N i =1 N i =1
expresión resulta útil para el cálculo de la varianza sobre una distribución

de frecuencias.

Ejemplo 2.1.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
62 Análisis de datos unidimensionales.

CONSIDERACIONES SOBRE LA VARIANZA Y LA DESVIACIÓN TÍPICA.

1. La varianza s2 es una medida de DISPERSIÓN ABSOLUTA. Tiene la uni-


dad de medida de la variable al cuadrado.
La desviación típica s , sin embargo, tiene la misma unidad de medida que
la variable y es directamente comparable con la media.

2. La desviación típica s, como medida de DISPERSIÓN aporta información


estadística sobre la VARIABILIDAD de los DATOS en relación a su media.
Nos dará información acerca de la homogeneidad o heterogeneidad de los
datos en relación al valor medio de los mismos.
s pequeña en relación al valor de la media: media representativa, datos
homogéneos.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 63

s grande en relación al valor de la media: media no representativa, datos


heterogéneos.

3. COMPARAR DISPERSIÓN entre dos o más variables: las desviaciones típi-


cas de dos o más variables son comparables directamente si las variables
tienen la misma unidad de medida y el mismo valor para la media.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
64 Análisis de datos unidimensionales.

DISPERSIÓN RELATIVA. EL COEFICIENTE DE VARIACIÓN


Para comparar la dispersión entre diferentes series de datos (variables) independien-
temente de sus unidades de medida y del valor de sus medias se utilizará una medida
de DISPERSIÓN RELATIVA.

: ( x i )i =1 ,
N
Dada una variable X su media x ≠0 y su desviación típica s, se

define el coeficiente de variación de Pearson:


s
g0 =
|x|
Habrá mayor dispersión relativa donde g0 sea mayor.

Ejemplo 2.2. Ejemplo 2.3. Ejemplo 2.4.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 65

2.1.2. Momentos.

X : (x ) X : ( xi , n )
N k
Dada una variable estadística i i =1 , i i =1 con su media x,
se definen:
MOMENTOS ORDINARIOS DE ORDEN p

1 N p 1 k p
a p = ∑ xi o a p = ∑ x i ni con p entero p ≥ 0
N i =1 N i =1
MOMENTOS ORDINARIOS que se van a utilizar:

1 N
p = 1 a1 = ∑ xi = x (media)
N i =1
1 N 2
p = 2 a2 = ∑ xi
N i =1

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
66 Análisis de datos unidimensionales.

MOMENTOS CENTRALES DE ORDEN p

1 N 1 k
m p = ∑ ( xi − x ) m p = ∑ ( x i − x ) ni
p p
o con p entero p ≥ 0
N i =1 N i =1
MOMENTOS CENTRALES que se van a utilizar:

1 N
p = 1 m1 = ∑ ( xi − x ) = 0
N i =1
1 N
p = 2 m2 = ∑ ( xi − x ) = s 2
2
( varianza)
N i =1
1 N
p = 3 m3 = ∑ ( xi − x )
3

N i =1
1 N
p = 4 m4 = ∑ ( xi − x )
4

N i =1
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 67

LA VARIANZA EN FUNCIÓN DE LOS MOMENTOS.

En función de la segunda propiedad dada para la varianza y de las definicio-

nes de los momentos ordinarios y centrales se tiene que:

1 N 1 N 2
s = m2 = ∑ ( xi − x ) = ∑ xi − x 2 = a 2 − a12
2 2

N i =1 N i =1

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
68 Análisis de datos unidimensionales.

2.1.3. Medidas de forma o perfil.


ASIMETRÍA: perfil horizontal de la distribución.
La media es el c.d.g. de la distribución (de la variable, de la serie de datos
ordenada) y se desplazará hacia donde haya mayor densidad de datos. Se
estudia la simetría–asimetría de la distribución tomando como referencia el
c.d.g.

Si hay mayor densidad de datos al principio de la distribución (datos menores), la


media se desplaza hacia la izquierda, dejando una cola de datos a su derecha:
ASIMETRÍA A LA DERECHA DE LA MEDIA.

Si hay mayor densidad de datos al final de la distribución (datos mayores), la


media se desplaza hacia la derecha, dejando una cola de datos a su izquierda:
ASIMETRÍA A LA IZQUIERDA DE LA MEDIA.

Si la distribución de datos es igual a izquierda y derecha de la media: SIMETRÍA


© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 69

ASIMETRÍA A LA IZQUIERDA ASIMETRÍA A LA DERECHA

media media

SIMETRÍA

media

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
70 Análisis de datos unidimensionales.

COEFICIENTE DE ASIMETRÍA DE FISHER.

1 N
m 3 = ∑ ( xi − x )
3
A partir del momento central de orden impar se define
N i =1
el coeficiente de asimetría de FISHER:

m3
g1 = 3
s
Si m3 > 0 ⇒ g 1 > 0 ⇒ ASIMETRÍA A LA DERECHA
SIMETRÍA ⇒ m3 = 0 ⇒ g 1 = 0 (observar gráfico)
Si m3 < 0 ⇒ g 1 < 0 ⇒ ASIMETRÍA A LA IZQUIERDA

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 71

APUNTAMIENTO O CURTOSIS: perfil vertical de la distribución.

Las medidas de apuntamiento proporcionan información estadística de la


distribución, relativa a la densidad de datos que hay en las proximidades de
la media (c.d.g.).

Si la densidad de datos alrededor de la media es muy dominante: distri-


bución MUY APUNTADA, rectángulos del histograma centrales con mucha
altura.

Si la densidad de datos alrededor de la media no es dominante: distribu-


ción POCO APUNTADA, rectángulos del histograma centrales con poca al-
tura.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
72 Análisis de datos unidimensionales.

COEFICIENTE DE APUNTAMIENTO O CURTOSIS DE FISHER.

1 N
m 4 = ∑ ( xi − x )
4
A partir del momento central de orden cuatro se defi-
N i =1
ne el coeficiente de apuntamiento de FISHER:

m4
g2 = 4
s
Para medir con este coeficiente el grado de apuntamiento de una distribu-
ción se utilizarán dos MODELOS de distribución de REFERENCIA:
MODELO NORMAL: distribución campaniforme con un apuntamiento de

g 2 = 3.
MODELO UNIFORME: distribución horizontal con un apuntamiento de

g 2 = 1,8 .
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 73

Apuntamiento = 3 Apuntamiento = 1,8


MODELO NORMAL MODELO UNIFORME

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
74 Análisis de datos unidimensionales.

De esta forma se seguirán los siguientes criterios para medir el apuntamiento de una
distribución:

Si g 2 > 3 ⇒ más apuntada que el modelo NORMAL (leptocúrtica)


Si g 2 = 3 ⇒ mismo apuntamiento que el modelo NORMAL (mesocúrtica)
Si g 2 < 3 ⇒ menos apuntada que el modelo NORMAL (platicúrtica)

Apuntamiento >3

Apuntamiento<3 y >1,8

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 75

Si g 2 = 1,8 ⇒ mismo apuntamiento que modelo UNIFORME (horizontal).


Si g 2 < 1,8 ⇒ forma de " U" (más densidad de datos en los extremos) .

Ejemplo 2.5. Ejemplo 2.6.

Apuntamiento <1,8

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
76 Análisis de datos unidimensionales.

2.2.Transformaciones lineales y tipificación de variables.


2.2.1. Transformaciones lineales.
X : ( x i )i = 1
N
Dada una V.E. y dos números reales k, c, se distinguirán tres tipos de

transformaciones lineales de la variable X en otra variable X’:

X : ( xi )i =1 ⇒ X ′( xi′ = xi + c )
N
1. cambio de origen o unidad

X : (x ) ⇒ X ′( xi′ = kxi )
N
2. i i =1 cambio de escala

X : ( xi )i =1 ⇒ X ′( xi′ = kxi + c )
N
3. transforma ción lineal completa

EN GENERAL LO PODEMOS EXPRESAR:


1. X' = X + c (cambio de origen)
2. X' = kX (cambio de escala)
3. X' = kX + c (transformación lineal completa)

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 77

PROPIEDADES DE TRANSFORMACIÓN LINEAL.


Si transformamos linealmente los datos de una variable, los estadísticos de la misma
(media, varianza, momentos, coeficientes) se ven afectados como sigue:

1. x ' = x + c (cambio de origen)

MEDIA 2. x ' = kx (cambio de escala)

3. x ′ = kx + c (transformación lineal completa)

1. s X2 ′ = s X2 (cambio de origen)

VARIANZA 2. s X2 ′ = k 2 s X2 (cambio de escala)

3. s X2 ′ = k 2 s X2 ′ (transformación lineal completa)

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
78 Análisis de datos unidimensionales.

1. s X ′ = s X (cambio de origen)

DESVIACIÓN 2. s X ′ = k s X (cambio de escala)


TÍPICA
3. s X2 ′ = k s X ′ (transformación lineal completa)

1. m p ( X ′ ) = m p ( X ) ( cambio de origen)
MOMENTOS 2. m p ( X ′ ) = k p m p ( X ) ( cambio de escala)
3. m p ( X ′ ) = k p m p ( X ) ( transformación lineal completa)

Ejemplo 2.7. Ejemplo 2.8.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 79

COEFICIENTE DE VARIACIÓN DE PEARSON


1. X' = X + c (cambio de origen)

sX′ sX
1. g 0 ( X ′ ) = = ≠ g0 ( X )
| x′ | | x + c |
2. X' = kX (cambio de escala)

sX′ | k | sX sX
2. g 0 ( X ′ ) = = = = g0 ( X )
| x ′ | | k || x | | x |
3. X' = kX + c (transformación lineal completa)
sX′ | k | sX
3. g 0 ( X ′ ) = = ≠ g0 ( X )
| x ′ | | kx + c |

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
80 Análisis de datos unidimensionales.

COEFICIENTE ASIMETRÍA DE FISHER


1. X' = X + c (cambio de origen)

m3 ( X ′ ) m3 ( X )
1. g 1 ( X ′ ) = 3
= 3
= g1( X )
sX′ sX

2. X' = kX (cambio de escala)

⎧ m 3 ( X ′) k 3 m 3 ( X ) m 3 ( X )
⎪∗ Si k > 0 ⇒ g 1 ( X ′) = 3
= 3 3
= 3
= g1(X )
⎪ sX′ k sX sX
2. ⎨
⎪∗ Si k < 0 ⇒ g ( X ′) = m 3 ( X ′) = k m 3 ( X ) = k m 3 ( X ) = − g ( X )
3 3

⎪ 1
s 3
| k |3
s 3
− k 3 3
s
1
⎩ X′ X X

Si k es negativo cambia el signo de la asimetría, pero el grado de asimetría no.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 81

3. X' = kX + c (transformación lineal completa)


Lo mismo que en 2.:

⎧ m 3 ( X ′) k 3 m 3 ( X ) m 3 ( X )
⎪∗ Si k > 0 ⇒ g 1 ( X ′) = 3
= 3 3
= 3
= g1(X )
⎪ sX′ k sX sX
3. ⎨
⎪∗ Si k < 0 ⇒ g ( X ′) = 3 m ( X ′) k 3
m ( X ) k 3
m3 ( X )
⎪ 1 = 3
= = −g1(X )

3
sX′ | k | sX
3 3
− k sX
3 3

El coeficiente de asimetría es invariante por transformación lineal, salvo en el signo.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
82 Análisis de datos unidimensionales.

COEFICIENTE DE APUNTAMIENTO DE FISHER


1. X' = X + c (cambio de origen)

m4 ( X ′ ) m4 ( X )
1. g 2 ( X ′ ) = 4
= 4
= g2( X )
sX′ sX
2. X' = kX (cambio de escala)

m4 ( X ′ ) k 4 m4 ( X )
2. g 2 ( X ′ ) = 4
= 4 4
= g2( X )
sX′ k sX
3. X' = kX + c (transformación lineal completa)

m4 ( X ′ ) k 4 m3 ( X )
3. g 2 ( X ′ ) = 4
= 4 4
= g2( X )
sX′ k sX
El coeficiente de apuntamiento es invariante por transformación lineal.
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 83

2.2.2. Tipificación de variables.

Sea X : ( x i )i =1 una V.E. y x , s2


N
su media y varianza respectivamente.

Para cada valor x i de la variable se define su PUNTUACIÓN TIPIFICADA

como:

xi − x
zi =
s
zi es un valor relativo y mide la distancia del valor xi a la media x , en

unidades de desviación típica.

Si un valor zi es positivo, el valor xi será mayor que la media.

Si un valor zi es negativo, el valor xi será menor que la media.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
84 Análisis de datos unidimensionales.

Si se tipifican los N valores de una V.E., se obtendrán N puntuaciones ti-


pificadas que constituyen otra variable que se denominará:

VARIABLE ESTADÍSTICA TIPIFICADA

Z : ( z i )i =1
N

PROPIEDADES DE LA VARIABLE TIPIFICADA.

1. La media de la V.E. tipificada es cero: z =0

2. La varianza de la V.E. tipificada es uno: s Z2 = 1


Por tanto cualquier variable que tipifiquemos se transforma en otra de media
cero y desviación típica uno:

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 85

VARIABLE TIPIFICADA
Y ( y i )i =1
N
X (x ) Z (z i )
N N
i i =1 i =1
x sX y sY
z = 0 sZ = 1

LOS VALORES TIPIFICADOS se utilizarán para:


Comparar valores de diferentes variables, independientemente de la
unidad de medida de las mismas y del valor de sus medias y desviacio-
nes típicas.
Para medir la dispersión relativa de un valor concreto de una variable.
Ejemplo 2.9. Ejemplo 2.10. Ejemplo 2.11.
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
86 Análisis de datos unidimensionales.

2.2.3. Regla de Tchebysheff.

Dada una variable estadística cualquiera X : ( x i )i =1 con N observaciones, de


N

media x y desviación típica s, y dado un número real positivo k mayor que

⎛ 1⎞
1; al menos un porcentaje de ⎜ 1 − 2 ⎟ x 100 de las observaciones se en-
⎝ k ⎠
cuentra dentro del intervalo de valores x ± ks , es decir, entre k desviacio-
nes típicas alrededor de la media aritmética.

Ejemplo 2.12.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 87

UTILIDAD DE LA REGLA DE TCHEBYSHEFF


Si de una V.E. X no se tiene información de sus valores concretos, ni de
su distribución de frecuencias, pero se conoce el valor de su media x y
la desviación típica s se puede obtener información sobre el recorrido de
los datos de la variable dando intervalos de valores alrededor de la me-
dia x ± ks .
Así por ejemplo:
1
Para k=2 1−
2
= 0 ,75 ⇒ más del 75% de los datos de una V.E. estará
k
en el intervalo x ± 2 s .
1
Para k = 2,5 1 − 2 = 0 ,84 ⇒ más del 84% de los datos de una V.E. estará
k
en el intervalo x ± 2 ,5 s
1
Para k=3 1− 2
= 0,8889 ⇒ más del 88%-89% de los datos de una V.E.
k
estará en el intervalo x ± 3s .
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
88 Análisis de datos unidimensionales.

2.3. Otras medidas de posición: moda, cuantiles (mediana).


MODA (Mo):
La moda es una medida de posición que identifica en la distribución de una
V.E. el valor o la zona de valores más frecuente o de mayor densidad de fre-
cuencia (zona modal). En una misma distribución puede haber más de una
moda o zonas modales.

DETERMINACIÓN DE LA MODA:

En una distribución con pocos datos diferentes, y por tanto, SIN AGRU-
PAR, la MODA es el valor (o valores) de la distribución con mayor fre-
cuencia.

En distribuciones con muchos datos diferentes y, por tanto, AGRUPADA


en intervalos, se determinará el INTERVALO, ZONA o CLASE MODAL

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 89

[Li −1 , Li [ como aquel intervalo con mayor densidad de frecuencia d i (o


frecuencia ni , si todos tienen la misma amplitud).
¾ Como valor representante de la MODA dentro de la clase modal i-ésima
[Li −1, Li [ de densidad d i y amplitud a i se dará el siguiente:

d i +1
Mo = Li −1 + ai
d i −1 + d i + 1

Ejemplo 2.13.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
90 Análisis de datos unidimensionales.

CUANTILES: Q β

X : ( x i )i = 1
N
DEFINICIÓN GENERAL: Dada una V.E. con N valores ORDE-

NADOS DE MENOR A MAYOR y dado un número real β (0 < β < 1), se dirá
que el valor “x” del recorrido de la variable es un CUANTIL DE ORDEN β si:
¾ como mínimo, un porcentaje del ( β × 100 ) de los valores son menores

o iguales que “x”.


¾ y, como mínimo, un porcentaje del (( 1 − β ) × 100 ) de los valores son

mayores o iguales que “x”.


NOTACIÓN: Qβ = x (cuantil de orden β)

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 91

DETERMINACIÓN DE CUANTILES.

X : ( xi )i =1 X : ( xi , ni , N i , Fi )i =1
N k
Sea una V.E. con N valores, y sea su dis-

tribución de frecuencias con los datos ordenados de menor a mayor.

REGLA GENERAL: se tomará como cuantil de orden β , Q β , el primer va-


lor xi de la distribución de frecuencias que tenga asignada una frecuen-

cia relativa acumulada Fi superior al orden del cuantil β . (O un porcen-


taje acumulado ( Fi ⋅ 100 ) superior al ( β × 100 ), o una frecuencia

acumulada Ni superior a β ⋅ N ).

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
92 Análisis de datos unidimensionales.

CASO ESPECIAL: si un valor xi de la distribución de frecuencias tiene

asociada una frecuencia relativa acumulada Fi que coincide exactamen-

te con el orden del cuantil β ( Fi = β ), se tomará como cuantil

xi + xi +1
Qβ = , es decir el punto medio entre x i y el siguiente valor de
2
la distribución x i +1 .

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 93

Si la distribución contiene muchos datos diferentes, AGRUPADOS EN IN-


TERVALOS y se pretende determinar los cuantiles manualmente sobre la
distribución agrupada, se procederá como sigue:

¾ se determinará el intervalo o clase del cuantil [Li −1 , Li [ como el

primer intervalo con una frecuencia relativa acumulada Fi superior

al orden del cuantil β y, dentro de ese intervalo se dará como una

aproximación al cuantil:

β − Fi −1
Q β = Li −1 + ai
fi
o también, la expresión equivalente:

βN − N i −1
Q β = Li −1 + ai
ni
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
94 Análisis de datos unidimensionales.

FAMILIAS DE CUANTILES MÁS UTILIZADAS:


LA MEDIANA (Me): la mediana es el cuantil de orden β = 0 ,5
Me = Q0 ,5
Es decir, la MEDIANA es un valor que divide por la MITAD la distribu-
ción (MEDIDA DE POSICIÓN CENTRAL).
CUARTILES (Ci): los cuartiles son tres cuantiles que dividen la distri-
bución en cuartos. Son los cuantiles de órdenes β : 0,25 , 0,50 y 0,75.
C1 = Q0 ,25 C 2 = Q0 ,50 C 3 = Q0 ,75
PERCENTILES (Pi): 99 cuantiles que dividen en 100 partes la distribu-
ción.

P1 = Q0 ,01 ,L P30 = Q0 ,30 ,L P50 = Q0 ,50 ,L P80 = Q0 ,80 ,L P99 = Q0 ,99


Ejemplo 2.14. Ejemplo 2.15.
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 95

Conceptos clave.
Apuntamiento o curtosis (coeficientes de Fisher).
Asimetría.
Coeficiente de variación.
Cuantil.
Desviación típica.
Dispersión absoluta.
Dispersión relativa.
Media (aritmética).
Mediana.
Moda.
Puntuación tipificada.
Transformación lineal.
Varianza.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
96 Análisis de datos unidimensionales.

EJEMPLOS.

Ejemplo 2.1.

2.1.A. Calcúlese la media y la varianza de las siguientes series de valores:

X: 1 2 3 4 5
Y: 6 7 8 9 10
Z: -19 4 7 12 21
W: 2 2 3 2 6 7 6

x = 3 s X2 = 2 y = 8 sY2 = 2
Solución:
z = 5 s Z2 = 177 ,2 w = 4 sW2 = 4 ,2857

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 97

2.1.B. Calcúlese la media y la varianza de la siguiente distribución de fre-


cuencias agrupada:

Intervalos Frecuencia
2–3 10

3–4 40

4–5 10

1
Solución: x = 3 ,5 s = = 0 ,33
2

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


98 Análisis de datos unidimensionales.

2.1.C. Calcula la media de la siguiente distribución de frecuencias agrupada:

Intervalos Frecuencia

0 – 15 6

15 – 25 12

25 – 30 12

Solución: x ≅ 20 ,5
2.1.D. Calcúlese la media y la varianza de la siguiente distribución:

xi 2 5 7 9
fi
frecuencia relativa
0,2 0,4 0,3 0,1

Solución: media 5,4 y varianza 4,44.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 99

Ejemplo 2.2.
2.2.A. Las dos muestras siguientes tienen la misma dispersión absoluta
(desviación típica y varianza) pero diferente dispersión relativa (coeficiente
variación):
a) 1 2 3 4 5 6 7
b) 1321 1322 1323 1324 1325 1326 1327

Sin realizar ningún cálculo: razona cuál de ellas tendrá menor dispersión re-
lativa, es decir, qué conjunto de datos es más homogéneo. ¿Tiene algo que
ver con la distancia de los datos al origen y el valor de las medias respecti-
vas?
¿Por qué tienen la misma dispersión absoluta? (“distancia” de los datos a la
media).
En un cambio de origen, la dispersión absoluta (S) no cambia pero la disper-
⎛s⎞
sión relativa sí ⎜ ⎟ . Calcula la media y varianza de las dos series de datos y
⎝x⎠
comprueba lo anterior.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


100 Análisis de datos unidimensionales.

2.2.B. Las dos muestras siguientes tienen diferente dispersión absoluta pero
la misma dispersión relativa:
a) 1 2 3 4 5 6 7
b) 5 10 15 20 25 30 35
Sin realizar ningún cálculo: razona cuál de ellas tendrá menor dispersión ab-
soluta.
¿Por qué tienen la misma dispersión relativa? ¿Guardan alguna proporción
los datos de a) con los datos de b)? ¿Tiene esto algo que ver con un cambio
de escala?

En un cambio de escala, la dispersión absoluta sí cambia pero la relativa no


cambia. Calcula la media y varianza de las dos series de datos y comprueba
lo anterior.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 101

Ejemplo 2.3. Un fabricante de detergentes quiere comprar una máquina


empaquetadora que realice la operación de llenar bolsas de 250 gramos. La
casa A le ofrece una máquina con la cual realiza unas pruebas y obtiene los
siguientes resultados: 250, 252, 248, 253, 247.La casa B le ofrece otra y,
realizando pruebas, obtiene los siguientes resultados: 258, 252, 247, 248,
245. ¿Qué máquina le interesa más comprar? (Calcular media y varianza y
comparar dispersión).

Solución: x A = 250 gr . s A = 2 ,28 x B = 250 gr . s B = 4 ,604


Como las medias son iguales y tienen la misma unidad de medida,
las desviaciones típicas son comparables directamente: la de A es
menor que la de B.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


102 Análisis de datos unidimensionales.

Ejemplo 2.4. En dos empresas se ha observado al colectivo de trabajadores


que causa baja laboral por motivos de enfermedad. El número medio de
horas perdidas por este motivo en la empresa A ha sido de 130h y en la
empresa B de 40h. Así mismo, las desviaciones típicas respectivas han sido
de 60h y 45h. ¿En qué empresa hay mayor dispersión relativa en el número
de horas perdidas? ¿Dónde es más representativa la media?

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 103

Ejemplo 2.5. Calcula los coeficientes de asimetría y curtosis de Fisher de


los valores:
a) 1 2 3 4 5
b) 1 1 1 5 7
c) 1 3 3 3 5

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


104 Análisis de datos unidimensionales.

Ejemplo 2.6. Explica cuál de las siguientes variables estadísticas tiene una
curva de frecuencias más aproximada al modelo normal, comentando en ca-
da caso la forma de la curva de frecuencias correspondiente (asimetría y
apuntamiento):

1 1
A ) m2 = ∑ ( xi − x ) ni = 144 m3 = ∑ ( xi − x ) ni = 0
2 3

N N
1
m4 = ∑ ( xi − x ) ni = 103.680
4

N
B ) s = 12 m3 = 936 m4 = 20.736
C) s = 10 m3 = −85 m4 = 29.740

Sol.: La C es la más aproximada al modelo normal.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 105

Ejemplo 2.7. Dada la variable estadística X de media 15 y varianza 4, cal-


cular la media y la varianza de las siguientes variables:
a) Z = X + 3

b) Y = 4 X

c) Y = -4X

d) W = 6 X – 1

¿En qué variable el coeficiente de variación de Pearson serán igual al de X?

Solución: a) z = 18 s Z2 = 4
b) y = 60 sY2 = 64
c) y = −60 sY2 = 64
d) w = 89 sW2 = 144 )

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


106 Análisis de datos unidimensionales.

Ejemplo 2.8. Analizadas las ventas (en miles de u.m.) en 1999 de 100
empresas de un determinado sector se ha obtenido una media de 500 u.m.
y una desviación típica de 3,5 u.m.
Calcular la media y la varianza para el año 2000 en los siguientes supues-
tos:
a) Las ventas sufren un aumento del 20% en todas las empresas.

b) Las ventas se incrementan en todas las empresas en 100 miles de u.m.

Solución: a) y = 600, sY2 = 17,64


b) y = 600, sY2 = 12,25

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 107

Ejemplo 2.9. Tipifica los valores obtenidos en el ejemplo 2.3 para la casa B
y comprueba que la media de las puntuaciones tipificadas es 0 y la desvia-
ción típica 1.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


108 Análisis de datos unidimensionales.

Ejemplo 2.10. Los estudiantes de un grupo determinado de primer curso


de la licenciatura en ECO han realizado dos pruebas, A y B. La calificación
media en la primera de ellas es de 6,5 puntos con una desviación típica de
2,36, mientras que en la segunda prueba, la media y la desviación típica han
sido respectivamente de 5 y 1,32 puntos. Un estudiante ha obtenido una ca-
lificación de 7,5 en la prueba A y de 7 en la prueba B. ¿En qué examen ha
obtenido una nota relativa más alta?

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 109

Ejemplo 2.11. Cristina y Raúl, dos compañeros de un grupo de Estadística,


mantienen la siguiente conversación:
¾ Cristina: creo que como estudiante universitaria soy más alta que tú, Raúl.
¾ Raúl: lo dudo, ¿cuánto mides?
¾ 1,70 m. –contestó Cristina- ¿y tú?
¾ 1,76 m., –replicó Raúl mientras dirigía su mirada hacia los zapatos de
Cristina- las apariencias engañan.
¾ Sí, puede ser que las apariencias engañen, pero la Estadística no –
argumentó Cristina-. He leído un estudio sobre la estatura de los estudian-
tes de la Universidad de Valencia y da como resultado que la altura media
de las chicas es de 168 cm. con una desviación típica de de 5 cm., mien-
tras que las de los chicos son de 174 y 10 centímetros respectivamente.
¾ ¿y? –preguntó Raúl-.

Contestar a Raúl (con instrumentos estadísticos).

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


110 Análisis de datos unidimensionales.

Ejemplo 2.12. Se lleva a cabo un estudio para determinar el tiempo nece-


sario para realizar una operación específica en una empresa. El tiempo ne-
cesario (en minutos) para realizar la operación se midió para N = 40 traba-
jadores (entre los que estás incluido tú) y los resultados fueron los siguien-
tes:
x = 13,8 s = 1,7
Describir aproximadamente los datos aplicando el coeficiente de variación de

Pearson y los intervalos x ± ks (regla de Tchebysheff).


Si tú has tardado en realizar ese trabajo 10 minutos solamente, ¿Consideras
que tu tiempo está muy por debajo de la media, o por el contrario crees que
está dentro de unos límites “normalmente” razonables?

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 111

NOTA: REGLA DE TCHEBYSHEFF: Dada una variable estadística cualquiera


X(xi) con N observaciones, de media x y desviación típica s, y dado un nú-

⎛ 1⎞
mero real positivo k mayor que 1; al menos un porcentaje de ⎜ 1 − 2 ⎟ x100
⎝ k ⎠
de las observaciones se encuentra dentro del intervalo de valores x ± ks , es
decir, entre k desviaciones típicas alrededor de la media aritmética.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


112 Análisis de datos unidimensionales.

Ejemplo 2.13. Calcúlese la MODA de los siguientes conjuntos de datos y


distribuciones:

a) X : 2, 2, 3, 2, 6, 7, 6

b) Intervalos Frecuencia Intervalos Frecuencia


0,0 – 1,5 6 0,2 – 0,3 10
1,5 – 2,5 12 0,3 – 0,4 40
2,5 – 3,0 12 0,4 – 0,5 8

Solución: a ) Mo = 2 b ) Mo = 2 ,5 Mo = 0 ,35 o 0 ,344

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 113

Ejemplo 2.14. Se les pide a doce economistas que den una predicción so-
bre el incremento del IPC para el año 2003. Dichas predicciones fueron:

4,0 3,9 3,2 3,5 3,8 3,3


3,5 3,4 3,7 3,6 3,4 3,2

Calcúlese la mediana, la moda y el primer cuartil de dichas predicciones.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


114 Análisis de datos unidimensionales.

Ejemplo 2.15. Calcúlese la moda y los cuantiles de orden 0,25, 0,50 (me-
diana) y 0,75 (cuartiles) en los ejemplos 4 y 5 del tema 1.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


TEMA 3
MEDIDAS DE CONCENTRACIÓN
116 Medidas de concentración.

Ficha del tema 3.

Objetivos de aprendizaje.
Bibliografía básica para complementar el tema.
Programación de la guía didáctica:
3.1. Introducción: concepto, instrumentos, concentración mínima y máxima.

3.2. Curva de Lorenz.

3.3. Índice de Gini.


Conceptos clave.
Ejemplos.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 117

OBJETIVOS DE APRENDIZAJE.

Estudiar como se reparte o distribuye la masa o volumen total de la varia-


N
ble, ∑ x n , entre los N elementos de la muestra o población tanto gráfica
i i
i =1

(curva de Lorenz) como analíticamente (índice de Gini)

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
118 Medidas de concentración.

BIBLIOGRAFÍA BÁSICA (teoría y problemas)

ESTEBAN, J.; y otros.: “Estadística Descriptiva y nociones de Probabili-


dad”, Ed. Thomson, 2005.

Tema 2 (2.6, página 55). (Con ejercicios, cuestiones de autoevalua-


ción y problemas resueltos y propuestos).

MONTIEL, A.M.; RIUS, F.; BARÓN F.J.: “Elementos básicos de Estadística


Económica y Empresarial”, Ed. Prentice Hall, Madrid 1997.

Capítulo 4 (4.5, página 102).

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 119

3.1. INTRODUCCIÓN. CONCEPTO. INSTRUMENTOS. CONCENTRACIÓN


MÍNIMA Y MÁXIMA.

Concepto: dada una variable estadística X (x ) y su distribución de frecuen-


N
i i =1

cias (x , n ) , con los datos ordenados de menor a mayor, estudiar la con-


i
k
i i =1

centración de la V.E. consiste en medir cómo está repartida (distribuida) la


masa o volumen total de la variable entre los N elementos de la población.

El volumen total de la variable es la agregación de todos los valores y lo


llamamos
k
v = ∑xn k i i
i =1

Instrumentos para medir la concentración: la concentración se medirá com-


parando dos indicadores que se obtendrán a partir de la distribución de fre-
cuencias de los valores de la variable:

• Uno relativo a los N elementos de la población y que se obtiene a partir


de las frecuencias acumuladas:

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
120 Medidas de concentración.

(i = 1, 2,…, k)
i
Ni
N i = ∑ n j ⇒ pi = x100
j =1 N
pk=100 siempre.

pi representa el porcentaje acumulado de elementos de la población


hasta el lugar i-ésimo (Fi x 100).

• El otro relativo a la masa o volumen de variable y que se obtiene a par-


tir de la cantidad de variable (xi · ni) que van acumulando los elementos
de la población:

(i = 1, 2,…, k)
i
vi
vi = ∑ x j n j ⇒ qi = x100
j =1 vk
qk=100 siempre.

qi representa el porcentaje acumulado de volumen de variable hasta el


lugar i-ésimo.
vi es la cantidad de variable acumulada hasta el lugar i-ésimo de la dis-
tribución (ordenada de menor a mayor).
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 121

Concentración mínima y máxima:

• Mínima: cuando el volumen total vk está equidistribuido entre los N ele-


mentos de la población. En este caso cada elemento acumularía el mis-
k

∑xn
mo volumen de variable: =
i i
v
=x k i =1

N N
Entonces: pi = qi (i = 1, 2,…, (k-1)). (pK = qk siempre).

• Máxima: en este caso el volumen vk total lo acumularía un solo elemen-


to y los (N-1) restantes nada. Como los valores de la distribución están
ordenados de menor a mayor, este elemento aparecería al final de la
distribución y entonces:

Para cada pi , qi = 0 (i = 1, 2,…, (k-1)).

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
122 Medidas de concentración.

3.2. CURVA DE LORENZ...

La curva de Lorenz es la representación gráfica de la concentración: se ob-


tiene al representar en unos ejes de coordenadas los valores (pi , qi).

La concentración mínima vendría representada por la bisectriz pi = qi (i = 1,


2,…, (k-1))
La concentración máxima daría lugar a una curva pegada al eje de abscisas.

Ejemplo 3.1.
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 123

3.3. Índice de Gini.

El índice de Gini es el cociente entre el área que encierra la curva de Lorenz


con la bisectriz y el área del triángulo OPQ.

Una aproximación del índice de Gini es:


k −1

∑(p i − qi )
IG = i =1
k −1

∑p
i =1
i

Concentración mínima I = 0 G

Concentración máxima I = 1 G

Ejemplo 3.2.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
124 Medidas de concentración.

Conceptos clave.
Concentración.
Curva de Lorenz.
Índice de Gini.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 125

EJEMPLOS.
Ejemplo 3.1. Observa las curvas de Lorenz representadas a continuación:

q A q B

p p
¿Cuál de las dos situaciones representa una distribución más equitativa?

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


126 Medidas de concentración.

Ejemplo 3.2. Los salarios (en euros) de los obreros de cierta empresa se
distribuyen como sigue:

nº obre- Masa
Salarios
ros salarial
540 – 660 4 2280
660 – 780 6 4200
780 – 900 5 4320

Obtener la curva de concentración y el índice de Gini.

Solución. Ig=0,131

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


TEMA 4
ANÁLISIS DE DATOS
MULTIDIMENSIONALES
128 Análisis de datos bidimensionales.

Ficha del tema 4.


Objetivos de aprendizaje.
Bibliografía básica para complementar el tema.
Programación de la guía didáctica:
4.1. Representación de datos multidimensionales: matriz de datos, tablas de
correlación y contingencia, gráfico de dispersión.
4.2. Distribuciones conjuntas, marginales y condicionadas. Independencia
estadística.
4.3. Momentos. Vector de valores medios y matriz de varianzas-covarianzas.
4.4. El coeficiente de correlación lineal simple. Matriz de correlación.
4.5. Asociación.
Conceptos clave.
Ejemplos.
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 129

OBJETIVOS DE APRENDIZAJE.
Manejo de tablas de correlación o distribuciones de frecuencias conjuntas
para dos variables numéricas.
Obtención de las distribuciones marginales y condicionadas a partir de la
conjunta.
Cálculo e interpretación de los estadísticos de la variable bidimensional, es-
pecialmente de la covarianza y del coeficiente de correlación lineal.
Aspecto y propiedades de la matriz de varianzas – covarianzas.
Cálculo de los estadísticos de una variable combinación lineal de otras dos.
Cómo observar la independencia entre dos variables o atributos a partir de
la distribución conjunta.
Estudio del grado de asociación entre dos atributos a partir de la tabla de
contingencia, calculando el estadístico ji – cuadrado y el coeficiente de con-
tingencia de Pearson.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
130 Análisis de datos bidimensionales.

BIBLIOGRAFÍA BÁSICA (teoría y problemas)

ESTEBAN, J.; y otros.: “Estadística Descriptiva y nociones de Probabili-


dad”, Ed. Thomson, 2006 (segunda impresión).
Tema 3 para tema 4. (Con ejercicios, cuestiones de autoevaluación y
problemas resueltos y propuestos).
MONTIEL, A.M.; RIUS, F.; BARÓN F.J.: “Elementos básicos de Estadística
Económica y Empresarial”, Ed. Prentice Hall, Madrid 1997.
Capítulo 5 para tema 4.
MARTÍN PLIEGO, F.J.: “Introducción a la Estadística Económica y Empre-
sarial”, Ed. Thomson. Madrid 2004 (3ª edición).
Capítulo 14 (página 564, tablas de contingencia) para epígrafe 5.
Asociación.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 131

4.1. Representación de datos bidimensionales: matriz de datos, ta-


blas de correlación y contingencia, gráfico de dispersión.
VARIABLE ESTADÍSTICA BIDIMENSIONAL (V.E.B.):
Si se observan y miden simultáneamente dos características o propiedades
sobre los mismos elementos de una población se obtiene una V.E.B. (X, Y)

que generará una serie de N datos de aspecto bidimensional ( xi , yi )iN=1


N datos sin elaborar
V.E.B. (x , y )
i i
N
i =1
(X, Y)
( x1 , y1 ),( x 2 , y 2 ),L ,( x N , y N )

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
132 Análisis de datos bidimensionales.

MATRIZ DE DATOS TABLA DE CORRELACIÓN

X Y Y y1 y2 L yj L ym
Si X tiene “k” valores
X
x1 y1 diferentes. x1 n11 n12 L n1 j L n1 m
Si Y tiene “m” valores
x2 y2 diferentes
x2 n 21 n 22 L n2 j L n2 m
( xi , y j ) ⇒ nij
M M M M M
i = 1 ,2 , L , k
xi yi j = 1 ,2 , L , m xi ni 1 ni 2 L nij L nim
Vector de valores que
M M se repite nij veces M M M
xN yN xk nk 1 nk 2 L n kj L n km
k m

∑∑n = N
i =1 j =1
ij

También se podrían agrupar los valores de X en “k” intervalos y los de Y en “m” intervalos.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 133

GRÁFICO DE DISPERSIÓN
Parejas de valores ( xi , y i )i =1
N

gráfico dispersión

Ejemplo 4.1.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
134 Análisis de datos bidimensionales.

4.2. Distribuciones conjuntas, marginales y condicionadas. Indepen-


dencia estadística.

DISTRIBUCIÓN CONJUNTA: la distribución conjunta de una V.E.B. (X, Y)


puede venir representada tanto por la matriz de datos como por la tabla de
correlación, con las parejas de valores y sus frecuencias.

( X ,Y ) : (( x , y
i j
); nij ) nij ⇒ frecuencia absoluta conjunta
i = 1 ,2 , L , k nij
j = 1 ,2 , L , m f ij = ⇒ frecuencia relativa conjunta
N

Ejemplo 4.1.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 135

DISTRIBUCIONES MARGINALES.

MARGINAL X
X \Y y1 y2 yj ym ni●
valores xi
x1 n11 n12 … n1j … n1m n1● frecuencia ni •
x2 n21 n22 … n2j … n2m n2● ni • = suma por filas (n )
ij

m
ni• = ∑ nij
j =1
xi ni1 ni2 … nij … nim ni●
ni •
f i• = frec. relativa
xk nk1 nk2 … nkj … nkm nk●
N
n●j n●1 n●2 … n●j … n●m N

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
136 Análisis de datos bidimensionales.

X \Y y1 y2 yj ym ni● MARGINAL DE Y:

x1 n11 n12 … n1j … n1m n1● valores yj


frecuencia n• j
x2 n21 n22 … n2j … n2m n2●
n• j = suma por columnas (n )ij

k
xi ni1 ni2 … nij … nim ni● n• j = ∑ nij
i =1

n• j
xk nk1 nk2 … nkj … nkm nk● f• j = frec. relativa
N
n●j n●1 n●2 … n●j … n●m N

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 137

DISTRIBUCIONES CONDICIONADAS
VARIABLE X CONDICIONA-
Y
y1 y2 yj ym ni● DA A UN VALOR DE Y.
X
X/yj (j fijo):
x1 n11 n12 … n1j … n1m n1●
valores xi
x2 n21 n22 … n2j … n2m n2● frecuencia :
columna j - ésima nij ⇒ ni / j
( i = 1,2 ,L , k )
xi ni1 ni2 … nij … nim ni●
nij
fi / j = frec. relativa cond.
n• j
xk nk1 nk2 … nkj … nkm nk●
f ij
n●j n●1 n●2 … n●j … n●m N fi / j = frec. relativa cond.
f• j

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
138 Análisis de datos bidimensionales.

VARIABLE Y CONDICIONADA A
Y
y1 y2 yj ym ni● UN VALOR DE X.
X
Y/xi (i fijo):
x1 n11 n12 … n1j … n1m n1●
valores yj
x2 n21 n22 … n2j … n2m n2● frecuencia :
⇒ nj / i
fila i - ésima nij
( j = 1,2 ,L , m )
xi ni1 ni2 … nij … nim ni●
nij
f j/i = frec. relativa cond.
ni •
xk nk1 nk2 … nkj … nkm nk●
f ij
n●j n●1 n●2 … n●j … n●m N f j/i = frec. relativa cond.
f i•
Ejemplo 4.2. Ejemplo 4.3.
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 139

INDEPENDENCIA ESTADÍSTICA.
CARÁCTERIZACIÓN DE LA INDEPENDENCIA. Dada una V.E.B.

( X ,Y ) : (( x , y
i j
); nij )i =1 j =1
k m

Y
y1 y2 yj ym ni● X e Y son INDEPENDIENTES
X
si:
x1 n11 n12 … n1j … n1m n1●

x2 n21 n22 … n2j … n2m n2● f ij = f i• × f • j ∀i , j


es decir:

xi ni1 ni2 … nij … nim ni● nij ni • n• j


= × ∀i , j
N N N
xk nk1 nk2 … nkj … nkm nk● ni • × n• j
Equivalente a: nij =
n●j n●1 n●2 … n●j … n●m N N
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
140 Análisis de datos bidimensionales.

PROPIEDAD.
Si dos variables X e Y son independientes, la frecuencias relativas condicio-
nadas coinciden con las respectivas marginales.

(f )
i/ j
k
i=
= ( f i • )i =1
k
(para cada X / yj )
X e Y independientes entonces:
(f )
j/i
m
j =1
= ( f • j ) j =1
m
(para cada Y / x ) i

Es decir:

las columnas de frecuencias relativas condicionadas coinciden entre sí y,


a su vez, con las frecuencias relativas de la marginal X.

las filas de frecuencias relativas condicionadas coinciden entre sí y, a su


vez, con las frecuencias relativas de la marginal Y.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 141

CONSIDERACIONES SOBRE LA INDEPENDENCIA.

En general, una variable bidimensional (X, Y) (su distribución conjunta)


se obtiene al medir simultáneamente las dos variables sobre los mismos
elementos de una población. Si se miden (estudian) por separado las va-
riables X e Y y se obtienen las distribuciones unidimensionales de X e Y
(marginales), a partir de ellas no se puede construir la distribución con-
junta de (X, Y).

Pero si las variables X e Y son independientes, la caracterización de la


independencia indica que lo conjunto se descompone en producto de lo

marginal f ij = f i• × f • j ∀i , j , por tanto:


Si las variables X e Y son independientes, se puede obtener fácilmente la

distribución conjunta a partir de las marginales: f i • × f • j = f ij ∀i , j


© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
142 Análisis de datos bidimensionales.

EJEMPLO DE VARIABLES INDEPENDIENTES:


Sea la siguiente distribución conjunta de dos variables (X, Y):
Compruébese que son independientes a partir de
Y
la caracterización de la independencia y de la pro-
X 1 2
piedad que relaciona las distribuciones condicio-
1 2 1
nadas con las marginales.
2 2 1
3 4 2

Solución:
Obsérvese que las columnas de frecuencias conjuntas son claramente pro-
porcionales, al igual que las filas de frecuencias conjuntas.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 143

POR LA CARACTERIZACIÓN DE LA INDEPENDENCIA:


ni • × n• j
Y nij =
X 1 2 ni●
N
1 2 1 3 n 2 • × n •1
n21 =
2 2 1 3 N
Por ejemplo:
3 4 2 6 3×8
2=
n●j 8 4 12
12

6 ×8
4= y así sucesivamente, lo cumplen todas las frecuencias conjuntas.
12
(Basta comprobarlo para (k-1)x(m-1) celdas nij). En este caso: 2x1.
Por tanto las variables son independientes.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
144 Análisis de datos bidimensionales.

POR LA PROPIEDAD QUE RELACIONA LAS CONDICIONADAS CON LAS MAR-


GINALES:
Distribuciones condicionadas X/y y marginal X (frecuencias relativas):

ni •
Y f i• = frec. relativa
X 1 2 fi● N
1 2/8 1/4 3/12 nij
fi / j = frec. relativa cond.
2 2/8 1/4 3/12 n• j
3 4/8 2/4 6/12 2 1 3
= = …
n●j 8 4 12 8 4 12

Coinciden las dos columnas de distribuciones condicionadas con


la marginal X.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 145

Distribuciones condicionadas Y/x y marginal Y (frecuencias relativas):

Y
n• j
X 1 2 ni● f• j = frec. relativa
1 2/3 1/3 3
N
2 2/3 1/3 3
nij
f j/i = frec. relativa cond.
3 4/6 2/6 6 ni •
f●j 8/12 4/12 12 2 2 4 8
= = = …
3 3 6 12
Coinciden las tres filas de distribuciones condicionadas con la marginal Y.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
146 Análisis de datos bidimensionales.

4.3.MOMENTOS. VECTOR DE VALORES MEDIOS Y MATRIZ DE VA-


RIANZAS COVARIANZAS.

MOMENTOS DE UNA V.E.B. (X, Y).

Dada una V.E.B.


( X ,Y ) : ( xi , y i )N
i =1
(( x , y
i j
); nij )i =1 j =1
k m

N parejas ( k × m) parejas diferentes


Definimos:
MOMENTOS ORDINARIOS DE ORDEN (p + q)

1 N p q 1 k m p q
a pq = ∑ xi y i o a pq = ∑ ∑ xi y j nij con p y q enteros p,q ≥ 0
N i =1 N i =1 j =1
(Se utilizará preferentemente la primera expresión)

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 147

1 N 1 N
a10 = ∑ xi = x a01 = ∑ y i = y medias marginales
N i =1 N i =1
1 N 1 k m
a 20 a02 a11 = ∑ xi y i o bien a11 = ∑ ∑ xi y j nij
N i =1 N i =1 j =1

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
148 Análisis de datos bidimensionales.

MOMENTOS CENTRALES DE ORDEN (p + q)

1 N 1 k m
m pq = ∑ ( xi − x ) p ( y i − y ) q o m pq = ∑ ∑ ( x i
− x ) p
( y j
− y ) q
nij
N i =1 N i =1 j =1
con p y q enteros p , q ≥ 0

(Se utilizará preferentemente la primera expresión).


VARIANZA marginal de X VARIANZA marginal de Y
1 N 1 N
m20 = ∑ ( xi − x ) 2 = s X2 m02 = ∑ ( y i − y ) 2 = sY2
N i =1 N i =1
COVARIANZA sXY

1 N 1 k m
m11 = ∑ ( xi − x )( y i − y ) o bien m11 = ∑ ∑ ( xi − x )( y j − y )nij
N i =1 N i =1 j =1
s XY = m11
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 149

LA COVARIANZA sXY
La covarianza es el momento central de orden dos m11.
1 N
s XY = m11 = ∑ ( xi − x )( y i − y )
N i =1
La covarianza es un estadístico conjunto que mide la covariación (varia-
bilidad conjunta) lineal de las variables X e Y.
La covarianza puede ser positiva o negativa. Su signo marca la dirección
de la covariación.

¾ s XY > 0 , covariación positiva: si la variable X crece, entonces la tenden-


cia de la variable Y es a crecer también.

¾ s XY < 0 , covariación negativa: si la variable X crece, entonces la ten-

dencia de la variable Y es a decrecer (o viceversa).

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
150 Análisis de datos bidimensionales.

gráfico dispersión gráfico dispersión


covarianza positiva 2,71
covarianza negativa -2,71
6 6
5 5
4 4
y3 y3
2 2
1 1
0 0
0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8
x x

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 151

s XY = 0 , covariación nula: no hay una variabilidad conjunta lineal domi-


nante (positiva o negativa) entre X e Y.
gráfico dispersión gráfico dispersión
covarianza cero pero dependientes covarianza cero e independencia
5
4
4
3
3
y y 2 4; 2 medias
2 4; 2 c.d.g.

1
1

0 0
0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8
x
x

PROPIEDAD: si las variables X e Y son independientes estadísticamente, la


covarianza es cero. El recíproco no es necesariamente cierto.

X e Y independientes ⇒ s XY = 0
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
152 Análisis de datos bidimensionales.

PROPIEDADES DE LA COVARIANZA.
1. Cálculo de la covarianza: se demuestra fácilmente que la covarianza se
puede determinar como:
1 N
s XY = ∑ xi y i − x ⋅ y
N i =1
o en forma de momentos: s XY = m11 = a11 − a10 a01
2. Transformación lineal:

X ′ = k1 X + c1 ⎫
⎬ ⇒ s X ' Y ' = k1k 2 s XY siendo k 1 , k 2 , c1 , c 2 números reales
Y ′ = k 2Y + c2 ⎭
Por tanto la covarianza es sensible al cambio de escala y su valor de-
pende de las unidades de medida de las variables X e Y. Es un estadístico de
tipo absoluto.

3. Obviamente s XY = sYX .
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 153

VECTOR DE VALORES MEDIOS

r ⎛x⎞
m=⎜ ⎟
⎝ y⎠
MATRIZ DE VARIANZAS COVARIANZAS
⎛ sX s XY ⎞
2

S = ⎜⎜ ⎟
2 ⎟
⎝ s XY sY ⎠
La matriz de varianzas – covarianzas es simétrica y semidefinida posi-
(
tiva det( S ) ≥ 0 . )
Medias y varianzas marginales y covarianza x = a 10 y = a 01
en función de los momentos:
s X2 = m 20 = a 20 − a 102
sY2 = m02 = a 02 − a 012
s XY = m11 = a 11 − a 10 a 01
Ejemplo 4.4. Ejemplo 4.6.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
154 Análisis de datos bidimensionales.

PROPIEDADES DE COMBINACIÓN LINEAL DE VARIABLES.

r ⎛x⎞ ⎛ sX s XY ⎞
2

Sea (X, Y) una V.E.B. y sean m=⎜ ⎟ y S = ⎜⎜ ⎟


2 ⎟
su vector de me-
⎝ y⎠ ⎝ s XY sY ⎠
dias y matriz de var – cov respectivamente.

Sea Z = k 1 X + k 2Y + c una COMBINACIÓN LINEAL de X e Y con k1, k2 y c


números reales.
La MEDIA y la VARIANZA de Z se pueden determinar como sigue:

z = k1 x + k 2 y + c
s Z2 = k 12 s X2 + k 22 sY2 + 2k 1 k 2 s XY
Solo si la covarianza es cero s Z2 = k12 s X2 + k 22 sY2 .
Así, si X e Y independientes ⇒ s XY = 0 y entonces: s Z2 = k12 s X2 + k 22 sY2 .
Ejemplo 4.8.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 155

4.4. EL COEFICIENTE DE CORRELACIÓN LINEAL. MATRIZ DE CORRE-


LACIÓN.

EL COEFICIENTE DE CORRELACIÓN LINEAL SIMPLE.

⎛ sX s XY ⎞
2

Dada (X, Y) una V.E.B. y S = ⎜⎜ ⎟


2 ⎟
su matriz de var – cov, se define
⎝ s XY sY ⎠
s XY
el coeficiente de correlación lineal de Pearson como: rXY =
s X sY
El coeficiente r tiene el mismo signo que la covarianza.
r es un estadístico de tipo relativo, es decir, independiente de las unida-
des de medida de las variables X e Y.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
156 Análisis de datos bidimensionales.

Mide la intensidad de la variabilidad conjunta lineal entre X e Y es decir


la correlación lineal.
PROPIEDADES DEL COEFICIENTE DE CORRELACIÓN.
1. El coeficiente de correlación lineal está acotado: − 1 ≤ r ≤ 1.

correlación perfecta positiva correlación perfecta negativa

y r=1 y

r = -1

x x

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 157

X ′ = k 1 X + c1 ⎫
2. Transformación lineal: ⎬ ⇒ rX ' Y ' = rXY . Donde k1 , k2 y c

Y = k 2Y + c2 ⎭
son números reales, con k1 y k2 del mismo signo. Es decir, que el coeficiente
es invariante por transformación lineal (salvo en el signo).
MATRIZ DE CORRELACIÓN.

s XY
Dada (X, Y) una V.E.B. y el coeficiente de correlación lineal rXY = , se
s X sY
define:
⎛ rXX rXY ⎞ ⎛ 1 rXY ⎞
R=⎜ ⎟=⎜ ⎟
⎝ rYX rYY ⎠ ⎝ rXY 1⎠
MATRIZ DE CORRELACIÓN
Es una matriz simétrica y semidefinida positiva det( R ) = 1 − rXY2 ≥ 0
Ejemplo 4.9.
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
158 Análisis de datos bidimensionales.

4.5. ASOCIACIÓN.

TABLA DE CONTINGENCIA
Sean dos atributos
B
b1 b2 bj bm ni● (A, B): (ai, bj); nij con k y m
A
categorías respectivamente, or-
a1 n11 n12 … n1j … n1m n1●
ganizados en una tabla de con-
a2 n21 n22 … n2j … n2m n2●
tingencia (distribución conjun-
ta). Se estudiará la asociación
ai ni1 ni2 … nij … nim ni● entre A y B utilizando el criterio
de independencia estadística.

ak nk1 nk2 … nkj … nkm nk●

n●j n●1 n●2 … n●j … n●m N

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 159

A\B b1 b2 bj bm ni● A y B independientes si

a1 n11 n12 … n1j … n1m n1● ni • × n• j


nij = ∀i , j .
a2 n21 n22 … n2j … n2m n2● N
ESTADÍSTICO χ2
ai ni1 ni2 … nij … nim ni●

ak nk1 nk2 … nkj … nkm nk●

n●j n●1 n●2 … n●j … n●m N

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
160 Análisis de datos bidimensionales.

Se denominará:

nij a la frecuencia real u observada y

ni • × n• j
Eij = a la frecuencia esperada o teórica: frecuencia que se
N
tendría en caso de independencia.

El estadístico χ2 compara las frecuencias reales con las teóricas:

k m ( Eij − nij )2
χ 2 = ∑∑ χ2 ≥ 0
I =1 j =1 Eij

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 161

EL COEFICIENTE DE CONTINGENCIA DE PEARSON


Se define a partir del estadístico χ2:

χ2
CP =
N + χ2

El coeficiente de contingencia de Pearson mide la intensidad de la aso-


ciación entre dos atributos.

Está acotado: 0 ≤ C P < 1, pero su máximo no alcanza el valor de 1.


VALOR MÁXIMO DEL COEFICIENTE CP.
El valor máximo del coeficiente de contingencia de Pearson CP depende del
tamaño de la tabla de contingencia ( k × m ) . Cuanto mayor es el número de
filas y columnas más se acerca a 1.
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
162 Análisis de datos bidimensionales.

Se demuestra que en tablas de contingencia cuadradas (k×k ) su valor

k −1
máximo es C MAX = .
k

Ejemplo 4.11.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 163

Conceptos clave.
Coeficiente de contingencia de Pearson.
Coeficiente de correlación lineal.
Combinación lineal de variables.
Covarianza.
Distribución conjunta.
Distribuciones condicionadas.
Distribuciones marginales.
2
Estadístico χ .
Independencia estadística.
Matriz de correlación.
Matriz de varianzas-covarianzas.
Tabla de contingencia.
Tabla de correlación.
Transformación lineal.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
164 Análisis de datos bidimensionales.

EJEMPLOS

Ejemplo 4.1. Ordenar la siguiente serie de datos bidimensionales en una


distribución conjunta o distribución de frecuencias bidimensional (tabla de
correlación):

X 1 1 2 2 3 3 1 2 3 2
Y 1 2 1 2 1 2 1 1 2 1

Y
Solución: X 1 2
1 2 1
2 3 1
3 1 2

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 165

Ejemplo 4.2.
a) Obtener las distribuciones de frecuencias marginales de X e Y a partir de
la distribución conjunta del ejemplo 4.1.
b) Obtener las siguientes distribuciones condicionadas a partir de la conjunta
del ejemplo 4.1.: X / y = 1 e Y / x = 2

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


166 Análisis de datos bidimensionales.

Ejemplo 4.3. Hemos observado la retribución mensual de los 40 trabajado-


res de una empresa según su antigüedad en la misma obteniendo la siguien-
te tabla de correlación o distribución de frecuencias bidimensional:
Y: retribución mensual (en euros.)
X: antigüedad en la empresa (en años)
a) ¿Qué porcentaje de em-
Y 420-600 600-780 780-960 960-1200
pleados tiene una antigüe-
X mdc 510 690 870 1080 dad entre 2 y 4 años y una
0–2 retribución entre 600 y 780
mdc 1 7 3 1 0 euros? (conjunta)
2–4
3 1 9 6 2 b)¿Cuántos empleados tienen
una antigüedad entre 4 y 6
4–6 años? (marginal)
0 2 3 6
5
c) Observa la retribución de
los empleados con una antigüedad entre 0 y 2 años y compárala con la re-
tribución de los que tienen una antigüedad entre 4 y 6 años (condiciona-
da).

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 167

Ejemplo 4.4. Determina el vector de medias y la matriz de varianzas – co-


varianzas de la siguiente distribución conjunta obtenida en el ejemplo 4.1.

Y
X 1 2
1 2 1
2 3 1
3 1 2

r ⎛ 2 ⎞ ⎛ 0 ,6 0 ,1⎞
Solución: m = ⎜ ⎟ S =⎜ ⎟
⎝ ⎠
1 ,4 ⎝ 0 ,1 0 ,24 ⎠

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


168 Análisis de datos bidimensionales.

Ejemplo 4.5. ¿Son independientes las variables del Ejemplo 4.3? Calcula la
media de las retribuciones de los empleados con menor antigüedad y com-
párala con la media marginal de las retribuciones de todos los trabajadores.
¿Cómo habrían sido las medias anteriores en caso de independencia?

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 169

⎛ 16 24 ⎞
Ejemplo 4.6. ¿Es posible que la siguiente matriz: ⎜ 24 ⎟ sea de varian-
⎝ 25 ⎠
zas-covarianzas? Razona la respuesta.

Solución: No.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


170 Análisis de datos bidimensionales.

Ejemplo 4.7. Dada la siguiente distribución de frecuencias bidimensional:

Y
X 2 4
-5 1 0
0 0 1
5 1 0

a) ¿Están X e Y incorreladas?
b) ¿Son estadísticamente independientes X e Y?

Solución: 1) sí, 2) no

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 171

Ejemplo 4.8. De dos variables X e Y se conocen los siguientes datos:


r ⎛ 10 ⎞
vector de valores medios m = ⎜ ⎟ ; matriz de varianzas-covarianzas
⎝ 15 ⎠
⎛ 16 − 2 ⎞
S =⎜ ⎟ . Hallar la media y la varianza de la variable: Z = 2 X + 3Y + 8
⎝ − 2 25 ⎠

Solución: z = 73 S Z2 = 265

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


172 Análisis de datos bidimensionales.

Ejemplo 4.9. Calcula el coeficiente de correlación lineal en el ejemplo 4.4. e


interpreta el resultado. Obtener la matriz de correlaciones.

Solución: 0,265

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 173

Ejemplo 4.10. A partir de la siguiente matriz de datos para las variables X1,
X2, X3, obtener:

a) Las distribuciones marginales


Observación X1 X2 X3 b) Algunas de las distribuciones
1ª 1 2 -1 condicionadas
2ª 0 2 -1 c) El vector de medias y la matriz
3ª 0 2 -1 de varianzas-covarianzas
4ª 2 3 0
5ª 1 3 1
d) La matriz de correlaciones
6ª 0 2 0
7ª 0 1 -1
8ª 1 3 -1
9ª 1 1 0
10ª 2 1 1

⎛ 0 ,8 ⎞ ⎛ 0 ,56 0 ,10 0 ,34 ⎞ ⎛ 1 0 ,17 0 ,58 ⎞


r ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
Solución: c) m = ⎜ 2 ⎟ S = ⎜ 0 ,10 0 ,60 0 ⎟ d) Ρ = ⎜ 0 ,17 1 0 ⎟
⎜ − 0 ,3 ⎟ ⎜ 0 ,34 0 0 ,61 ⎟⎠ ⎜ 0 ,58 0 1 ⎟⎠
⎝ ⎠ ⎝ ⎝

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


174 Análisis de datos bidimensionales.

Ejemplo 4.11. Un fabricante de herramientas compra una serie de piezas a


tres proveedores diferentes. Cada pieza es analizada para detectar si pre-
senta alguno de los tres tipos de defectos más usuales, antes de ser intro-
ducida en la cadena de producción. Durante un mes se han recogido datos
relativos al tipo de defecto encontrado en las piezas compradas a cada uno
de los tres proveedores obteniéndose la siguiente tabla de contingencia:

Proveedor
Tipo de
Defecto A B C
I 19 30 20
II 25 45 33
III 12 15 20

Analizar si existe alguna relación entre el tipo de defecto y el proveedor.


Si la asociación fuese máxima ¿qué aspecto tendría la tabla de contingencia?

Solución: Cp = 0,117 para un máximo de 0,8165

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


TEMA 5
ANÁLISIS DE
REGRESIÓN
176 Análisis de Regresión.

Ficha del tema 5.

Objetivos de aprendizaje.
Bibliografía básica para complementar el tema.
Programación de la guía didáctica:
5.1. Introducción.
5.2. Regresión mínimo-cuadrática: caso lineal.
5.3. Análisis de la bondad de un ajuste: capacidad explicativa de una ecua-
ción de regresión. Coeficiente de determinación. Caso lineal.
5.4. Regresión no lineal: potencial y exponencial.
Conceptos clave.
Ejemplos.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 177

OBJETIVOS DE APRENDIZAJE.

Estudio exhaustivo de la regresión lineal simple (dos variables X, Y): cálculo


de los parámetros a, b, a’, b’ de las rectas de regresión Y* = a + bX y
X* = a’ + b’Y a partir del principio de mínimos cuadrados.
Expresión de esos parámetros en función de los estadísticos de la variable
bidimensional (X, Y).
Interpretación de los coeficientes de regresión b y b’.
Obtención de una medida de la bondad del ajuste efectuado a partir de la
relación existente entre la varianza total y las varianzas residual y de la re-
gresión: coeficiente de determinación R2 (capacidad explicativa de una ecua-
ción de regresión).
Relación entre el coeficiente de determinación y los coeficientes de regresión
b y b’.
Introducción a la regresión no lineal: casos potencial y exponencial.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
178 Análisis de Regresión.

BIBLIOGRAFÍA BÁSICA (teoría y problemas)

ESTEBAN, J.; y otros.: “Estadística Descriptiva y nociones de Probabili-


dad”, Ed. Thomson, 2005.
Tema 4 para tema 5. (Con ejercicios, cuestiones de autoevaluación y
problemas resueltos y propuestos).
MONTIEL, A.M.; RIUS, F.; BARÓN F.J.: “Elementos básicos de Estadística
Económica y Empresarial”, Ed. Prentice Hall, Madrid 1997.
Capítulo 6.
MARTÍN PLIEGO, F.J.: “Introducción a la Estadística Económica y Empre-
sarial”, Ed. Thomson. Madrid 2004 (3ª edición).
Capítulo 10 para punto 4 (página 273).

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 179

5.1. INTRODUCCIÓN.
El estudio conjunto de dos variables (X, Y) tiene como objetivo fundamental de-
terminar si están relacionadas esas variables y, si hay alguna relación, cuantifi-
car esa relación. Cómo primer paso se puede observar el gráfico de dispersión:
la nube de puntos nos puede ayudar a buscar un modelo de relación adecuado.

gráfico de dispersión

correlación lineal datos no correlacionados


y y

x
x

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
180 Análisis de Regresión.

relación no lineal relación no lineal


relación potencial relación exponencial relación parabólica
y
y

x x

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 181

Para CUANTIFICAR la relación entre X e Y se utilizarán dos teorías funda-


mentales:
Teoría de la CORRELACIÓN: cálculo de estadísticos conjuntos y coefi-
cientes que midan la intensidad o el grado de relación entre X e Y
(como el coeficiente de correlación lineal definido en el tema 4).
Teoría de la REGRESIÓN: una vez elegido el modelo de relación que
se desea estudiar y cuantificar entre X e Y (lineal, exponencial…), con
la teoría de la REGRESIÓN se obtendrá la ecuación de la función, del
tipo elegido, que mejor relacione a las variables X e Y. Este tipo de
ecuaciones se denominan ECUACIONES DE REGRESIÓN. Estas ecua-
ciones cuantifican la RELACIÓN ESTADÍSTICA entre X e Y.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
182 Análisis de Regresión.

RELACIÓN ESTADÍSTICA – RELACIÓN FUNCIONAL.


Antes de estudiar cómo se obtienen las ecuaciones de regresión, conviene
distinguir entre una relación estadística y una, más conocida, relación fun-
cional entre dos variables:
Una relación funcional entre X e Y y = f ( x ) es una corresponden-
cia exacta, tal que cada valor de X está asociado con un único valor
de Y.
Una relación estadística entre dos variables X e Y es una corres-

pondencia no necesariamente exacta, tal que cada valor de X “x”


tiene asociado la predicción de un valor de Y que se identificará como

y∗. Este valor se obtendrá a partir de la ecuación de regresión

y∗ = f ( x )
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 183

Relación funcional

120
y
100 y = 2x + 7

80

60

40

20
x
0
0 5 10 15 20 25 30 35 40 45 50

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
184 Análisis de Regresión.

Dada una serie de datos bivariantes


Relación estadística
(X, Y) la ecuación de regresión
y
y* = f(x)
y* = f ( x ) cuantifica la relación es-
tadística entre X e Y.
(x,y)
y En este contexto:
e=y - y*
X es la variable independiente
y*
(variable control)
Y es la variable dependiente
(variable respuesta).
x x
Cada valor de X tendrá asociado:

y i valor real de la variable Y ( xi , y i )


X → xi ⇒ ∗ e i
= y i
− y ∗
i
y i valor de predicción (teórico, estimado) RESIDUO

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 185

AJUSTE.
Para obtener las ecuaciones de regresión y* = f ( x ) se utilizan métodos

matemáticos de ajuste: hallar la ecuación de un tipo de función que mejor


“ajuste” a la nube de puntos del gráfico de dispersión.

MÉTODO DE AJUSTE: PRINCIPIO DE MÍNIMOS CUADRADOS (P.M.C.)

Dada una serie de datos bidimensionales ( X ,Y ) : ( xi , y i )iN=1 y elegido el ti-

po de función que queremos ajustar y* = f ( x ), la ecuación que mejor

ajusta a la nube de puntos es la que minimiza la suma de los cuadrados de


los residuos.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
186 Análisis de Regresión.

y N N
RESÍDUOS
y* = f(x) ∑ e = ∑ i i)
(i
2
y − y ∗ 2

e=y - y* i =1 i =1

MÍNIMA
y

A y∗ = f ( x ) la llamare-
y* mos:
Ecuación de regresión
mínimo – cuadrática
x
de Y sobre X.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 187

5.2. REGRESIÓN MÍNIMO – CUADRÁTICA: CASO LINEAL.

Dada una serie de datos bivariantes ( X ,Y ) : ( xi , y i )iN=1 , si el tipo de función


elegida y* = f ( x ) para relacionar las variables X e Y es una RECTA, su

ecuación en forma explícita es:

y ∗ = a + bx a ,b números reales .

Aplicando el P.M.C. como método de ajuste: la ecuación de la recta

y ∗ = a + bx que mejor ajustará a la nube de puntos ( xi , y i )iN=1 del gráfico

de dispersión será la que minimice la suma de los cuadrados de los residuos.


N

∑ e = ∑ ( yi − y ) = ∑ ( yi − ( a + bxi ))
N N
2 ∗ 2 2
i i
MÍNIMA
i =1 i =1 i =1

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
188 Análisis de Regresión.

Regresión lineal

y y* = a + bx

yi

yi*

x
N

∑ e = ∑ ( y − y ) = ∑ ( y − ( a + bx ))
N N
2 ∗ 2 2
i i i i i
MÍNIMA
i =1 i =1 i =1

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 189

OBTENCIÓN DE LA RECTA DE REGRESIÓN DE Y SOBRE X.


N
H ( a ,b ) = ∑ ( y i − ( a + bxi ))
2
Sea la función: a y b parámetros.
i =1

Los posibles valores de a y b que minimicen H(a, b) serán los que anulen

las derivadas parciales:

∂H ⎫ ⎫
= −2 ∑ ( y i − ( a + bxi )) = 0 ⎪ ∑ y i = N ⋅ a + b ∑ xi
N N N

∂a ⎪
i =1
⎬ ⇒ N
i =1 i =1

∂H N N

= −2 ∑ ( y i − ( a + bxi ))xi = 0 ⎪ ∑ xi y i = a ∑ xi + b ∑ xi ⎪
N
2

∂b i =1 ⎭ i =1 i =1 i =1 ⎭
SISTEMA DE ECUACIONES NORMALES

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
190 Análisis de Regresión.

La resolución del sistema de ecuaciones anterior da los siguientes valores

para los parámetros a y b:


s XY
b= 2 a = y −b⋅ x
sX
Se demuestra además que son un mínimo: (Cf.: ESTEBAN, J.; y otros.: “Estadística Descriptiva y

nociones de Probabilidad”, Ed. Thomson, 2005, 2006 segunda impresión, páginas 156-157).

Por tanto la recta de regresión de Y sobre X que mejor ajusta a la nube


N
de puntos ( xi , y i )i =1 es:

⎧ s XY
⎪b = 2
y ∗ = a + bx ⎨ sX
⎪a = y − bx

Expresión que se utilizará para dar la recta de regresión.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 191

INTERPRETACIÓN DE LOS PARÁMETROS a y b: y ∗ = a + bx

a = y −b⋅ x representa el valor de la ordenada Y en el origen.

COEFICIENTE DE REGRESIÓN: representa la variación experimentada por


la variable Y para un incremento unitario de X. Por cada incremen-
s XY
b= 2 to unitario de la variable X, la variable Y cambia su valor b unida-
sX
des (de promedio).
(También es la pendiente de la recta).

Ejemplo 5.1.
(a partir de los datos del problema 4.1.)

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
192 Análisis de Regresión.

OTRAS EXPRESIONES PARA LA RECTA DE REGRESIÓN de Y sobre X:

Sustituyendo los valores obtenidos de a y b en y ∗ = a + bx queda:

s XY
y = a + bx = y − bx + bx = y + 2 ( x − x )

sX
s XY sY
rXY = ⇒ y = y + rXY ( x − x )

s X sY sX
PREDICCIÓN.

Con la recta de regresión de Y sobre X, y ∗ = a + bx , se pueden obtener va-


lores de predicción de Y, y∗ sustituyendo en la ecuación el valor “x” de X.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 193

EJEMPLO DE RECTA DE REGRESIÓN DE Y SOBRE X. PRÁCTICA.


Obténgase la recta de regresión mínimo – cuadrática ajustada a los tres da-
tos bivariantes que aparecen en el siguiente gráfico:

Regresión de Y sobre X

6 y* = 1+0,5x
5 R2 = 0,75 7; 5

4
Y3 1; 2

2 4; 2

1
0
0 1 2 3 4 5 6 7 8
X

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
194 Análisis de Regresión.

REGRESIÓN DE X SOBRE Y.

Si quisiéramos obtener valores de predicción de X, x∗ a partir de valores de

la variable Y “y” se necesitaría la recta de regresión de X sobre Y:


x ∗ = a ′ + b′y .
Para obtener esta recta se permutarían los papeles de las variables X e Y.
Ahora Y sería la variable independiente (control) y X la variable dependiente
(respuesta).
En este caso la suma de los cuadrados de los residuos sería:
N
e = ∑ ( xi − x ) = ∑ ( xi − ( a ′ + b′y i ))
N N

∑ ∗
2 2 2
i i
MÍNIMA
i =1 i =1 = i 1

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 195

Al minimizar la expresión anterior se obtendrían los parámetros a’ y b’:

⎧ ′ s XY
⎪b = 2
x = a ′ + b′y ⎨

sY
⎪⎩a ′ = x − b′y

s XY COEFICIENTE DE REGRESIÓN de X sobre Y: representa la va-



b = 2
sY riación experimentada por la variable X para un incremento unita-
rio de Y.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
196 Análisis de Regresión.

OTRAS EXPRESIONES PARA LA RECTA DE REGRESIÓN de X sobre Y:

Sustituyendo los valores obtenidos de a’ y b’ en x ∗ = a ′ + b′y queda:

s XY
x = a ′ + b′y = x − b′y + b′y = x +

2
(y− y)
sY
s XY sX
rXY = ⇒ x = x + rXY ( y − y )

s X sY sY

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 197

RELACIÓN ENTRE LA REGRESIÓN Y LA CORRELACIÓN LINEALES.


s XY ⎫
b= 2 ⎪
sX ⎪
⎬ ⇒ rXY = b ⋅ b′
s XY ⎪

b = 2
sY ⎪⎭
Teniendo en cuenta que el signo de rXY sería el mismo que el de b y b’.
PROPIEDADES DE LAS RECTAS.

sY sX
y = y + rXY ( x − x )

y x = x + rXY ( y − y )

sX sY
¾ Se cruzan en el punto ( x , y ) (si se representan en unos mismos ejes coordenados (X, Y)).
¾ Son perpendiculares si rXY = 0 , y∗ = y x∗ = x
¾ Son iguales si rXY = ±1.
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
198 Análisis de Regresión.

EJEMPLO DE LAS DOS RECTAS DE REGRESIÓN. PRÁCTICA.


Determínese la recta de regresión mínimo – cuadrática de X/Y ajustada a los
tres datos bivariantes del siguiente gráfico. (Es el mismo que el de Y/X de la pag. 180).

Dos rectas de regresión

5 x* = -0,5+1,5y 7; 5

4
medias; (4; 3)
Y3 y* = 1+0,5x
1; 2
2 4; 2

0
0 1 2 3 4 5 6 7 8
X

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 199

5.3. ANÁLISIS DE LA BONDAD DE UN AJUSTE: CASO LINEAL.

Coeficiente de determinación.

Sea ( X ,Y ) : ( xi , y i )iN=1 una serie de datos bivariantes.

Supongamos que se ha obtenido una ecuación de regresión de Y sobre X


y ∗ = f ( x ). Con esta ecuación se obtienen valores de predicción de Y, y i∗ .
El análisis de la bondad de un ajuste consiste en obtener una medida de la

similitud de los valores reales de la variable Y : ( yi ) con los estimados de la


variable Y ∗ : ( y i∗ ), variable de la regresión. En la comparación de estos va-

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
200 Análisis de Regresión.

lores jugará un papel esencial la variable que conforman los residuos

E : (ei = y i − y i∗ ), variable residual.

Se partirá de la siguiente relación: los valores de la variable dependiente

Y : ( yi ) se pueden descomponer en y i = y i∗ + ei y la medida de la bon-

dad del ajuste se obtendrá de la comparación de la variabilidad de esas tres

variables: Y : ( yi ) Y ∗ : ( y i∗ ) E : (ei = y i − y i∗ ).

Para ello se estudiará el aspecto de sus medias y varianzas, que dependerán


del tipo de ecuación de regresión que ajustemos.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 201

VARIABLE Y

Valores yi Media y
Varianza
1 N
s = ∑ ( yi − y )2
2
Y
N i =1

VARIABLE REGRESIÓN Y* VARIABLE RESIDUAL E = Y-Y*

Valores y i∗ = f ( x ) Media y∗ Valores ei = y i − y i∗ Media e


Varianza de la regresión Varianza residual
1 N ∗ 1 N
s = ∑ ( yi − y ∗ )2
2
Y*
s = ∑ ( ei − e ) 2
2
E
N i =1 N i =1
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
202 Análisis de Regresión.

CASO LINEAL: BONDAD DEL AJUSTE.


En el caso lineal, la recta de regresión de Y sobre X es:

s XY
y = a + bx

siendo b= 2 a = y −b⋅ x
sX
La media e y la varianza s E2 de la variable residual E = Y −Y ∗ tienen el si-

guiente aspecto:

La variable residual E = Y − Y ∗ = Y − ( a + bX ) = Y − bX − a , es decir, es


combinación lineal de X e Y, por tanto:
e = y −b⋅ x − a = y −b⋅ x −( y −b⋅ x ) = 0
2 2
s s s
s E2 = sY2 + b 2 s X2 − 2bs XY = sY2 + 2XY 2 s X2 − 2 XY2 s XY = sY2 − XY2
( sX ) sX sX

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 203

Es decir:

e =0
2
s
s E = sY − XY2
2 2

sX
Por otra parte, la media y∗ y la varianza sY2* de la variable de la regresión

Y∗ toman el siguiente aspecto en la regresión lineal:

La variable de la regresión Y ∗ = a + bX , es una transformación lineal de X


por tanto:

y = a + bx = y − bx + bx = y
∗ y∗ = y
2
s 2
s 2
es decir: s
sY2* = b 2 s X2 = 2XY 2 s X2 = XY2 sY * = XY2
2

( sX ) sX sX
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
204 Análisis de Regresión.

Por tanto en la regresión lineal de Y sobre X, las medias y varianzas de las


variables implicadas en el estudio quedan:

VARIABLE de la regresión Y∗ VARIABLE residual E


VARIABLE Y
y∗ = y e =0
media y
1 N ∗ 1 N
1 N s 2
= ∑ ( y − y ) 2
s = ∑ ( y i − y i∗ ) 2
2

sY2 = ∑ ( y i − y ) 2
Y* i E
N i = 1 N i =1
N i =1 s 2
s 2

varianza total sY2* = XY2 s E2 = sY2 − XY2


sX sX
varianza de la regresión varianza residual
Es decir, que se obtiene la siguiente relación entre las varianzas:

s =s −s ⇒ s =s +s
2
E
2
Y
2
Y*
2
Y
2
Y∗
2
E

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 205

Esta relación nos permite descomponer la variabilidad total de los valores

reales de Y : ( yi ) en la variabilidad de los valores de Y ∗ : ( y i∗ ) (obtenidos a


partir de X con la recta de regresión y i∗ = a + bxi ) y la variabilidad de los
residuos E : (ei = y i − y i∗ ).

Obviamente cuanto menor sea la varianza residual s E2 mejor será el

ajuste.

Si s E2 = 0 el ajuste será óptimo y si s E2 = sY2 (su valor máximo) el

ajuste será pésimo.

El peso de estas varianzas en la relación anterior se medirá mejor con un


indicador de tipo relativo.
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
206 Análisis de Regresión.

EL COEFICIENTE DE DETERMINACIÓN R2.


Expresamos en términos relativos la relación entre las tres varianzas:
2 2 2 2 2
s s s s s
sY = sY ∗ + s E ⇒ Y2 = Y2∗ + E2 ⇒ 1 = Y2∗ + E2
2 2 2

sY sY sY sY sY
sY2∗
El primer cociente representa la parte de la variabilidad de
sY2
Y : ( yi ) explicada por la regresión.
2
s E
El segundo conciente 2 , complementario del anterior, representa la
s Y

parte de la variabilidad de Y : ( yi ) que queda por explicar.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 207

El coeficiente de determinación se define precisamente a partir de esas rela-


2 2
s s
ciones: R 2 = Y2∗ = 1 − E2
sY sY
PROPIEDADES DE COEFICIENTE.
En general, en los tipos de regresiones donde se cumpla la relación

entre varianzas sY2 = sY2∗ + s E2 , se define el coeficiente de determinación


2
s
de esta forma: R 2 = 1 − E2 .
sY
0 ≤ R 2 ≤ 1: se deduce fácilmente de la definición, teniendo en cuenta
que 0 ≤ s E2 ≤ sY2 y que es cociente de varianzas (siempre positivas).

R2 proporciona una medida de la bondad del ajuste.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
208 Análisis de Regresión.

Interpretación del coeficiente:

s 2
⎧ R 2
= 0 ⇒ s 2
= s 2
(residuo máximo) → ajuste pésimo
R = 1− 2 ⇒ ⎨ 2
2 E E Y

sY ⎩ R = 1 ⇒ s 2
E
= 0 ajuste óptimo

R 2 × 100 mide el porcentaje de la variabilidad de la variable depen-

diente Y : ( yi ) que explica la regresión Y ∗ : ( y i∗ = a + bx i ). Dicho de

otra forma: en qué medida la información de la variable X (variable


independiente) determina los valores de Y (variable dependiente) a
través de la ecuación de regresión y ∗ = f ( x ).
X ⇒ ( y ∗ = f ( x )) ⇒ Y
2
En este sentido se interpreta también R como una medida de la ca-
pacidad explicativa de la ecuación de regresión.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 209

EL COEFICIENTE DE DETERMINACIÓN EN LA REGRESIÓN LINEAL.


Teniendo en cuenta que en la regresión lineal:
2
s s 2
s XY
s E2 = sY2 − XY2 sY2* = XY2 y el coeficiente de correlación rXY =
sX sX s X sY
2 2
s s
⇒ R 2 = Y2∗ = 2XY 2 = rXY2
sY s X sY
Es decir, en la regresión lineal el coeficiente de determinación coincide con
el de correlación lineal al cuadrado.
Además las varianzas de la regresión y residual se pueden determinar tam-

bién en función de rXY2 :


s 2
Y*
= r ⋅s2
XY
2
Y
s = (1 − r )⋅ s
2
E
2
XY
2
Y

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
210 Análisis de Regresión.

Por tanto la BONDAD DEL AJUSTE en la regresión lineal se medirá a partir

de R 2 = rXY2 , coeficiente de determinación:

rXY2 × 100 mide el porcentaje de la variabilidad de la variable depen-


diente Y : ( yi ) que explica la regresión Y ∗ : ( y i∗ = a + bxi ).
( 1 − rXY2 ) × 100 representa el porcentaje de la variabilidad de

Y : ( yi ) que queda por explicar (residuo).


Ejemplo 5.2.

Cotas del coeficiente de correlación: el coeficiente de correlación lineal

rXY está acotado entre -1 y 1 ya que:

0 ≤ R 2 ≤ 1 → 0 ≤ rXY2 ≤ 1 → −1 ≤ rXY ≤ 1.
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 211

5.4. Regresión no lineal: potencial y exponencial.

Dada una serie de datos bivariantes ( X ,Y ) : ( xi , y i )iN=1 , si el tipo de función


elegida y* = f ( x ) para relacionar las variables X e Y es una función poten-
cial o exponencial, su ecuación en forma explícita tendrá el aspecto:

Ajuste potencial ⇒ y ∗ = a ⋅ x b a y b parámetros.

Ajuste exponencial ⇒ y ∗ = a ⋅ b x a y b parámetros.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
212 Análisis de Regresión.

AJUSTE POR UNA FUNCIÓN POTENCIAL.

y∗ = a ⋅ xb
Para determinar los parámetros a y b, se procede como sigue.
La expresión y∗ = a ⋅ xb se reduce a forma lineal tomando logaritmos:

ln y * = ln a + b ⋅ ln x .
Sobre la expresión anterior se opera un ajuste lineal:

u = ln x ⎫
v = ln y ⎪⎪
llamando ∗⎬
⇒ v ∗
= A + b ⋅u, es decir, se obtiene la
v = ln y ⎪

A = ln a ⎪⎭
recta de regresión de V sobre U.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 213

Se obtienen A y b ajustando una recta por mínimos cuadrados a la va-


riable ( U ,V ) ≡ (ln X ,ln Y ):
sUV
b= 2 A = v − b⋅u .
sU
Finalmente se determina el parámetro a:
A = ln a ⇒ a = anti ln A ⇒ a = e A .

Ejemplo 5.4.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
214 Análisis de Regresión.

AJUSTE POR UNA FUNCIÓN EXPONENCIAL.

y∗ = a ⋅ bx
Para determinar los parámetros a y b, se procede como sigue.
La expresión y∗ = a ⋅ bx se reduce a forma lineal tomando logaritmos:

ln y * = ln a + x ⋅ ln b .
Sobre la expresión anterior se opera un ajuste lineal:

v = ln y ⎫
v ∗ = ln y ∗ ⎪⎪
llamando ⎬ ⇒ v ∗
= A + Bx , es decir, se obtiene la
A = ln a ⎪
B = ln b ⎪⎭
recta de regresión de V sobre X.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 215

Se obtienen A y B ajustando una recta por mínimos cuadrados a la

variable ( X ,V ) ≡ ( X ,ln Y ):
s XV
B= 2 A = v − B⋅ x.
sX
Finalmente se determinan los parámetros a y b:
A = ln a ⇒ a = anti ln A ⇒ a = e A
.
B = ln b ⇒ b = anti ln B ⇒ b = e B

Ejemplo 5.5.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
216 Análisis de Regresión.

Conceptos clave.
Ajuste
Bondad de ajuste
coeficiente de determinación.
Coeficiente de regresión.
Correlación
Error cuadrático medio (ECM).
Principio mínimos cuadrados.
Recta de regresión mínimo-cuadrática
Regresión
Regresión no lineal
Residuo
Varianza de la regresión
Varianza residual

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 217

EJEMPLOS
Ejemplo 5.1. Se ha estudiado las calificaciones de 100 alumnos en dos
asignaturas: Estadística (variable X) y Matemáticas Financieras (variable Y),
obteniéndose los siguientes datos: x =110 y = 2,5 SX =10 SY = 0,5
Además se sabe que el coeficiente de correlación entre ambas es rXY = 0,85.
Obtener la recta de regresión de Y/X.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


218 Análisis de Regresión.

Ejemplo 5.2. Analizar la bondad de los ajustes efectuados en el ejemplo


anterior calculando la varianza residual, la varianza de la regresión y el co-
eficiente de determinación. (Capacidad explicativa de la recta de regresión).

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 219

Ejemplo 5.3. En la estimación de los parámetros de un modelo de regresión


lineal se han obtenido los siguientes valores:

x=5 y=8 s XY = 15 s = 20 r = 0 ,9
2
Y
2

A partir de los datos anteriores determínese:


1. La varianza de X
2. La recta de regresión X/Y
3. La recta de regresión Y/X.

Solución: 1) 12,5 2) a’=-1, b’=0,75 3) a =2, b =1,2

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


220 Análisis de Regresión.

Ejemplo 5.4. Dada la siguiente distribución bidimensional:

X 1 2 6 6

Y 4 33 260 840

Realizar un ajuste potencial del tipo yi* = a x ib

Solución: yi* = 4 x i3

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 221

Ejemplo 5.5. Dada la siguiente distribución bidimensional

X 1 2 3 4

Y 2 4 8 16

Se pide:

a) Realizar un ajuste exponencial del tipo y* = a ⋅ b x


b) El error cuadrático medio e interpretar el resultado obtenido.

Solución: a)y = 2 * x
b ) ECM = 0

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


222 Análisis de Regresión.

Ejemplo 5.6. A partir de los siguientes datos de las variables X1, X2 y X3,
obtener:
X1 X2 X3
1 3 1
2 0 2
3 1 -1
4 -1 -1

a) El plano de regresión de X1/X2,X3 y la bondad del ajuste efectuado.


b) La matriz de correlación.
c) El coeficiente de correlación parcial entre X1 y X2.

Solución: a) X1* = 3 - 0,5 X2 –0,5 X3 RX2 1


=1 c) r12.3= -1

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


TEMA 6
TASAS DE VARIACIÓN Y
NÚMEROS ÍNDICES
224 Tasas de Variación y Números Índice.

Ficha del tema 6.

Objetivos de aprendizaje.
Bibliografía básica para complementar el tema.
Programación de la guía didáctica:
6.1. Introducción.
6.2. Tasas de variación.
6.3. Números Índices: clasificación y propiedades.
6.4. Índices de precios y cantidades más importantes.
6.5. Cambio de base, renovación y enlace.
6.6. Deflactación de series estadísticas.
Conceptos clave.
Ejemplos.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 225

OBJETIVOS DE APRENDIZAJE.
Definir el concepto de número índice y tasa de variación.

Estudiar los tipos de números índices complejos más relevantes tipo Laspey-
res y Paasche, haciendo especial hincapié en los índices de precios.

Acercar el período de referencia o la base de una serie de índices al período


actual, operando cambios de base.

Enlace de series de índices utilizando el cambio de base.

Deflactación de magnitudes económicas expresadas en u.m. corrientes, utili-


zando índices de precios.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
226 Tasas de Variación y Números Índice.

BIBLIOGRAFÍA BÁSICA (teoría y problemas)

ESTEBAN, J.; y otros.: “Estadística Descriptiva y nociones de Probabili-


dad”, Ed. Thomson, 2005.

Tema 5 para tema 6. (Con ejercicios, cuestiones de autoevaluación y


problemas resueltos y propuestos).

MONTIEL, A.M.; RIUS, F.; BARÓN F.J.: “Elementos básicos de Estadística


Económica y Empresarial”, Ed. Prentice Hall, Madrid 1997.

Capítulo 7.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 227

6.1. INTRODUCCIÓN.
Los instrumentos que se van a definir, servirán para medir la evolución del
valor de una variable en el tiempo o en el espacio.
Normalmente se tratará de variables de tipo socioeconómico. Una variable
de esta naturaleza se denominará “magnitud”.
Se comparará el valor de una magnitud en dos situaciones (habitualmente
temporales):

Situación inicial: período de referencia o BASE, se denotará por “0”

Situación final: período actual que se pretende comparar con el base,


se denotará por “t”

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
228 Tasas de Variación y Números Índice.

TIPOS DE MAGNITUDES:
MAGNITUD SIMPLE: variable unidimensional

Y → valores : y0 , y1 ,... , yt ,..., yT


períodos : t = 0 ,1, 2 ,... ,T

MAGNITUD COMPLEJA: variable n – dimensional

(Y ,Y ,...,Y ,...,Y )
1 2 i n

valores : período 0 → ( y10 , y20 ,..., yi 0 ,..., yn 0 )

período t → ( y1t , y2 t ,..., yit ,..., ynt )

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 229

6.2. TASA DE VARIACIÓN.

Sea Y magnitud simple y sean los valores y0 , yt −1 e yt .

• y t − y t −1 yt
Tasa de variación de (t −1) → t TV t
t −1
=Yt = = −1
y t −1 y t −1

y t − y0 y t
Tasa de variación de 0→t TV = 0
t
= −1
y0 y0
TASAS DE VARIACIÓN EN TANTO POR UNO
(X 100) EN PORCENTAJE

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
230 Tasas de Variación y Números Índice.

6.3. NÚMEROS ÍNDICES. CLASIFICACIÓN Y PROPIEDADES.

6.3.1 Definición y clasificación.


NÚMERO ÍNDICE: medida estadística de tipo relativo (en tanto por uno o
porcentaje) que sirve para comparar el valor de una magnitud (variable) en
dos situaciones, una de las cuales se considera de referencia (base).
Los números índices se escriben en PORCENTAJE, tomando como referencia
el 100.

⎧SIMPLES

NÚMEROS ÍNDICES ⎨ ⎧SIN PONDERAR
COMPLEJOS ⎨
⎪⎩ ⎩PONDERADOS (ponderaciones ω )
i

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 231

6.3.2. Índices simples

Sea Y una magnitud simple y sean y0 e y t el valor de la magnitud en el pe-

ríodo BASE y el período ACTUAL.


Se denotará el ÍNDICE SIMPLE del período 0 al período t por:

yt
I = t
0 (en tanto por uno).
y0
Los números índices se escriben en porcentaje:

I 0t × 100 (en porcentaje).

Relación entre la tasa de variación y en número índice:

yt − y0 yt
TV = 0
t
= − 1 = I 0t − 1
y0 y0

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
232 Tasas de Variación y Números Índice.

NOTA: las series de índices se suelen expresar de dos formas fundamental-


mente:

INDICES CON BASE FIJA “0”: I 0t

ÍNDICES EN CADENA: I tt−1 (con base el año inmediatamente ante-

rior).

Ejemplo 6.1.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 233

6.3.3. Índices complejos.

Dada una magnitud compleja (Y ,Y ,...,Y ,...,Y ), sean dos valores de esa
1 2 i n

magnitud en el período “0” y en el período “t”:

0 → ( y10 , y 20 ,..., y i 0 ,..., y n 0 )


.
t → ( y1t , y 2 t ,..., y it ,..., y nt )

Destacamos dos formas de definir INDICES COMPLEJOS:


1. Como MEDIA ARITMÉTICA de índices simples.
2. Como MEDIA AGREGATIVA.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
234 Tasas de Variación y Números Índice.

y it
Si se denota por Ii = I ( i ) =
t
0
el índice simple de los valores de la varia-
yi 0
ble i – ésima (i = 1, 2,…, n), las formas de definir índices complejos SIN
PONDERAR y PONDERADOS quedan como siguen:
INDICES COMPLEJOS SIN PONDERAR.

1 n 1 n y it
1. MEDIA ARITMÉTICA de índices simples: I = ∑ Ii = ∑
n i =1 n i =1 y i 0
n

∑y it

2. MEDIA AGREGATIVA: IA = i =1
n

∑y
i =1
io

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 235

ÍNDICES COMPLEJOS PONDERADOS.

Se denotará por ω i la ponderación de la variable i – ésima de la magnitud

compleja.

Iω =
∑ Iω
i i
1. MEDIA ARITMÉTICA ponderada:
∑ω i

IAω =
∑ y it
ωi
2. MEDIA AGREGATIVA ponderada:
∑y i0
ωi

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
236 Tasas de Variación y Números Índice.

6.3.4. Propiedades.

1. EXISTENCIA: el valor de un índice ha de ser finito y distinto de cero.

2. IDENTIDAD: cuando 0≡t el índice ha de ser 1 (o 100) I 00 = I tt = 1


1
3. INVERSIÓN: Dado I →I = t
t
0 t
0

I0
y t ⇒ y t' = y t + kyt = ( 1 + k ) y t
4. PROPORCIONALIDAD:
I 0t' = ( 1 + k )I 0t
5. CÍCLICA: dados tres períodos (o más) distintos “0, h y t” se ha de cum-

plir que I 0h I ht = I 0t . Esta propiedad se utilizará para operar con ÍNDICES

EN CADENA (índices con base el período inmediatamente anterior).

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 237

6.4. ÍNDICES DE PRECIOS Y CANTIDADES.

Se van a definir índices complejos ponderados para magnitudes tipo


PRECIO Y CANTIDAD utilizando la siguiente notación:

p it
Magnitud PRECIO: Pi ( i = 1,2 ,...,n ) con índice SIMPLE I (i ) =
t
0
pi0
qit
Magnitud CANTIDAD: Qi ( i = 1,2 ,...,n ) con índice SIMPLE I (i ) =
t
0
qi 0
Se destacarán los dos tipos de índices complejos ponderados más im-
portantes para precio y cantidad: TIPO LASPEYRES y TIPO PAASCHE,
que serán medias aritméticas ponderadas de índices simples.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
238 Tasas de Variación y Números Índice.

También se definirá un índice complejo de VALOR sin ponderar:

vit pit qit


Magnitud VALOR: Vi ( i = 1,2 ,...,n ) con índice SIMPLE I (i ) =
t
0
=
vi 0 p i 0 q i 0

Se definirá el índice complejo de valor como una media agregativa sin pon-
derar.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 239

6.4.1. Índices de PRECIOS complejos ponderados.

PONDERACIÓN TIPO LASPEYRES: ponderación fija ωi = pi 0 qi 0


PONDERACIÓN TIPO PAASCHE: ponderación variable ωi = pi 0 qit
ÍNDICE DE LASPEYRES DE PRECIOS ÍNDICE DE PAASCHE DE PRECIOS

p it p it
∑ pi 0 qi 0 ∑ p i 0 q it
L0 ( P ) =
t ∑ I 0 ( i )ωi
t

=
pi 0
P0 ( P ) =
t ∑ I 0 ( i )ωi
t

=
pi0
∑ ωi ∑ pi 0 qi 0 ∑ ωi ∑ p i 0 q it

L (P)=
t ∑ p q it i0
P (P)=
t ∑ p q it it

∑p q ∑p q
0 0
i0 i0 i0 it

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
240 Tasas de Variación y Números Índice.

6.4.2. Índices de CANTIDAD complejos ponderados.

PONDERACIÓN TIPO LASPEYRES: ponderación fija ωi = q i 0 p i 0


PONDERACIÓN TIPO PAASCHE: ponderación variable ωi = q i 0 p it
ÍNDICE DE LASPEYRES DE CANTIDAD ÍNDICE DE PAASCHE DE CANTIDAD

q it q it
∑ qi 0 pi 0 ∑ q i 0 p it
L0 ( Q ) =
t ∑ I 0 ( i )ωi
t

=
qi 0
P0 ( Q ) =
t ∑ I 0 ( i )ωi
t

=
qi0
∑ ωi ∑ qi 0 pi 0 ∑ ωi ∑ q i 0 p it

L (Q ) =
t ∑ q p it i0
P (Q )=
t ∑ q p it it

∑q p ∑q p
0 0
i0 i0 i0 it

Ejemplo 6.2.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 241

6.4.3. Índice complejo de valor.


Se define el índice complejo de valor como una media agregativa: cociente
entre el valor de la magnitud compleja en el período “t” (actual) y el valor
de la magnitud compleja en el período “0” (referencia).
ÍNDICE DE VALOR

IV =
t ∑ v
=
∑ p q
it it it

∑v ∑ p q
0
i0 i0 i0

PROPIEDAD: INDICE DE PRECIO X ÍNDICE DE CANTIDAD = ÍNDICE DE VALOR.


Concretamente es fácil comprobar que se cumple la siguiente relación entre
los índices de Laspeyres y Paasche:

Lt0 ( P ) × P0t ( Q ) = Lt0 ( Q ) × P0t ( P ) = IV0t


Comprobar en Ejemplo 6.2.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
242 Tasas de Variación y Números Índice.

6.5. CAMBIO DE BASE, RENOVACIÓN Y ENLACE.

Sea una serie de índices I 0t con base fija en el período “0”, es decir,

I 00 = 100 .
Si se quiere cambiar la base de la serie de índices del período “0” a un pe-
ríodo “h” posterior (h>0) se procederá como sigue:

Teniendo en cuenta la propiedad cíclica para los períodos “0”, “h” y “t”

se tiene la siguiente relación: I 0h ·I ht = I 0t .

Por tanto los nuevos índices con base el período “h” se obtendrán:

I t

0 → h I ht = 0h
I0

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 243

Al índice que relaciona las dos bases se le denomina ENLACE I 0h .

Obviamente si se quisiera devolver la base del período “h” al “0” se

procedería: h → 0 I 0h ·I ht = I 0t

Los cambios de base se utilizan para RENOVAR la base (acercarla a un


período más actual) o para ENLAZAR O EMPALMAR series de índices
que aparecen en distintas bases y expresarlos en una ÚNICA base.

Ejemplo 6.3. PROBLEMA 6.2

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
244 Tasas de Variación y Números Índice.

6.6. DEFLACTACIÓN.
Concepto: transformar el valor de una magnitud en precios corrientes
del período “t” (valor nominal) a un valor en precios constantes de un
período fijo “0” (valor real).

De esta forma se puede comparar de una manera más homogénea y


realista como va evolucionando el valor de una magnitud en diferentes
períodos de tiempo.

Esto se consigue dividiendo el valor a precios corrientes por un índice


de precios adecuado que denominaremos DEFLACTOR.

valor a precios corrientes(t)


= valor a precios constantes (0)
deflactor ( índice de precios base período 0)

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 245

Con índices simples la operación es obvia:

¾ Si llamamos vt = pt q t al valor de la cantidad qt de la magnitud a precios

corrientes del período “t” (NOMINAL).

¾ Llamamos v ot = p0 q t al valor de la misma cantidad qt, pero a precios

del período “0” (REAL).

pt
¾ Y llamamos I =
t
0
al índice de precios del período 0→t se tiene que:
p0

vt pt qt
vt → v ot = = p 0 q t = v ot .
I0
t
pt
p0
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
246 Tasas de Variación y Números Índice.

Deflactación con índices de precios complejos (Laspeyres y Paasche)

n
¾ Sea Vt = ∑ p it q it el valor de una magnitud compleja a precios corrien-
i =1
tes del período “t”.
n
¾ Sea V0 t = ∑ p i 0 q it el valor de la magnitud compleja a precios constan-
I =1
tes del período “0”.
ÍNDICE DE PRECIOS DE PAASCHE COMO DEFLACTOR

Vt
=
∑ p it q it
= ∑ p i 0 q it = V0 t
P0 ( P ) ∑ p it q it
t

∑ p i 0 q it
ES UN DEFLACTOR EXPLÍCITO
Se obtiene el valor de la magnitud a precios constantes del período “0”.
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 247

Se puede comprobar fácilmente que si se deflacta con el índice de precios de


LASPEYRES el resultado no es tan explícito pero se utiliza igualmente.

Ejemplo 6.5.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
248 Tasas de Variación y Números Índice.

Conceptos clave:
Cambio de base.
Deflactación.
Índice de Laspeyres.
Índice de Paasche.
Índice simple y complejo.
Índices de precios.
Índices en cadena.
Número índice.
Período base.
Serie de índices con base fija.
Tasa de variación.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 249

EJEMPLOS.

Ejemplo 6.1. Los salarios anuales (en euros) de los oficiales administrativos
en una empresa han evolucionado durante el período 2001-2005 de la forma
siguiente:

Salarios a) Construye una tabla de índices simples salariales


Años Anuales con base el año 2001.
b) Construye otra serie de índices con base el año in-
2001 15.350,00
mediatamente anterior.
2002 15.887,25 c) Por último construye otra tabla que indique la tasa
2003 16.363,87 de variación del salario anual respecto al año inme-
2004 17.018,42 diatamente anterior.
2005 17.648,10

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


250 Tasas de Variación y Números Índice.

Ejemplo 6.2. Una empresa fabrica tres tipos de artículos: A, B y C. La si-


guiente estadística nos proporciona los precios y las cantidades producidas
de dichos artículos durante los años 1990-1992.

Años 1990 1991 1992


Artículo pi0 qi0 pit qit pit qit
A 2 10 2 15 4 20
B 5 12 6 10 8 5
C 3 5 6 8 9 10

a) s de Laspeyres y Paasche de 1991 y 1992, tomando como base 100 el


año 1990.
b) Compruébese que: L p × Pq = Pp × Lq

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 251

Ejemplo 6.3. Los siguientes índices salariales reflejan la evolución de los


salarios en un determinado sector durante 7 años, consecuencia de las ne-
gociaciones entre los sindicatos y los empresarios del sector:

a) Expresa la serie de índices con base el año


Índice 1998
años Base 95
b) Expresa los índices con base el año inmediata-
1995 100,00 mente anterior
1996 105,00 c) ¿Qué porcentaje aumentaron los salarios del 95
al 96?
1997 109,20 d) ¿Qué porcentaje aumentaron los salarios del 95
1998 113,02 al 98?
1999 117,54 e) ¿Y del 2000 al 2001?
2000 121,07
2001 124,10

Solución: c) el 5% d) el 13,02% e) el 2,5%

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


252 Tasas de Variación y Números Índice.

Ejemplo 6.4. El valor de un bien en 1992 es un 20% superior al que tenía


en 1986 y un 9% superior a su valor en 1990. ¿Cuál era el valor relativo de
ese bien en 1990 respecto a 1986?

Solución: un 10% superior, I 86 = 1,10


90

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 253

Ejemplo 6.5. El salario mínimo interprofesional, en euros corrientes, ha su-


frido las siguientes variaciones durante el período 2001 – 2006:
Años 2001 2002 2003 2004 2005 2006
Salario mínimo 433,45 442,20 451,20 460,50 513,00 540,90
Si el I.P.C. durante esos mismos años fue:
(Fuente: Boletín de Estadísticas Labo-
Años 2001 2002 2003 2004 2005 2006
rales. Ministerio de Trabajo y Asuntos
I.P.C. 100,00 103,54 106,68 109,93 113,63 117,62 Sociales. Contacto: www.ine.es)

Estúdiese la evolución del salario mínimo en términos reales y nominales du-


rante el período 01 – 06. (En valor absoluto y en porcentaje).

Obténgase la tasa de variación interanual del salario (real y nominal).

Solución: El salario mínimo pasa de 433,45 € a 459,87 € constantes


del 01, lo que, en términos relativos, equivale a un aumento del
6,1%.
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


254 Tasas de Variación y Números Índice.

Ejemplo 6.6. Las pensiones se revalorizan anualmente según la expectativa


de crecimiento del IPC nacional. Si una pensión es de 540 euros/mes en el
año actual y la inflación esperada para el año que viene es del 3,2%, ¿cuál
deberá ser el importe de dicha pensión el año próximo?

Solución: 557,28 €

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


TEMA 7
ANÁLISIS CLÁSICO DE
SERIES TEMPORALES
256 Análisis Clásico de Series Temporales.

Ficha del tema 7.

Objetivos de aprendizaje.
Bibliografía básica para complementar el tema.
Programación de la guía didáctica:
7.1. Introducción.
7.2. Componentes de una serie. Descomposición.
7.3. Análisis de la tendencia.
7.4. Análisis de la variación estacional. Desestacionalización.
7.5. Predicción. Corrección por estacionalidad.
Conceptos clave.
Ejemplos.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 257

OBJETIVOS DE APRENDIZAJE.
Descomposición de una serie temporal en cuatro componentes siguiendo un
esquema multiplicativo.

Obtención de la ecuación de tendencia anual aplicando el principio de míni-


mos cuadrados a la serie temporal (t, Y).

Obtención de la ecuación de tendencia k – esimal a partir de la anual. Cam-


bios de origen en las ecuaciones de tendencia.

Utilidad de las ecuaciones de tendencia para hacer predicciones.

Los índices de variación estacional (IVE) como indicadores de la componente


estacional de una serie, bajo hipótesis de estacionalidad estable.

Utilidad de los IVE para corregir por estacionalidad las predicciones de la


tendencia.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
258 Análisis Clásico de Series Temporales.

BIBLIOGRAFÍA BÁSICA (teoría y problemas)

ESTEBAN, J.; y otros.: “Estadística Descriptiva y nociones de Probabili-


dad”, Ed. Thomson, 2005.

Tema 6 para tema 7. (Con ejercicios, cuestiones de autoevaluación y


problemas resueltos y propuestos).

MONTIEL, A.M.; RIUS, F.; BARÓN F.J.: “Elementos básicos de Estadística


Económica y Empresarial”, Ed. Prentice Hall, Madrid 1997.

Capítulo 8 para tema 7.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 259

7.1. INTRODUCCIÓN.

Una SERIE TEMPORAL se puede definir como una sucesión de valores orde-
nados en el tiempo y generados por una variable cuya referencia es una
unidad temporal.

A la variable objeto de estudio se la denomina VARIABLE DE INTERÉS: Y.


A la variable tiempo se la representará por: t.

Se considerará al par (t ,Y ) como una variable estadística bidimensional y a


un valor de Y en el tiempo t se denotará por yt.

( t , y ) → yt
Ejemplo 7.1.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
260 Análisis Clásico de Series Temporales.

7.2. COMPONENTES DE UNA SERIE TEMPORAL.


El análisis clásico de series temporales distingue cuatro componentes para el
estudio descriptivo de la misma.

1. TENDENCIA Tt : dirección que toma la serie temporal al largo plazo, es

decir, si crece, decrece o permanece estable en largos períodos de tiempo


y sin oscilaciones.

2. CÍCLICA Ct : fluctuaciones de la serie en períodos de tiempo superiores

al año (CICLOS o variaciones cíclicas).

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 261

3. ESTACIONALIDAD S t : movimientos oscilatorios de la variable de interés

Y en períodos inferiores al año. (Variaciones estacionales). Cuando son


repetitivos cada año se habla de la regularidad de la componente estacio-
nal (estacionalidad estable).

4. IRREGULAR It o variaciones irregulares: recoge los movimientos de la

variable de interés que no explican el resto de componentes (deficiencias


del modelo).
DESCOMPOSICIÓN DE UNA SERIE TEMPORAL.

MODELO ADITIVO: Yt = Tt + Ct + S t + I t
MODELO MULTIPLICATIVO: Yt = Tt ·Ct ·S t ·I t .
Se asumirá un modelo multiplicativo con estacionalidad estable.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
262 Análisis Clásico de Series Temporales.

7.3. ANÁLISIS DE LA TENDENCIA Tt


Método que se va a utilizar para determinar la tendencia de la serie:
MÉTODO ANALÍTICO.
Otros métodos: medias móviles y alisado exponencial.

El MÉTODO ANALÍTICO consiste en la obtención de la ecuación de una


función que ponga la variable de interés Y en función del tiempo:
y t* = f ( t )
Esta función se obtendrá por medio de un ajuste lineal mínimo – cuadrático:

y t* = a + bt
Recta de regresión de Y sobre t

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 263

*
La TENDENCIA de la serie Tt la proporcionarán los valores estimados de Y: y t

Tt = y t*
Tt = a + bt
ecuación de tendencia (recta de tendencia)
proporciona la tendencia lineal de la serie a largo plazo.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
264 Análisis Clásico de Series Temporales.

Su interpretación dependerá de la unidad de medida del tiempo “t”.

Se analizará la TENDENCIA desde una doble perspectiva:


ANUAL: tiempo t en años.

K – ESIMAL: tiempo t en unidades inferiores al año,


¾ SEMESTRES k = 2 tendencia semestral.

¾ CUATRIMESTRES k = 3, tendencia cuatrimestral.

¾ TRIMESTRES k = 4 tendencia trimestral.

¾ BIMESTRES k = 6 tendencia bimensual.

¾ MESES k = 12 tendencia mensual.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 265

7.3.1. Tendencia anual.


La ecuación de tendencia anual se obtendrá por una ajuste lineal mínimo –

cuadrático en la variable (t ,Y ).
PASOS A SEGUIR:
1. El tiempo vendrá en años y los datos serán anuales. Si los valores de la

serie yt se tuvieran por k – ésimos, en cada año se sumarían los k valo-

res yt para obtener datos anuales.

2. Se opera una cambio de variable sobre el tiempo t en años: t' = t − t 0 ,


con t0 año fijo.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
266 Análisis Clásico de Series Temporales.

3. Obtención de la recta de regresión de Y sobre t’:


⎧ st' Y
⎪b = 2
y t' = a + bt' ⎨
*
st
⎪⎩a = y − bt '
4. Ecuación de tendencia anual:
Tt' = a + bt'
t’ en años, origen t’ = 0, t = t0 (parte central del año t0.)

CAMBIO DE ORIGEN EN LA ECUACIÓN DE TENDENCIA ANUAL.

Si Tt = a + bt tiene origen en t = 0 y se quiere cambiar el origen a t = h

(h número entero), se opera el cambio

t = t' + h → Tt' = a + b( t' + h ).


Ejemplo 7.2.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 267

7.3.2. Tendencia K–esimal.


Tendencia de la serie a largo plazo, pero el tiempo vendrá en k – ésimos
(trimestres, meses...).
La ECUACIÓN DE TENDENCIA K –ESIMAL se obtendrá a partir de la anual
como sigue:

1. Sea Tt = a + bt la ecuación de tendencia anual con origen t = 0.


2. Dividimos por k la ecuación anual:
a b b
Tt = + t , representa la tendencia k – esimal promedia del año t.
k k k
3. Operamos el CAMBIO EN LA UNIDAD TEMPORAL de años t a k – ésimos
t' a b t' a b
t’: t' = kt → t = ⇒ Tt ' = + = + 2 t'
(k)

k k kk k k

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
268 Análisis Clásico de Series Temporales.

a b
T (k)
t'
= + 2 t' representa la ecuación de tendencia k – esimal.
k k
El tiempo t’ viene en k – ésimos.
ORIGEN: t’ = 0 en el k – ésimo central del año t0 (origen de la ecuación
anual)

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 269

TRASLADO DEL ORIGEN DE LA ECUACIÓN DE TENDENCIA K – ESI-


MAL AL CENTRO DEL PRIMER K – ÉSIMO.
Sobre la ecuación anterior se operará el siguiente cambio de origen:

k −1 a b⎛ k − 1⎞
t' = t' ' − ⇒ Tt'' = + 2 ⎜ t' ' −
(k)

2 k k ⎝ 2 ⎠
Ecuación de tendencia k – esimal con origen t’’ = 0 en la parte central del
primer k – ésimo del año t0 (origen de la ecuación anual)

Así si t = 0 ,1,2 ,...,( N − 1 ) años ⇒ t' ' = 0 ,1,2 ,...,( kN − 1 ) k − ésimos


Por ejemplo, si N = 3 años entonces t = 0, 1, 2. Y si k = 4 (trimestres), en-
tonces los 3x4 = 12 trimestres de los tres años quedan: t’’ = 0,1,2,3,...,11.

Ejemplo 7.3.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
270 Análisis Clásico de Series Temporales.

7.4. ANÁLISIS DE LA VARIACIÓN ESTACIONAL St .


La componente estacional St es la responsable de los altibajos en el gráfico

de la serie (picos y valles).

Para simplificar el análisis de la componente estacional se supondrá un com-


portamiento estacional repetitivo cada año en la serie temporal (ESTACIO-
NALIDAD ESTABLE). Además, se asumirá, en un esquema MULTIPLICATIVO,
que con el análisis de la tendencia realizado se ha obtenido una componente

conjunta de TENDENCIA – CICLO Tt C t .

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 271

Así, se partirá, para el análisis de las variaciones estacionales, de una situa-


ción inicial:

yt = Tt ·S t ·I t
(Tt representa a la tendencia y el ciclo)

Los indicadores de la COMPONENTE ESTACIONAL St serán unos índices

que se denominan ÍNDICES DE VARIACIÓN ESTACIONAL (IVE). Se ob-


tendrán aislando la componente estacional en la relación anterior.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
272 Análisis Clásico de Series Temporales.

7.4.1. Obtención de los IVE.


MÉTODO DE LA RAZÓN A LA TENDENCIA.
Pasos a seguir:
1. A partir de la ecuación de tendencia k – esimal

a b ⎛ k − 1⎞
Tt (k)
= + 2 ⎜t − ⎟
k k ⎝ 2 ⎠
se obtienen los valores de tendencia-ciclo k – esimales de la serie, Tt susti-

tuyendo los valores t = 0 ,1,2 ,...,( kN − 1 ) en la ecuación.


2. Dividimos los datos k – esimales de la serie yt por la tendencia obteni-

y t Tt ·S t ·I t
da: = = St I t
Tt Tt

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 273

3. Se promedian todos los valores St I t obtenidos, en cada k – ésimo para

todos los años. Se obtienen así los k MOVIMIENTOS ESTACIONALES,


ME(i) (i = 1,2,..,k), de la serie.
4. Se determinan los IVE, que son los Movimientos Estacionales ajustados:
ME( i )
IVE( i ) = k
·k ·100
∑ ME( i )
i =1

Ejemplo 7.4.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
274 Análisis Clásico de Series Temporales.

ASPECTO DE LOS IVE.

Los IVE son números índices, y por tanto vendrán en porcentaje o tanto por
uno. La referencia es el 100.

IVE(i) = 100, significa que en el k – ésimo (i) los valores que toma la
serie no tienen un comportamiento estacional que difiera de la tenden-
cia usual de la serie.
IVE(i) > 100 (< 100), significa que en el k – ésimo (i) los valores que
toma la serie son usualmente mayores (menores), a los que tendría en
un comportamiento sin efecto estacional.
NOTA: como el año está subdividido en k partes, habrá un IVE para cada k –
k
ésimo, de forma que: ∑ IVE( i ) = k
i =1
o ( kx100 )

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 275

7.4.2. Desestacionalización.
Desestacionalizar una serie consiste en eliminar la componente estacional

S t , representada por el IVE respectivo, de los datos originales y t .


Si yt es un dato k – esimal de la serie original en el k – ésimo (i), el dato
desestacionalizado será:
yt
Dt =
IVE( i )
Datos que supuestamente hubiésemos observado de no haber existido in-
fluencia estacional.
Ejemplo 7.5.
(Ver ejercicio 6.6 del libro ESTEBAN, J.; y otros.: “Estadística Descriptiva y nociones de Probabili-
dad”, Ed. Thomson, 2005. página 226).

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
276 Análisis Clásico de Series Temporales.

7.5. PREDICCIÓN Y CORRECCIÓN POR ESTACIONALIDAD.


7.5.1. Predicción de la tendencia.
A partir de las ecuaciones de tendencia:

( 1 ) → Tt = a + bt ANUAL con origen t = 0 en el año t0.

a b ⎛ k − 1⎞
(2)→T (k)
= + 2 ⎜ t' − ⎟ K – ESIMAL con origen t’ = 0 en el pri-
k k ⎝ 2 ⎠
t'

mer k – ésimo del año t0.


Se pueden obtener PREDICCIONES de la tendencia:
(1) predicciones anuales de la tendencia para un año t determinado
t = 0 ,1,2 ,...,( N − 1 ) .
(2) Predicciones k – esimales de la tendencia para un k – ésimo t’ determi-
nado t' = 0 ,1,2 ,...,( kN − 1 )

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 277

7.5.2. Corrección por estacionalidad.

Si Tt '( k ) ( i ) representa la predicción de la tendencia k – esimal en un k –

ésimo (i) determinado y el IVE(i) representa el efecto estacional de los valo-


res de la serie en ese k – ésimo, la predicción CORREGIDA POR ESTACIONA-
LIDAD se obtendrá multiplicando la predicción de tendencia por el IVE res-
pectivo:

Tt '( k ) ( i ) xIVE ( i ) .

Ejemplo 7.6.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
278 Análisis Clásico de Series Temporales.

Conceptos clave.
Componente estacional.
Dato desestacionalizado.
Ecuación de tendencia.
Índice de variación estacional (IVE).
Predicción corregida por estacionalidad.
Predicción de la tendencia.
Serie temporal.
Tendencia anual.
Tendencia k-esimal.
Tendencia.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha
Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 279

EJEMPLOS.
Los ejemplos de este tema dedicado a las series temporales están basados
en los datos del Ejemplo 7.1 y siguen el desarrollo teórico del tema.

Ejemplo 7.1. Vamos a analizar la siguiente serie temporal Yt: volumen de


ventas trimestrales de una pequeña empresa (en miles de euros), calculan-
do la TENDENCIA, aislando la COMPONENTE ESTACIONAL (IVE) y desesta-
cionalizando la serie. Supondremos un esquema multiplicativo y estacionali-
dad estable.
DATOS: ventas trimestrales durante el período 2000 a 2002.
2000 2001 2002
1r Trimestre 10 15 17
2º Trimestre 21 25 29
3r Trimestre 4 8 9
4º Trimestre 25 30 33
Totales Yt 60 78 88
TABLA 1

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


280 Análisis Clásico de Series Temporales.

SERIE TEMPORAL

35
30
25
ventas

20
15
10
5
0
1 2 3 4 1 2 3 4 1 2 3 4

2000 2001 2002

trimestres

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 281

Ejemplo 7.2. A partir de las ventas trimestrales de una empresa en el pe-


riodo 2000-02 (datos facilitados en el Ejemplo 7.1), calcular la ecuación de
tendencia anual con origen en el año 2000.

Solución: Para calcular la ecuación lineal de tendencia anual con origen el


año 2000, en primer lugar tomamos como valores de la serie los totales
anuales de la variable Yt.
Para hallar la línea de tendencia utilizamos un método analítico: ajustamos
una recta por el método mínimos cuadrados.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


282 Análisis Clásico de Series Temporales.

Cálculos previos
Año t t'=t-2000 Yt (Yt)2 (t')2 t'·Yt
2000 0 60 3600 0 0
2001 1 78 6084 1 78
2002 2 88 7744 4 176
Totales 3 226 17428 5 254

Momentos a10 a01 a02 a20 a11


ordinarios 1,00 75,33 5809,33 1,67 84,67

2
Momentos m20 = S t' m02 = S2Y m11 = St'Y
centrales 0,67 134,22 9,33

Parámetros b a r2 r
14,00 61,33 0,974 0,987

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 283

Por tanto, se tendrá la Ecuación de tendencia anual

⎧ st' Y
⎪b = 2
Tt' = a + bt' ⎨ st'
⎪a = y − bt '

Tt' = 61,33 + 14t'


t’ = 0, 1, 2....años. Ecuación de tendencia anual.
Origen: t0 = 2000, año 0. Unidad: un año.

La bondad del ajuste es r2 = 0,974 (97,4%, buen ajuste). El modelo lineal


para determinar la tendencia sería adecuado.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


284 Análisis Clásico de Series Temporales.

Ejemplo 7.3. A partir de la ecuación de tendencia anual obtenida en el

Ejemplo 7.2 (Tt' = 61,33 + 14t' con origen e t0 = 2000, año 0.), obtener la

ecuación de tendencia trimestral con origen el primer trimestre del año


2000.

Solución: Ecuación de la tendencia trimestral (k = 4).

61,33 14
Tt' = + t'
4 4
Tendencia trimestral promedia del año t’ (t’ en años).

Cambiamos la unidad anual de la ecuación de tendencia a una unidad tri-


mestral:

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 285

t’’ = 4t’ (t’’ en trimestres). En general t’’ = kt’ (t’’ en k-ésimos); K = 2


semestres, k = 12 meses... En nuestro caso transformamos la variable t’
(tiempo medio en años) en otra t’’ medida en trimestres, haciendo el cambio
t’’ = 4t’:

t' ' 61.33 14 t' ' 61.33 14


t' = ⇒ Tt' ' =
(4)
+ = + 2 t' '
4 4 4 4 4 4
(t’’ en trimestres)

Por tanto, la ecuación de tendencia trimestral quedará:

Tt'('4 ) = 15 ,33 + 0 ,875t' '


Ecuación de tendencia trimestral.
Origen: trimestre central del año 2000.
Unidad: t’’ un trimestre.
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


286 Análisis Clásico de Series Temporales.

Cambiamos el origen de la ecuación de tendencia trimestral al primer tri-


mestre de 2000: el origen lo situamos en la parte central del trimestre, nos
trasladamos un trimestre y medio hacia la izquierda:

k −1 4 −1
t' ' − = t' ' − = t' ' −1,5 :
2 2

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 287

Tt'(' 4 ) = 15 ,33 + 0 ,875( t' ' −1,5 ) = 15 ,33 + 0 ,875( −1,5 ) + 0 ,875t' ' =
= 14 ,0175 + 0 ,875t' '

Con lo cual,

Tt'('4 ) = 14 ,0175 + 0 ,875t' '


ecuación de tendencia trimestral.
Origen (t’’ = 0) primer trimestre de 2000.
Unidad: t’’ un trimestre. t’’ = 0, 1, 2, ...,11

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


288 Análisis Clásico de Series Temporales.

Con la ecuación anterior, evaluamos la tendencia para cada uno de los 12


trimestres de la serie (3 años por 4 trimestres). Dando valores a t’’ = 0, 1,
2, ...,11, obtenemos la siguiente tabla:
Tt'' 2000 2001 2002
1r Trimestre 14,0175 17,5175 21,0175
2º Trimestre 14,8925 18,3925 21,8925
3r Trimestre 15,7675 19,2675 22,7675
4º Trimestre 16,6425 20,1425 23,6425
TABLA 2
Tendencia para cada trimestre:
forma una serie aritmética de razón 0,875 = b/42. En general b/k2.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 289

Representación gráfica de la componente de tendencia (trimestral)

SERIE TEMPORAL
VENTAS tendencia
35

30

25
ventas

20

15

10

0
1 2 3 4 1 2 3 4 1 2 3 4
2000 2001 2002
trimestres

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


290 Análisis Clásico de Series Temporales.

Ejemplo 7.4. A partir de las ventas trimestrales (datos originales, TABLA 1)


y la tendencia trimestral (resultados del Ejemplo 7.3, TABLA 2), calcular los
índices de variación estacional (IVE), interpretar su significado y representar
gráficamente la componente estacional.

Solución: Eliminamos la tendencia y el ciclo (dividimos los datos originales


por su correspondiente tendencia trimestral, supuesto un esquema multipli-
cativo):

TABLA 1/TABLA 2 = TABLA 3.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 291

2000 2001 2002 Tt'' 2000 2001 2002


1r Trimestre 10 15 17 1r Trimestre 14,0175 17,5175 21,0175
2º Trimestre 21 25 29 2º Trimestre 14,8925 18,3925 21,8925
3r Trimestre 4 8 9 3r Trimestre 15,7675 19,2675 22,7675
4º Trimestre 25 30 33 4º Trimestre 16,6425 20,1425 23,6425
TABLA1 TABLA2

TABLA3
2000 2001 2002 Suma ME(i) IVE% Tanto por uno
1r Trimestre 0,7134 0,8563 0,8088 2,3785 0,7928 79,79 0,7979
2º Trimestre 1,4101 1,3592 1,3247 4,0940 1,3647 137,34 1,3734
3r Trimestre 0,2537 0,4152 0,3953 1,0642 0,3547 35,70 0,3570
4º Trimestre 1,5022 1,4894 1,3958 4,3874 1,4625 147,18 1,4718
3,9747 400,00 4,0000

Eliminamos las variaciones irregulares promediando los valores obteni-


dos sin tendencia en cada trimestre para todos los años, es decir, calculando
lo que llamaremos MOVIMIENTOS ESTACIONALES (ME): medias aritméticas
de los valores sin tendencia para cada trimestre. (ver TABLA 3):
© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


292 Análisis Clásico de Series Temporales.

ME(i) i = 1, 2,..., k

Calculamos los Índices de Variación Estacional (IVE):


Teniendo en cuenta que un índice representa un cambio porcentual sobre
una base de referencia del 100%, en este caso los cuatro ME deberían su-
mar 4 (o 400 en porcentaje) para que representaran de una forma consis-
tente la componente estacional por trimestre. Pero suman 3,9747, por lo
que procede un ligero ajuste técnico para que sumen 4. De esta forma obte-
nemos los ME ajustados o ÍNDICES DE VARIACIÓN ESTACIONAL (IVE):

ME( i )
IVE( i ) = k
⋅ k ⋅ 100
∑ ME( i )
i =1

En este caso k = 4 (trimestres).

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 293

Representación gráfica de la componente estacional obtenida (IVE):

Índice Variación Estacional

160
147,18 147,18 147,18
140 137,34 137,34 137,34
120
100
IVE

80 79,79 79,79 79,79


60
40 35,70 35,70 35,70
20
0
1 2 3 4 1 2 3 4 1 2 3 4
2000 2001 2002
trimestres

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


294 Análisis Clásico de Series Temporales.

Significado de los IVE: los IVE representan el efecto estacional para cada
trimestre. Al suponer estacionalidad estable, son los mismos para todos los
años de la serie, así:

¾ 4º trimestre: IVE (4) = 147,18. Las ventas de la empresa son un

47.18% superiores (147,18 - 100) al nivel medio de referencia que


sería 100.

¾ 3º trimestre: IVE (3) = 35,70. Las ventas de la empresa son un 64,30

inferiores (35,70 - 100) al nivel medio de referencia.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 295

Ejemplo 7.5. Desestacionalizar la serie de ventas trimestrales (datos origi-


nales, TABLA 1).

Solución: Eliminamos la estacionalidad de la serie dividiendo los datos ori-


ginales (Tabla 1) por los IVE de cada trimestre expresados en tantos por
uno.
Tabla 1 / IVE = Tabla 4
2000 2001 2002 IVE 2000 2001 2002
1r Trimestre 10 15 17 0,7979 12,5329 18,7993 21,3059
2º Trimestre 21 25 29 1,3734 15,2905 18,2030 21,1155
3r Trimestre 4 8 9 0,3570 11,2045 22,4090 25,2101
4º Trimestre 25 30 33 1,4718 16,9860 20,3832 22,4215
Totales Yt 60 78 88 4,0000
TABLA 1 TABLA 4
Serie desestacionalizada

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


296 Análisis Clásico de Series Temporales.

La serie desestacionalizada contiene los valores que supuestamente hubié-


ramos observado de no haber existido ninguna influencia estacional. Vemos
que hay una diferencia significativa con los datos originales, sobre todo en el
tercer trimestre.

Datos desestacionalizados

desestacionalizadas 30
25
Dt ventas

20
15
10
5
0
1 2 3 4 1 2 3 4 1 2 3 4
2000 2001 2002

trimestres

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


Guía didáctica de Estadística Descriptiva para las Ciencias Sociales. 297

Ejemplo 7.6. A partir de la ecuación de tendencia trimestral con origen el


trimestre central del año 2000

Tt'('4 ) = 15 ,33 + 0 ,875t' ' ,

Obtener una predicción de las ventas de la empresa para el tercer trimestre


del año 2008. Corregir la predicción por estacionalidad (utilizar los datos ob-
tenidos en el Ejemplo 7.4).

Solución: Del año 00 al 08 hay 8 años, es decir 32 trimestres. Con este cál-
culo llegamos al trimestre central del año 08; por tanto añadiendo 0.5 tri-
mestres llegamos a la parte central del tercer trimestre.

Así para t’’ = 32.5 trimestres tenemos:

Tt'('4 ) ( t' ' = 32 ,5 ) = 15 ,33 + 0 ,875( 32 ,5 ) = 43 ,7675


© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto


298 Análisis Clásico de Series Temporales.

Análogamente lo podemos hacer a partir de la ecuación con origen el primer


trimestre del 00:

Tt'('4 ) = 14 ,0175 + 0 ,875t' '


Aquí t’’ = 34 trimestres y sustituyendo:

Tt'('4 ) ( t' ' = 34 ) = 14 ,0175 + 0 ,875( 34 ) = 43 ,7675

Corrección por estacionalidad: como el IVE para el tercer trimestre es de


35,70, la predicción tendría que ser realmente un 64,30% inferior (si la es-
tacionalidad se mantiene estable): 43,7675 · 0,3570 = 15,6250 que repre-
senta la predicción corregida por estacionalidad.

© Rafael Díez, Vicente Coll y Olga Blasco

Índice Ficha Texto

También podría gustarte