Está en la página 1de 245

Universitat de les Illes Balears

Col.lecci Materials Didctics

INTRODUCCIN A LA ESTADSTICA
DESCRIPTIVA PARA ECONOMISTAS

Joaqun Alegre Martn


Magdalena Cladera Munar

Palma, 2002

NDICE

INTRODUCCIN: Qu es...?

1
2
2
4
4
6

Qu es una variable?
Qu es la estadstica descriptiva? Cul es el mbito de la estadstica
descriptiva en el anlisis econmico?
Qu son la poblacin y la muestra?
Qu es un parmetro? Qu es un estadstico?
Qu es una muestra aleatoria?
Estructura del libro.

CAPTULO I. Descripcin de Variables Cualitativas.

7
8
11
12
14
15
16

Variables cualitativas nominales y ordinales.


Distribucin de frecuencias. Frecuencia relativa y frecuencia relativa
acumulada.
Diagrama de barras.
Moda.
Mediana.
Pictograma.
Diagrama de Pareto.

19

CAPTULO II. Distribucin de Frecuencias e Histograma.

19
19
19
23
26

Escala de intervalo y de cociente.


Variables discretas y continuas.
Distribucin de frecuencias. Diagrama de barras.
Histograma.
Cmo trabajar con los histogramas.

35

CAPTULO III. Estadsticos Descriptivos de una Variable Cuantitativa.

35
35

Medidas de posicin central.


Moda y mediana.

36
38
38
40
43
43
45
48

79
81
89
89
91
91

Media aritmtica.
Propiedades de la media.
Media ponderada.
Media ponderada y muestreos complejos.
Representatividad de la media.
Media cortada (trimmed mean).
Media geomtrica.
Utilizacin de la media, moda y mediana para detectar la
asimetra de una distribucin.
Cuartiles, deciles y percentiles.
Medidas de dispersin: rango, rango intercuartlico, varianza,
desviacin estndar, coeficiente de variacin.
Discusin y propiedades de la varianza, desviacin estndar y
coeficiente de variacin.
Relacin entre la media y la desviacin estndar: Desigualdad de
Chebychev.
El Diagrama de caja.
Diagrama de caja. Ayudas para su interpretacin.
Medidas de asimetra y curtosis.
Medida de asimetra de Fisher.
Medida de asimetra de Pearson.
Medida de apuntamiento o curtosis.

101

CAPTULO IV. Anlisis Bivariante de Variables Cualitativas.

101
108
113
119

Distribucin conjunta de variables. Tabla de contingencia.


Chi-cuadrado y C de contingencia.
Lambda.
Gamma, Tau-b y Tau-c.

133

CAPTULO V. El Coeficiente de Correlacin.

133
134
137
144
145
148
148
149
153

Asociacin lineal entre dos variables.


Asociacin lineal positiva o negativa.
Estadstico de covarianza.
Propiedades de la covarianza.
Coeficiente de correlacin lineal.
Propiedades del coeficiente de correlacin.
Matriz de correlaciones.
Algunos errores en la interpretacin del coeficiente de correlacin.
El coeficiente de correlacin de rangos de Spearman.

51
57
58
76

177

CAPTULO VI. Ajuste de una Recta.

179
182
186
189
195
196
198
198
201
204
205
205

De la propuesta de causalidad a la recta de regresin.


Obtencin de a y b por mnimos cuadrados ordinarios.
Derivacin de las expresiones de mco para a y b.
Ejemplos de clculo de la recta de regresin.
Ajustes no lineales.
Siempre es posible un buen ajuste?
Algunas propiedades del error del ajuste.
Medida de bondad del ajuste: Coeficiente de determinacin R2.
Lmites del coeficiente de determinacin.
Anlisis grfico de los errores del ajuste.
Existe alguna relacin entre el coeficiente de correlacin y el
coeficiente de determinacin?
Dos ejemplos numricos sobre el coeficiente de determinacin.

231

BIBLIOGRAFA.

INTRODUCCIN: Qu es...?

Qu es una variable?

En estadstica, como en matemticas o economa, se emplea el concepto


de variable para referirnos a cualquier caracterstica, que toma valores
diferentes en un conjunto de observaciones. En economa, por ejemplo,
definimos la renta como una variable. Al hacerlo podemos estar pensando en los
ingresos anuales de las familias de una regin, en la que cada familia tendr un
volumen de ingresos distinto. Tambin podemos pensar en los ingresos
agregados de la regin, medidos a lo largo del tiempo (cada trimestre o cada
ao), y considerar que la regin es el individuo sobre el que se mide la variable.
Las dos interpretaciones del concepto de renta que apuntamos son correctas,
utilizndose en mbitos distintos. Lo que es esencial en su definicin es la
posibilidad de medir el nivel de ingresos de una manera sistemtica (sea para un
conjunto de familias en un momento del tiempo, sea para un nico individuo,
familia o regin a lo largo de un periodo), obteniendo observaciones de una
cantidad variable.
En el caso de la renta estamos considerando una variable de tipo
cuantitativo. Hablamos de una variable cuantitativa cuando la caracterstica
que se mide toma valores numricos. Muchas de las variables econmicas son
de este tipo, pero tambin hay variables econmicas de tipo cualitativo.
Entendemos por variable cualitativa aquella que toma valores no numricos.
La caracterstica que se mide en el individuo sera, en este caso, una
cualidad (un atributo) del mismo. Por ejemplo, la distincin de los
consumidores por sexo, el tipo de familia (su composicin), el nivel de estudios o
la categora profesional son variables de tipo cualitativo que forman parte de los
anlisis de los patrones de consumo. La pertenencia a un sector industrial
concreto, el tipo de mercado (nacional o internacional) en el que se opera, la
existencia de barreras de entrada son caractersticas que se estudian en economa
industrial.
La distincin entre variables cuantitativas y cualitativas es importante
desde el punto de vista estadstico porque las tcnicas que pueden emplearse en
uno u otro caso son diferentes.

Qu es la estadstica descriptiva? Cul es el mbito de la


estadstica descriptiva en el anlisis econmico?

La estadstica descriptiva es un conjunto de mtodos cuyo objetivo es


ordenar las observaciones, resumir la informacin disponible y obtener las
medidas cuantitativas que describen sus caractersticas. La descripcin es
cuantitativa y pretende ser lo ms sinttica posible.
La teora econmica se suele interesar por variables econmicas en un
nivel alto de abstraccin. Los campos de la macroeconoma y microeconoma, la
economa del consumo y economa de la produccin, la economa financiera, etc.
toman como referencia agentes econmicos, sobre los que se definen modelos de
comportamiento. Estos agentes, definidos como referencias abstractas tienen, sin
embargo, su conexin con la realidad econmica. El mbito de la estadstica se
aplica a esos individuos reales, estudiando variables como el gasto familiar, los
beneficios empresariales o el ndice de paro de un pas.
Las tcnicas estadsticas tambin se aplican al control de calidad de la
produccin, a la gestin de carteras de acciones, etc., campos de menor
abstraccin, en los que las variables a estudiar pueden ser tan concretas como la
produccin diaria de una mquina o el precio de una accin. En cualquiera de los
campos en los que se aplique, la estadstica descriptiva pretende ayudar a
plantear y resolver los problemas de la economa.

Qu son la poblacin y la muestra?

Al conjunto de individuos objetivo del anlisis se le denomina poblacin.


Una muestra es una parte de la poblacin. Cuando se trabaja con una muestra
las conclusiones que se obtienen deben restringirse, inicialmente, a sta. Extraer
conclusiones ms generales, aplicables a toda la poblacin, slo puede hacerse de
una manera limitada, siendo necesario entre otras cosas que la muestra sea
representativa y que la generalizacin de las conclusiones se haga de una forma
prudente y rigurosa. Las tcnicas de la estadstica inferencial facilitan esa
generalizacin desde la muestra a la poblacin.
Las tcnicas descriptivas se pueden aplicar a toda la poblacin, si esta se
conoce, o a una muestra. En el caso de disponer nicamente de informacin
muestral se debern aplicar las tcnicas de la estadstica inferencial si se quieren
generalizar las conclusiones obtenidas.

El trabajo con muestras es usual es economa. Uno de los ejemplos ms


conocidos para justificar el uso de las muestras se encuentra en el terreno del
control de calidad. Una empresa dedicada a la produccin de bombillas, las habr
diseado garantizando un tiempo de vida determinado. Antes de servir su
producto la empresa desear comprobar la fiabilidad real de su oferta realizando
algn tipo de prueba, pero obviamente esto no lo podr hacer con toda la
produccin, puesto que la destruira. Una muestra representativa permitir a la
empresa comprobar el tiempo de duracin real de sus bombillas. Ejemplos de
situaciones similares no son difciles de encontrar. Piense, por ejemplo, en las
empresas de auditora contable cuando acceden a la informacin de una empresa.
Si la empresa auditora se viera obligada a seguir cada una de los procesos de la
empresa (desde el primer movimiento contable al archivo de la ltima factura) se
vera metida en una labor inabordable. La seleccin, al azar, de una muestra de
algunos movimientos contables puede ser suficiente para verificar la correccin
de la toda la gestin.

La necesidad de trabajar con muestras responde en muchas ocasiones a


un ahorro en los costes de obtencin de la informacin. Si puede obtenerse
informacin esencial y generalizable a partir de una muestra no ser preciso
acceder a toda la poblacin.

En ocasiones, el recurrir a las muestras no obedece a una cuestin de


costes, sino a la imposibilidad de acceder a todas las observaciones. Esta
situacin es frecuente en economa cuando se recoge la evolucin temporal del
valor de una variable. Algunos modelos econmicos consideran que, en un
momento del tiempo, la poblacin de inters son todos los valores posibles que
puede tomar una observacin. Por ejemplo, imagine que est siguiendo la
evolucin diaria del precio de una accin en un mercado burstil a lo largo de un
ao. Cada da usted observar el precio de la accin a la hora del cierre de la
sesin de bolsa, de manera que si el mercado abre durante doscientos das,
dispondr de doscientos precios. Respecto al ao, ese conjunto de doscientas
observaciones, se considera una poblacin o una muestra del precio de la
accin? Se dispone de todos los precios de cierre observados a lo largo del ao,
pero no de todos los precios que ha tomado la accin. En un da concreto, el
precio de la accin puede tomar distintos valores y es hasta cierto punto una
cuestin de azar el que a la hora del cierre se observe un precio determinado. Las
doscientas observaciones pueden entenderse como una muestra de todos los
precios que puede haber tomado la accin (que definiran la poblacin). En este
caso, los posibles valores de una variable en un momento del tiempo definiran la
poblacin, el valor observado se considerara una realizacin muestral.

El empleo de informacin muestral obedece a veces a la imposibilidad de


observar toda la poblacin.

Qu es un parmetro? Qu es un estadstico?

Cuando queremos entender lo que ocurre con unos datos, lo ms


adecuado es resumir los valores individuales. Estaremos interesados en conocer
cul es el valor representativo de un grupo o hasta qu punto las observaciones se
alejan de ese valor. Cuando se est estudiando una poblacin, estas medidas que
describen las caractersticas de los datos se denominan parmetros
poblacionales. El valor medio de una variable en una poblacin sera un
parmetro, tambin lo es la proporcin de individuos de la poblacin que tienen
una caracterstica. La discusin de algunos de estos parmetros es parte de la
estadstica.
En general, daremos el nombre de estadstico a cualquier frmula
aplicada en la informacin muestral. Muchos de los estadsticos que se utilizan
pretenden ser estimaciones de los parmetros de la poblacin. Si slo disponemos
de una muestra, podemos calcular el valor medio de las observaciones y suponer
que esa media muestral puede ser una buena aproximacin al valor del
parmetro, la media poblacional. La relacin entre el parmetro y su estimacin
en la muestra es parte esencial de la estadstica inferencial. No obstante, los
trminos parmetro y estadstico son palabras de uso frecuente tambin en la
estadstica descriptiva.

Qu es una muestra aleatoria?

Para que las muestras sean tiles deben ser representativas de la


poblacin. Una manera de garantizar la representatividad de una muestra
consiste en obtenerla mediante procedimientos aleatorios. Los muestreos
aleatorios garantizan la representatividad de la muestra al basarse en el azar. Si
se desea extraer una muestra de cien observaciones de una poblacin de mil
individuos, parece razonable seleccionar aleatoriamente los cien individuos entre
toda la poblacin. La seleccin aleatoria ms sencilla es el muestreo aleatorio
simple (m.a.s.) En su diseo ideal, el m.a.s. consistira en asignar un nmero a
cada uno de los elementos de la poblacin y seleccionar al azar (con igual
probabilidad para cada nmero) el conjunto de individuos que formarn parte de

la muestra. Puede imaginar que este diseo ideal, para ser operativo necesita en
ocasiones de otros criterios que lo complementen (qu ocurre cuando la
poblacin no puede numerarse, por ejemplo), pero queremos destacar ahora la
idea de que mediante diseos muestrales aleatorios se pretende conseguir
muestras lo ms representativas posibles de la poblacin.

Los diseos de obtencin de las muestras son a veces ms complejos que


el muestreo aleatorio simple. Si sabemos que una poblacin se distribuye
aproximadamente igual entre los dos sexos, podra interesarnos que ese
porcentaje se mantuviera en la muestra. Por azar, sera posible obtener una
muestra en la que la mayora de los individuos perteneciera a uno de los dos
sexos. Un diseo muestral ms rico podra dividir la poblacin en dos (segn su
sexo), realizando un m.a.s. en cada una de las partes, es decir, seleccionando al
azar la mitad de la muestra entre la poblacin masculina y la otra mitad entre la
poblacin femenina. El diseo ya no es puro azar, puesto que ste se sacrifica
parcialmente para garantizar la mxima representatividad. La complejidad
estadstica del diseo muestral puede aumentar rpidamente, cuando se imponen
ms criterios. Lo que resulta esencial es que bajo diseos ms o menos
complejos, siempre aparece finalmente un procedimiento de seleccin basado en
el azar.

El estudio y diseo de los diferentes tipos de muestreo es una parte de la


estadstica inferencial y no se discuten en este libro. Slo en un punto del anlisis
descriptivo se produce un cruce con la idea de poblacin y es cuando a cada
individuo de la muestra se le asocia un factor de elevacin poblacional. El factor
de elevacin poblacional indica el nmero de individuos de la poblacin a los
que representa cada uno de los individuos de la muestra. Imaginemos una
poblacin con 1000 individuos, de la cual se quiere extraer una muestra de diez
observaciones. A cuntos individuos de la poblacin representa cada uno de los
individuos de la muestra? Si se trata de un m.a.s., cada uno de los individuos de
la muestra ha tenido igual oportunidad de ser elegido y cada individuo
representar a 1000/10=100 individuos en la poblacin. El factor de elevacin de
cada elemento de la muestra ser igual a 100. El Instituto Nacional de
Estadstica, por ejemplo, realiza gran parte de su trabajo basndose en muestras,
aunque ofrece sus resultados al nivel de la poblacin. Para ello utiliza los factores
de elevacin calculados previamente (en funcin del particular diseo muestral).
Si se quiere describir la poblacin empleando la muestra, puede resultar til
emplear estos factores.

Estructura del libro

El libro se estructura en seis captulos. Los tres primeros tratan el anlisis


descriptivo de una nica variable (anlisis descriptivo univariante): se dedica un
corto captulo al tratamiento de variables cualitativas y dos captulos a las
variables de tipo cuantitativo. Los captulos siguientes se centran en el anlisis de
las relaciones entre dos variables (relaciones bivariantes). En el captulo cuarto
se estudian las relaciones bivariantes entre variables cualitativas, mientras que el
quinto y sexto estn dedicados a las relaciones bivariantes entre variables
cuantitativas. En cada captulo los conceptos tericos estn acompaados de un
nmero amplio de ejemplos.

CAPTULO I. Descripcin de VARIABLES CUALITATIVAS

En este captulo se exponen las tcnicas ms sencillas que se utilizan para


describir una variable cualitativa. Definiremos las variables cualitativas
nominales y ordinales, los conceptos asociados a la distribucin de frecuencia y
los limitados estadsticos que pueden emplearse en la descripcin. El captulo se
cierra con algunos de los procedimientos grficos empleados para representar las
distribuciones de estas variables.

Variables cualitativas nominales y ordinales. En una encuesta sobre el gasto


turstico se pregunta a los visitantes de una autonoma cul es la impresin que
han obtenido de su viaje. La pregunta y las posibles respuestas son las siguientes:

La impresin que ha tenido de su viaje ha sido:


Muy buena.
Buena.
Normal.
Mala.

Tambin se pregunta cul es la categora socio-profesional en la que se


sita el encuestado:

Su profesin es:
Profesional liberal.
Directivo o empresario.
Administrativo.
Trabajador manual.
Trabajador Autnomo.
Funcionario.
Jubilado.
Estudiante
Otras.

Las anteriores variables son de tipo cualitativo, calificndose como de


tipo ordinal (la primera) y nominal (la segunda). La distincin entre ellas es
clara. En la pregunta sobre la impresin del viaje, la respuesta muy buena
indica un nivel de satisfaccin mayor que buena, sta ltima respuesta estara a
su vez por encima de normal y mala sealara en nivel mnimo de
satisfaccin. Las respuestas pueden, en algn sentido, ordenarse de menos a ms.

En cambio, no es posible ordenar de menos a ms las respuestas de una variable


como la categora profesional.
Las variables cualitativas nominales nicamente ponen nombre a una
caracterstica, las variables ordinales llevan asociadas un orden en las respuestas.
Las categoras de una variable nominal, al contrario de las de una variable
ordinal, no pueden ordenarse de menos a ms.

Distribucin de frecuencias. Frecuencia relativa y frecuencia relativa


acumulada. La principal herramienta de anlisis de una variable de tipo
cualitativo es el simple recuento del nmero de los casos dentro de cada
categora. Adems de referirnos a las categoras de una variable, emplearemos
tambin el trmino valores de la variable.
Supongamos que tenemos una variable A, que puede tomar las categoras
A1, A2,, AI. El primer objetivo es conocer cuntos individuos tienen cada
caracterstica.
La principal herramienta de anlisis de una variable de tipo cualitativo es el
simple recuento del nmero de los casos dentro de cada categora.

En estadstica, el nmero de veces que se repite una de las categoras o


valores de la variable se denomina frecuencia o, de manera ms precisa,
frecuencia absoluta (que denotaremos ni). Por distribucin de frecuencias se
entiende el registro de todos las posibles categoras o valores de la variable,
junto con sus frecuencias asociadas. Adems de las frecuencias absolutas se
suelen presentar las frecuencias relativas de cada categora. La frecuencia
relativa se define como la frecuencia absoluta dividida por el total de
observaciones:

fi =

ni
,
n

i = 1 ,K , I

Cuando se trabaja con una variable de tipo ordinal (cuyas categoras se


pueden ordenar de menor a mayor) se pueden calcular las frecuencias
acumuladas. La idea de acumulacin facilita conocer rpidamente el nmero de
observaciones que estn por debajo de un determinado valor o categora. Se
distingue entre frecuencias acumuladas absolutas y relativas. La frecuencia
absoluta acumulada se define como:

Ni = n j

i = 1,K I .

j =1

Y la frecuencia relativa acumulada como:


i

Fi =

n
j =1

Ni
, i = 1,K,I
n

Recuerde que tiene sentido hablar de valores acumulados cuando las


respuestas de la variable se han ordenado de menor a mayor, lo que slo es
posible si la variable cualitativa es de tipo ordinal.

La imagen estndar de una distribucin de frecuencias es tan sencilla


como la que se muestra en el cuadro 1. En la misma apareceran, para el total de
n observaciones, los I distintos atributos de la variable, sus frecuencias absolutas,
las frecuencias relativas y las frecuencias relativas acumuladas.

Cuadro 1

Categoras
A1
A2

AI

Distribucin de frecuencias
Frecuencias
Frecuencias
Frecuencias
Absolutas
Relativas
Relativas acumuladas
n1
n1 /n
n1 /n
n2
n2 /n
(n1+n2) /n

nI
nI /n
(n1++nI) /n

Ejemplo 1. Rgimen de propiedad de la vivienda. El rgimen de


propiedad de la vivienda familiar puede considerarse como una variable
cualitativa, distinguiendo tres posibles categoras: la vivienda est en alquiler, la
vivienda es de propiedad con la hipoteca pendiente o la vivienda es de
propiedad sin hipoteca. Ante una muestra concreta de familias, podemos
describir de una manera cuantitativa su relacin con la propiedad de su vivienda.
En el cuadro 2 se muestra la distribucin de frecuencias de una muestra
de 4791 declarantes de IRPF. Aunque no es estrictamente necesario suele ser
cmodo, cuando se graban los datos, convertir las categoras en etiquetas
numricas. En nuestro ejemplo se ha definido una variable denominada
vivienda que toma un valor igual a 0 cuando la vivienda es de alquiler, igual a 1

cuando la vivienda es de propiedad pero tiene la hipoteca an vigente y valor 2,


si la vivienda es de propiedad y sin hipoteca.

Cuadro 2
VIVIENDA

POSESIN VIVIENDA HABITUAL(0,1,2)

Value Label

Value

Alquiler
Hipoteca vigente
Propiedad

0
1
2
Total

Valid cases

4791

Frequency
1764
960
2067
------4791

Missing cases

Percent
36,8
20,0
43,1
------100,0

Cum
Percent
36,8
56,9
100,0

En el cuadro 2 aparecen los siguientes conceptos:

Los valores que toma la variable (Value). Para esta variable los valores 0, 1 y
2 reflejan las categoras de alquiler, vivienda con hipoteca vigente y vivienda
de propiedad (en la columna Value Label se muestran las etiquetas de la
variable).

La Frecuencia absoluta (Frequency). El nmero de individuos que tiene cada


una de las categoras.

La frecuencia relativa (Percent) . Definida como el cociente entre la


frecuencia absoluta y el nmero total de observaciones.

La frecuencia relativa acumulada (Cum Percent). La frecuencia relativa


acumulada se define como la suma acumulada de los porcentajes relativos
de las categoras anteriores y hasta la propia categora.

La vivienda en propiedad y ya pagada, con un 43.1% de los declarantes


tiene el mayor porcentaje de individuos. La segunda es la categora de vivienda
en alquiler, con un 36.8% de declarantes. Finalmente, la categora con menos
individuos corresponde a la de declarantes que viven en vivienda de propiedad,
an no pagada. La importancia de cada una de las categoras es fcil de percibir
cuando el nmero de categoras de la variable es muy pequeo.

Los porcentajes acumulados no tienen una interpretacin inocente


cuando se tratan variables de tipo cualitativo. La informacin de que el 56.9% de
los individuos viven en rgimen de alquiler o en vivienda propia con hipoteca
puede ser una informacin sin sentido.

La frecuencia relativa se define como la frecuencia en cada clase dividida


por el total de observaciones:

fi =

ni
n

La frecuencia relativa acumulada en cada clase se define, una vez


ordenadas las respuestas desde la categora inferior a la superior, como:
i

Fi =

n
j =1

Ni
n

En variables de tipo cualitativo nominal el porcentaje acumulado de


frecuencias no debe leerse de manera automtica, puesto que al no existir un
orden en las categoras, el sentido de la acumulacin puede ser confuso.

Diagrama de barras. Los resultados de la distribucin de frecuencias se


pueden acompaar de ayudas grficas que facilitan la lectura de la informacin.
El diagrama de barras representa, para cada una de las categoras de la variable
(indicada en uno de los ejes de la grfica), su frecuencia absoluta o relativa (que
se muestra en un segundo eje). Su objetivo es disponer de una visualizacin clara
y rpida de la importancia de cada una de las categoras de la variable. En la
grfica 1 se muestra el diagrama de barras correspondiente al ejemplo anterior.

El diagrama de barras representa grficamente las frecuencias (absolutas o


relativas) de la variable.

Grfica 1
Grfica de barras
2200

2000

1800

1600

1400

Frecuencia

1200

1000
800
0

POSESIN VIVIENDA (0=Alquiler,1=Hipoteca,2=Propiedad)

Moda. En el Ejemplo 1 sobre el rgimen de propiedad de la vivienda uno de los


resultados obtenidos era que la categora con un porcentaje mayor de individuos
era la 2 (vivienda en propiedad sin hipoteca). Esta percepcin puntual puede
convertirse en el primer estadstico de resumen, ya que saber cul es la categora
ms frecuente de una variable dice algo del comportamiento general del grupo de
individuos. Conocer el valor con mayor frecuencia permite disponer de una
medida sinttica de cul es la tendencia general de las observaciones. A este
valor se le denomina moda de la distribucin.

La moda de una distribucin es el valor de la variable con


mayor frecuencia.

En ocasiones, las distribuciones de frecuencias se pueden caracterizar en


funcin de la moda, distinguiendo entre distribuciones con una nica moda
(distribuciones unimodales) y distribuciones en las que son dos o ms de dos los
valores que alcanzan la mxima frecuencia (distribuciones bimodales o
multimodales, respectivamente).
Es difcil encontrar distribuciones empricas que sean multimodales en el
sentido estricto en que aqu se han definido, es decir, que de manera exacta varios
valores tengan la misma frecuencia. Sin embargo, resulta interesante detectar
distribuciones en las que dos o ms valores tienen frecuencias ms altas que los

dems. En la prctica estas distribuciones se denominan tambin multimodales.


La explicacin de esta flexibilidad puede encontrarla en la comparacin de las
grficas 2 y 3. Ambas representan dos distribuciones ficticias de una variable que
tomara ocho categoras. En la primera distribucin se observa una doble moda,
con las categoras A3 y A7 con superior e igual frecuencias absolutas. En la
segunda distribucin la moda se encuentra en la categora A3, pero resulta obvio
que cualquier comentario sobre la distribucin que ignorase la categora A7
falseara la imagen de conjunto que se desea transmitir. Hablar de una
distribucin bimodal, con una primera moda situada en la categora A3 y una
segunda moda en la categora A7 resultara ser un retrato ms fiel de las
observaciones.
Grfica 2
120

100

80

60

Frecuencias

40

20

0
A1

A2

A3

A4

A5

A6

A7

A8

A3

A4

A5

A6

A7

A8

Variable Cualitativa

Grfica 3
120

100

80

60

Frecuencias

40

20

0
A1

Variable Cualitativa

A2

Mediana. En el caso de variables cualitativas ordinales la moda no es el nico


estadstico con significado. Puesto que en las variables ordinales existe un
sentido de orden en sus categoras, si stas se ordenan de menos a ms, la
distribucin de frecuencias acumuladas tendr una interpretacin. La mediana es
aquella caracterstica de la distribucin que ocupa la posicin central de la
misma. Ordenados los valores de la variable (de menor a mayor), la mediana
define aquel punto que deja por debajo de s mismo el 50% de la distribucin.

Ordenados los valores de la variable (de menor a mayor) la mediana es aquel


valor de la distribucin que ocupa el valor central de la misma.

Ejemplo 2. Investigacin comercial de un nuevo producto. Las


empresas, antes de lanzar un producto nuevo, realizan pruebas para medir su
aceptacin. Una prctica habitual es ofrecer una muestra del producto a algunos
consumidores potenciales. Una encuesta posterior permitir conocer el nivel de
satisfaccin del consumidor y las modificaciones que podran resultar
adecuadas. Supongamos que una empresa productora de un abrillantador de
muebles reparte de manera aleatoria 236 unidades de un nuevo producto entre
un nmero igual de posibles consumidores, realizando despus una encuesta
sobre el nivel de satisfaccin respecto al producto. En el cuadro 3 se
reproduciran los resultados obtenidos.
Cuadro 3
Value Label

Value

Frequency

Nada satisfactorio
Poco satisfactorio
Bastante satisfactorio
Muy satisfactorio
No lo ha probado

1
2
3
4
5
------Total

6
31
96
90
13
------236

Percent

Valid
Percent

2,5
2,7
13,1
13,9
40,7
43,0
38,1
40,4
5,5
Missing
------100,0
100,0

Cum
Percent
2,7
16,6
59,6
100,0

La variable cualitativa presenta cuatro posibles respuestas, indicando


cada una de ellas el nivel de satisfaccin del consumidor. Existe una quinta
opcin que recoge la categora de aquellas personas que finalmente no han
empleado el producto y que, en este ocasin, se han definido como valores
perdidos (missing). En los resultados del programa aparecen dos columnas de
porcentajes. En la primera, el total de observaciones (hayan empleado o no el
producto) se recoge como referencia para calcular las frecuencias. En la

segunda columna (valid percent) se calculan lo que se denominan porcentajes


vlidos, calculndose las frecuencias con referencia al nmero de individuos
que han empleado el producto.
Las caractersticas ms relevantes de la distribucin seran una moda
para la categora de bastante satisfactorio (43% de las respuestas vlidas) y un
valor mediano en la misma categora, al acumularse dentro de ella el 50% de
consumidores. Adems, en los porcentajes acumulados puede leerse que slo el
16,6% de los consumidores consideran el producto nada o poco satisfactorio.
El diagrama de barras de la distribucin se representa en la grfica 4,
apareciendo esta vez en el eje vertical las frecuencias relativas. Destaque de los
resultados anteriores el hecho de que la lectura de los porcentajes acumulados
(y, por tanto de la mediana) tiene sentido al tratarse de una variable cualitativa
de tipo ordinal.
Grfica 4

Grfica de barras
50

40

30

Porcentaje

20

10

0
Muy satisf actorio

Bastante satisfact.

Poco satisf actorio

Nada satisf actorio

Satisfaccin con respecto al producto

Pictograma. Junto a los diagramas en barra es posible representar la importancia


de cada una de las categoras usando otro tipo de grficas. El pictograma no es
ms que un crculo en el que se representan las categoras de la variable
proporcionalmente a su frecuencia. La regla de proporcionalidad se consigue
definiendo los ngulos proporcionalmente a las frecuencias. As, una categora
con una frecuencia relativa del 40.4% debera cubrir un ngulo igual a
0.404 360 0 = 145.44 0 . En la grfica 5 se representan las frecuencias relativas
del ejemplo anterior por medio de un pictograma.

Grfica 5

Frecuencias relativas
Nada satisf echo
2,7%
Poco satisf echo
13,9%

Muy satisf echo


40,4%

Bastante satisf echo


43,0%

Diagrama de Pareto. Si se quiere resaltar la distribucin de frecuencias


acumuladas puede emplearse el denominado diagrama de Pareto. ste no es ms
que un diagrama en barras en el que las categoras se ordenan de mayor a menor
frecuencia, dibujando sobre las barras una lnea indicativa de la frecuencia
acumulada hasta esa categora. La grfica se puede realizar tanto sobre variables
nominales como ordinales.

El diagrama de Pareto es un diagrama de barras en el que las categoras se


ordenan de mayor a menor frecuencia, dibujando una lnea indicativa de la
frecuencia acumulada hasta esa categora.

Ejemplo 3. Control de produccin. Una empresa sufre continuas paradas


en su cadena de produccin. Dada la importancia de las consecuencias
econmicas de estas paradas se decide controlar durante un mes cules son las
razones que las ocasionan. Para ello se solicita de los operarios que anoten el
tipo de percance y el tiempo que tarda en arreglarse, desde que se detecta
hasta que se soluciona el problema. Las causas detectadas (seis causas
particulares a este proceso de produccin) as como su frecuencia y el tiempo de
parada se reproducen en el cuadro 4.

Cuadro 4

Causa

Frecuencia Tiempo de parada


(en minutos)
Rotura de tornillos
10
70
Rotura de arandelas
10
10
Rotura o bloqueo de cintas
4
41
Rotura de aros de sujecin
2
20
Rotura de otras piezas
2
10
Desajustes de temperatura
11
53

1
2
3
4
5
6

En total, como consecuencia de 39 paradas, se han perdido 204 minutos


en un mes de trabajo. El tiempo de parada y el nmero de paradas se pueden
analizar a partir de los correspondientes diagramas de Pareto. En la grfica 6 se
observa que las tres causas ms frecuentes de parada son la sexta, primera y
segunda, por este orden. Estas tres primeras causas, tal como se observa en la
lnea continua del diagrama, representan un porcentaje alto del total de paradas,
en concreto un 79,5% de stas, (11+10+10)/39. En la grfica 7 se puede
observar, sin embargo, que no todas las paradas tienen igual importancia en
cuanto al tiempo de interrupcin. Las tres primeras causas (primera, sexta y
tercera) suponen un 80,4% del tiempo de parada, (70+53+41)/204. Si el inters
de la empresa se encuentra en reducir al mximo el tiempo de parada (y no
tanto el nmero de veces en que la produccin se detiene) debera centrarse en
los determinantes de la rotura de tornillos, los desajustes de temperatura y la
rotura o bloqueo de cintas.
Grfica 6
Porcentaje

50

40

100

Nmero de paradas

30

20

10

50

11

10

10
4

0
6,00

Causa de la parada

1,00

2,00

3,00

0
4,00

5,00

Grfica 7

Tiempo de parada

Porcentaje

300

200

100

100

50

70
53
41
20

0
1,00

Causa de la parada

6,00

3,00

4,00

0
2,00

5,00

CAPTULO II. Distribucin de frecuencias e histograma

Las variables de tipo cuantitativo son aquellas que toman, en lugar de


categoras, valores numricos. Las categoras de las variables cualitativas pueden
relacionarse con valores numricos, pero eso no las convierte en cuantitativas,
puesto que el nmero, en su caso, no es ms que una etiqueta, careciendo de
sentido operar matemticamente con ellos.

Escala de intervalo y escala de cociente. Desde un punto de vista terico se


distingue entre variables cuantitativas medidas en escala de intervalo y en escala
de cociente. Las variables cuantitativas tienen una escala de intervalo si se
pueden ordenar sus valores y, adems, se pueden realizar con ellos las
operaciones de suma y resta. La primera caracterstica la comparte con las
variables cualitativas ordinales, pero al contrario que en aqullas, en la escala de
intervalo puede medirse la distancia entre distintas observaciones. Permite
afirmar, por ejemplo, que un individuo tiene un valor que supera en diez
unidades al que toma otro individuo, o que entre dos individuos hay una
diferencia de veinte unidades. Las variables con escala de cociente aaden a
estas caractersticas la de incorporar un origen no arbitrario. La diferencia
esencial es que este segundo tipo de variable admite un cero verdadero
(toneladas consumidas o nmero de empleados, por ejemplo, donde el cero se
entiende como inexistencia) y permite el clculo de proporciones entre los
distintos valores (una observacin toma un valor que es el doble que el de otra).
Normalmente, desde el punto de vista prctico, no siempre se realiza una
distincin entre ellas.

Variables discretas y continuas. Tambin se suele distinguir en la estadstica


descriptiva entre variables de tipo discreto (si la variable toma un nmero finito
o infinito numerable de observaciones) y de tipo continuo (infinito no
numerable). De nuevo, desde el punto de vista prctico esta distincin no es
importante en muchas ocasiones.

Distribucin de frecuencias. Diagrama de barras. La idea de recuento, es


decir, la idea de crear una distribucin de frecuencias debe ser, como en el caso
de las variables cualitativas, el primer paso del anlisis. Observar los distintos
valores que toma una variable, ordenarlos de menor a mayor y contar el nmero
de veces que aparece cada valor nos dar una idea de su comportamiento. El
nico problema que se plantea con una variable de tipo cuantitativo es que suele
tomar un nmero de valores mucho mayor que las posibles categoras de una

variable cualitativa. La imagen general que se pretende dar con la distribucin de


frecuencias puede ser entonces poco til, porque la informacin est poco
resumida. El trabajo con intervalos de la variable, en lugar de con cada uno de
sus posibles valores, es el procedimiento normal para conseguir una imagen
sinttica de la distribucin.
Ejemplo 1. Distribucin de frecuencias del nmero de hijos. En este
primer ejemplo vamos a obtener la distribucin de frecuencias y el
diagrama de barras del nmero de hijos de una muestra de familias
espaolas. La muestra de 1254 familias est formada por una seleccin
aleatoria de declarantes del IRPF que ya hemos analizado anteriormente.
La distribucin de frecuencias para una muestra de esta variable Nmero
de hijos del hogar aparece en el cuadro 1 y su representacin en un
diagrama en barras en la grfica 1.
Cuadro 1

Nios
0
1
2
3
4
5

Grfica 1

Nmero de hijos del hogar


Cumulative
Frequency
Percent
Frequency
562
307
301
59
23
2

44.8
24.5
24.0
4.7
1.8
0.2

562
869
1170
1229
1252
1254

Cumulative
Percent
44.8
69.3
93.3
98.0
99.8
100.0

600
562
500

400

Frecuencias absolutas

300

307

301

200

100
59
0
0

Nmero de hijos del hogar

El primer resultado interesante de la distribucin es el disponer de


los valores que toma la variable, informacin que a priori no conocamos.
El nmero de hijos en la muestra toma nicamente valores 0, 1, 2, 3, 4,
5. Se trata de una variable de tipo cuantitativo discreta. Como en el caso
de una variable cualitativa podramos detectar la moda y mediana de la
distribucin. La moda corresponde al valor 0, ya que el 44.8% de las
familias no tienen ningn hijo en el hogar. La mediana de la distribucin
es el hijo nico, ya que es en el valor 1 en donde se acumulan el 50% de
las observaciones. Se puede resaltar, adems, la importancia de los tres
primeros valores para describir el comportamiento de la muestra: el
93.3% de las familias tendra un nmero igual o inferior a dos hijos.

Un problema diferente se enfrenta cuando la variable toma diversos


valores numricos, pero con un nmero mayor de posibilidades. Pensemos en la
distribucin de la edad del perceptor principal de rentas de una familia
(sustentador principal) en la misma muestra de declarantes. En concreto, si
solicitsemos la distribucin de frecuencias en una muestra de 1460 familias,
para la variable Edad del sustentador principal, nos encontraramos ahora con la
distribucin del cuadro n 2.
Cuadro 2
EDAD del sustentador principal
Value
16,00
17,00
18,00

Frequency Percent
1
,1
4
,3
13
,9
,9
1,2

Valid
Percent
,1
,3

Cum
Percent
,1
,3

19,00
20,00
21,00
22,00
23,00
24,00
25,00
26,00
27,00
28,00
29,00
30,00
31,00
32,00
33,00
34,00
35,00
36,00
37,00
38,00
39,00
40,00

9
20
18
33
34
37
36
42
33
31
33
32
27
34
45
31
32
31
26
31
31
25

,6
1,4
1,2
2,3
2,3
2,5
2,5
2,9
2,3
2,1
2,3
2,2
1,8
2,3
3,1
2,1
2,2
2,1
1,8
2,1
2,1
1,7

,6
1,4
1,2
2,3
2,3
2,5
2,5
2,9
2,3
2,1
2,3
2,2
1,8
2,3
3,1
2,1
2,2
2,1
1,8
2,1
2,1
1,7

1,8
3,2
4,5
6,7
9,0
11,6
14,0
16,9
19,2
21,3
23,6
25,8
27,6
29,9
33,0
35,1
37,3
39,5
41,2
43,4
45,5
47,2

34
2,3
27
1,8
34
2,3
31
2,1
40
2,7
32
2,2
35
2,4
23
1,6
20
1,4
28
1,9
,8 68,8
34
2,3
32
2,2
28
1,9
21
1,4
25
1,7
30
2,1
38
2,6
25
1,7
15
1,0
15
1,0
12
,8
18
1,2
11
,8
17
1,2
14
1,0
12
,8
20
1,4
10
,7
9
,6

2,3
1,8
2,3
2,1
2,7
2,2
2,4
1,6
1,4
1,9

49,5
51,4
53,7
55,8
58,6
60,8
63,2
64,7
66,1
68,0

2,3
2,2
1,9
1,4
1,7
2,1
2,6
1,7
1,0
1,0
,8
1,2
,8
1,2
1,0
,8
1,4
,7
,6

71,1
73,3
75,2
76,6
78,4
80,4
83,0
84,7
85,8
86,8
87,6
88,8
89,6
90,8
91,7
92,5
93,9
94,6
95,2

(Continuacin Cuadro 2)
41,00
42,00
43,00
44,00
45,00
46,00
47,00
48,00
49,00
50,00
51,00
11
52,00
53,00
54,00
55,00
56,00
57,00
58,00
59,00
60,00
61,00
62,00
63,00
64,00
65,00
66,00
67,00
68,00
69,00
70,00

,8

71,00
72,00
73,00
74,00
75,00
76,00
77,00
78,00
79,00
80,00
81,00
82,00
83,00
84,00
85,00
86,00
87,00
88,00

6
8
5
7
8
4
1
5
5
5
5
5
1
1
1
1
1
1
------1460

Total

,4
,5
,3
,5
,5
,3
,1
,3
,3
,3
,3
,3
,1
,1
,1
,1
,1
,1
------100,0

,4
,5
,3
,5
,5
,3
,1
,3
,3
,3
,3
,3
,1
,1
,1
,1
,1
,1
-----100,0

95,6
96,2
96,5
97,0
97,5
97,8
97,9
98,2
98,6
98,9
99,2
99,6
99,7
99,7
99,8
99,9
99,9
100,0

Grfica 2
50

40

Frecuencias absolutas

30

20

10

0
16

20
18

24
22

28
26

32
30

36
34

40
38

44
42

48
46

52
50

56
54

60
58

64
62

68
66

72
70

76
74

80
78

84
82

88
86

EDAD del sustentador principal

La lectura de esta distribucin ya no resulta tan cmoda como cuando la


variable toma un nmero escaso de valores. La creacin de la tabla sigue siendo
una ayuda para comprender el comportamiento de la variable (moda, mediana,
porcentajes acumulados hasta un determinado valor), pero resulta algo ms difcil
hacerse una idea general de la distribucin. La representacin grfica del
diagrama en barras (grfica 2) nos ayuda a simplificar la imagen, pero tambin
presenta un exceso de informacin. Uno de los principales objetivos de las

tcnicas estadsticas es facilitar la comprensin de la informacin numrica,


sacrificando volumen de informacin (menor precisin) por una mejor
comprensin de la misma (mayor eficiencia).

Histograma. Para tratar variables que toman gran cantidad de valores el


procedimiento usual es el de agrupar los valores en intervalos. Tomemos la
variable edad del sustentador principal con la que hemos trabajado en el
apartado anterior. De una manera arbitraria, podemos pensar en crear intervalos
de edad de 8 aos: de los 16 a los 24 aos, de los 24 a los 32, etc. En el cuadro 3
se recoge el resultado de esta agrupacin de la variable y en la grfica 3, la
representacin correspondiente de las frecuencias relativas de cada intervalo.
Aunque ahora no dispone de informacin sobre el nmero de individuos
de la muestra que tienen una edad concreta, los rasgos generales de la
distribucin de la edad es ms clara.

Cuadro 3
Valid

Cum

EDAD Frequency Percent Percent Percent


16
24
32
40
48
56
64
72
80

a
a
a
a
a
a
a
a
a

24
32
40
48
56
64
72
80
88

Total

169
268
252
256
199
164
96
40
16
------1460

11,6
18,4
17,3
17,5
13,6
11,2
6,6
2,7
1,1
------100,0

11,6
18,4
17,3
17,5
13,6
11,2
6,6
2,7
1,1
------100,0

11,6
29,9
47,2
64,7
78,4
89,6
96,2
98,9
100,0

Grfica

300

200

100

0
16 - 24

24 - 32

32 - 40

40 - 48

48 - 56

56 - 64

64 - 72

72 - 80

80 - 88

EDAD del sustentador principal

La representacin realizada para la variable Edad del sustentador


principal se denomina histograma. Aunque se parece al diagrama de barras,
se diferencian en que en el diagrama, la altura de la barra es proporcional a la
frecuencia, mientras que en el histograma es el rea del rectngulo la que es
proporcional a la frecuencia. Formalmente pueden establecerse otras
diferencias entre el diagrama en barras y el histograma. En el diagrama, cada
barra representa la frecuencia de un atributo de la variable, mientras que en un
histograma, cada uno de los rectngulos representa las frecuencias de
diversos valores de la variable (intervalos de valores). Adems, debe tenerse
en cuenta que en los histogramas, cuando aparece un intervalo con frecuencia
cero, no se omite por ello su representacin, mientras que en un diagrama de
barras no se incluye ningn espacio para aquellos valores con frecuencia nula.

En el histograma se representan las frecuencias de la variable definida en


intervalos. El rea del rectngulo es proporcional a la frecuencia en el intervalo.

El histograma se construye de manera que el rea correspondiente al


rectngulo que se dibuja sobre el intervalo sea proporcional a su frecuencia.
Carecera de sentido proceder como en el diagrama de barras. Puesto que los
intervalos en los que se puede dividir cualquier variable continua son de una

amplitud y nmero arbitrario, si dibujsemos barras con alturas proporcionales a


las frecuencias para cada intervalo, los resultados seran absurdos.
Haciendo el rea proporcional a la frecuencia relativa para el intervalo isimo se tendr:

Area i = basei * alturai =

ni
n

donde la base es la amplitud del intervalo y, por tanto, la altura del rectngulo es
igual a:

alturai =

ni 1
n basei

Si un intervalo tiene una gran amplitud tender en principio a ofrecer un


mayor nmero de frecuencias, no obstante en el histograma se seguir
manteniendo un rea total proporcional. La altura del rectngulo, de acuerdo con
su definicin, se conoce como densidad de frecuencia.
Para identificar cada intervalo se emplea en ocasiones sus puntos medios,
denominados marcas de clase:

marca de clase =

Lmite superior del intervalo + Lmite inferior del intervalo


2

En muchos histogramas es la marca de clase el valor que identifica los


intervalos.
En general, se emplea el histograma: (i) cuando se trata de variables
que contienen muchos valores diferentes; (ii) cuando tiene sentido construir
intervalos, agrupando valores adyacentes.

Cmo trabajar con los histogramas. El histograma pretende facilitar la


comprensin de la forma de la distribucin de la variable.
Al estudiar un histograma se debe estar dispuesto a descubrir cules son
los valores ms frecuentes, los valores que ocurren con poca frecuencia, la
simetra o asimetra de la distribucin, su dispersin y forma.
La moda y la mediana que utilizbamos para describir una variable
cualitativa pueden usarse con la misma definicin sobre las variables

cuantitativas. La moda es el valor con mayor frecuencia. La mediana es aquel


valor que (ordenada la variable de menor a mayor) deja por debajo de s mismo
el 50% de las observaciones. Estos estadsticos pueden calcularse sobre la
distribucin original de la variable, aunque puede ser recomendable obtener la
moda y la mediana en los intervalos de la variable. Existen frmulas para obtener
la moda y la mediana a partir de la informacin agregada en intervalos, pero es
tambin correcto detectar la moda y mediana en el propio intervalo y hablar, por
ejemplo, del intervalo modal cuando en una distribucin se detecta un intervalo
con un rea (una frecuencia) mayor que los restantes.
Uno de los problemas de los histogramas es decidir con cuntos
intervalos construirlos y si los intervalos deben ser todos de la misma amplitud.
Normalmente los histogramas se construyen con intervalos de igual amplitud,
de manera que o bien se define el nmero de intervalos y de ah se deduce (a
partir del rango de la variable) la amplitud de cada intervalo, o bien se decide
arbitrariamente la amplitud del intervalo y luego se deduce el nmero de
intervalos. Estas decisiones estn sujetas a una cierta arbitrariedad. Una regla
frecuentemente utilizada es la de definir intervalos de la misma amplitud, en
un nmero igual al entero ms prximo a n .
Es normal definir intervalos de diferente amplitud en las colas de la
distribucin (valores superiores e inferiores de la distribucin), en donde adems
se suelen emplear intervalos abiertos. El intervalo inferior se define tomando los
valores por debajo de una cantidad (menos de __ ) y el intervalo superior, por
encima de una cantidad (ms de __ ). El propsito de estos intervalos abiertos es
evitar histogramas en los que pesen demasiado la representacin de los valores
extremos, que pueden estar muy alejados del comportamiento comn.

Ejemplo 2. Efecto del nmero de intervalos en la construccin del


histograma. La decisin sobre el nmero de intervalos que deben tomarse
para construir un histograma puede ser decisiva para la comprensin de
la distribucin. Como ejemplo se ofrecen en los grficos 4 a 7 cuatro
histogramas de la variable ingresos familiares de una muestra de familias
de la Encuesta de Presupuestos Familiares (EPF-90). En la grfica 4 se
ofrece un histograma basado en 27 intervalos (nmero seleccionado
segn criterios formales por un programa informtico de estadstica),
siendo la amplitud de cada intervalo de 20000 ptas. La grfica 5 se basa
en 10 intervalos (amplitud 54000), la grfica 6 en 25 intervalos (amplitud
21600) y, finalmente, la grfica 7 con 50 intervalos de amplitud igual a
10800, cada uno de ellos.

Grfica 4

Grfica 5

400000

600000

500000
300000
400000

200000

300000

200000
100000
100000

0
200000

0
1000000
600000

1800000
1400000

2600000
2200000

3400000
3000000

4200000
3800000

5000000
4600000

370000
5400000

1450000
910000

Ingresos percibidos. Muestra EPF

2530000
1990000

3610000
3070000

4690000
4150000

5230000

Ingresos percibidos. Muestra EPF

Grfica 6

Grfica 7

300000

200000

200000

100000

100000

0
208000

1504000
856000

2800000
2152000

Ingresos percibidos. Muestra EPF

4096000
3448000

5392000
4744000

0
154000

1234000
694000

2314000
1774000

3394000
2854000

4474000
3934000

5014000

Ingresos percibidos. Muestra EPF

Observe que ni siquiera las grficas 4 y 6 (con 27 y 25 intervalos)


proporcionan una imagen idntica, detectndose una moda ms sealada en el
primer histograma. En la grfica 5 (con 10 intervalos) se recoge la imagen bsica
de la distribucin, siendo incluso suficiente para captar las grandes lneas de la
misma, caracterizada por ser una distribucin asimtrica hacia la derecha. Sin
embargo, si uno est interesado en detectar posibles modas y submodas (o
modas relativas) parecera ms adecuado el histograma basado en 50
intervalos.

Cuando se trabaja con histogramas, resulta recomendable experimentar


con el nmero de intervalos.

Ejemplo 3. Distribucin de los porcentajes de gasto en alimentacin y


vestido. En este ejemplo se consideran dos partidas del gasto en
consumo de una muestra de familias espaolas. Se van a analizar los
histogramas y las distribuciones de frecuencias de las proporciones de
gasto del consumo en alimentos y en vestido y calzado. Cada uno de
estos agregados tienen caractersticas distintas, que se reflejan en las
formas de sus distribuciones.

La muestra que seleccionamos corresponde a 271 hogares,


provenientes de la Encuesta Continua de Presupuestos familiares
(ECPF). La ECPF es una encuesta realizada por el INE desde el primer
trimestre de 1985, efectundose cada trimestre desde ese ao. La
encuesta recoge el origen y cuanta de las rentas familiares y su
concrecin en gastos de consumo (gastos trimestrales de ms de 200
bienes). La unidad bsica de la encuesta son los hogares, de los que se
seleccionan alrededor de 3200 de manera aleatoria, renovndose cada
trimestre el 12.5% de la muestra (como consecuencia de ello, un hogar
permanece en la encuesta como mximo ocho trimestres). Las 271
familias de nuestro ejemplo son las que cumplen su ltimo trimestre en la
encuesta en el cuarto trimestre de 1991.
Las variables son proporciones de gasto (en alimentacin, y en vestido y
calzado). Estas se han calculado, para cada bien y en cada familia como:

proporcin del gasto en el bien i =

gasto del hogar en el bien i


100
consumo total del hogar

En las grficas 8 y 9 (alimentacin y vestido y calzado,


respectivamente) aparecen conjuntamente las distribuciones de las
proporciones de gasto y sus histogramas. Estos resultados se han
obtenido utilizando un programa informtico de estadstica y el nmero
de intervalos en los que deban dividirse las variables ha sido calculado
por el propio programa. En los resultados se ofrecen el histograma (con
las frecuencias relativas en el eje horizontal) y la distribucin de
frecuencias: FREQ. es la frecuencia absoluta, CUM. FREQ. la frecuencia
absoluta acumulada, PCT. la frecuencia relativa y CUM. PCT. la
frecuencia relativa acumulada. Los intervalos se definen por medio de su
marca de clase; recuerde que la marca de clase de un intervalo es su
punto medio, de manera que un valor de 4 al lado de uno de los
rectngulos del histograma indica que el intervalo correspondiente est
entre 0 y 8.

La primera impresin que se obtiene de los dos histogramas es la


de su diferente forma. Ambas son distribuciones unimodales (con un
intervalo definiendo la mxima frecuencia), aunque la distribucin
correspondiente a alimentacin presenta esa moda en el centro de los
valores que toma la variable, mientras que vestido y calzado tiene la
moda bastante desplazada del centro de la variable, muy cerca de sus

valores mnimos. Las distintas formas de las distribuciones son


importantes cuando se trata de describir el comportamiento de una
variable. Aunque ms adelante volveremos sobre ello, puede ya retener
que un tipo de distribucin como la de alimentos se conoce en estadstica
como distribucin simtrica, mientras que la de vestido y calzado se
conoce como distribucin asimtrica por la derecha, al tener muchos ms
valores alejados de la moda por la parte superior de la variable (una
distribucin asimtrica por la izquierda tendra la imagen contraria).

Qu nos aporta la informacin de las distribuciones?


Centrmonos en el gasto en alimentacin. El intervalo mnimo de la
variable tiene una marca de clase del 4% y el intervalo ms alto es igual
al 84%. El intervalo ms frecuente, que definira la moda, se sita en el
28% del gasto, cifra que identificara el 23.99% de las familias de la
muestra. Al tratarse del consumo de alimentos, parece que sera lgico
esperar que el porcentaje de gasto que stos representan en un hogar no
fuera muy elevado. La moda, con un valor alrededor del 28%, nos ofrece
una buena referencia de cul puede ser la proporcin esperada. Sin
embargo, en la distribucin destacan las observaciones que se sitan en
la parte superior de la variable. El porcentaje de familias que dedican
algo ms del 50% de su presupuesto a la alimentacin resulta
significativo. En concreto, por encima del intervalo cuya marca de clase
es 44 (40% a 48%) se sita el 100-90.04=9.96%, es decir que alrededor
de un 10% de las familias, consumen ms del 48% de su gasto total en
alimentacin. La mayora de hogares, sin embargo, limitan este
porcentaje, destacando que el 60.52% de los hogares tiene un porcentaje
de gasto inferior al 32%.

La descripcin de la segunda variable puede hacerse en trminos


parecidos. La moda, con un valor del 5%, nos define el valor ms
frecuente. La distribucin de este tipo de gasto es diferente a la de
alimentacin. El recorrido de la variable es bastante menor, situndose
tericamente entre el 0 y el 47.5% (valores inferior y superior del primer y
ltimo intervalo, respectivamente). El intervalo inferior tiene como punto
medio 0, y debe interpretarse como definido entre 0 y 2.5%, al no ser
posible definir un porcentaje de gasto negativo (intervalo entre 2.5 y
2.5). En este intervalo se sita el 22.88% de los hogares, de manera que
destaca de la distribucin el que el 50.18% de los hogares gasten menos
del 7.5% de su consumo trimestral en vestido y calzado. Los valores
superiores de la variable, sin embargo, no muestran frecuencias tan
altas. Por encima del 25% del gasto (y hasta un mximo del 47.5%) se
encontraran nada ms que alrededor del 7% de los hogares.

Grfica 8
P r o p o r c i n d e g a s t o e n a l i me n t a c i n
FREQ.

CUM.
FREQ.

PCT.

CUM.
PCT.

12

12

4. 4 3

4. 4 3

12

31

43

11. 44

15. 87

20

56

99

20. 66

36. 53

28

65

164

23. 99

60. 52

36

51

215

18. 82

79. 34

44

29

244

10. 70

90. 04

52

13

257

4. 8 0

94. 83

60

265

2. 9 5

97. 79

68

266

0. 3 7

98. 15

76

268

0. 7 4

98. 89

84

271

1. 1 1

100. 00

10
Fr e c u e n c i a s r e l a t i v a s
ECP F .

20

30

I V t r i me s t r e 1 9 9 1

Grfica 9
Pr o p o r c i n g a s t o e n v e s t i d o y c a l z a d o

FREQ.

CUM.
FREQ.

PCT.

CUM.
PCT.

62

62

22. 88

22. 88

74

136

27. 31

50. 18

10

52

188

19. 19

69. 37

15

37

225

13. 65

83. 03

20

14

239

5. 17

88. 19

25

12

251

4. 43

92. 62

30

14

265

5. 17

97. 79

35

266

0. 37

98. 15

40

270

1. 48

99. 63

45

271

0. 37

100. 00

10
Fr e c u e n c i a s r e l a t i v a s
ECP F .

20

30

I V t r i me s t r e 1 9 9 1

Ejemplo 4. La influencia del salario mnimo en la desigualdad


salarial. El impacto que tiene el salario mnimo sobre la distribucin de
los salarios ha sido analizado con datos de la economa portuguesa por
Rute (1997). La legislacin sobre salario mnimo impone un efecto de tipo
igualitario en la estructura de salarios, al imponer restricciones en los

salarios pagados por los empleadores. En su trabajo discute diversos


histogramas que muestran la distribucin de los salarios en distintos
aos. El anlisis de los mismos se dirige especialmente a la deteccin de
los picos (modas o submodas) del salario mnimo, clarificando adems la
estructura de salarios que quiere describirse. En todos los histogramas
se seala la posicin de los salarios mnimos correspondientes a la
agricultura y al conjunto de actividades econmicas, excluyendo en este
caso la agricultura y el trabajo domstico (estas posiciones se identifican
en el eje horizontal con las letras A y M, respectivamente).
En la grfica 18 se muestra el histograma de los salarios del ao
1983. En el mismo puede detectarse una moda en el salario mnimo
agrcola y una moda, ms importante, en el salario mnimo del resto de la
economa. Hasta 1986 (grfica 19), las relaciones econmicas se
endurecieron, contrayndose el nivel de empleo y aumentando el cierre
de empresas. La legislacin sobre salario mnimo hizo que ste fuera
mayor en relacin al salario medio en la economa. Esto tuvo un efecto
igualitario sobre la distribucin, al acercar los salarios ms bajos a los del
resto de trabajadores. Este efecto se dio tambin sobre los salarios
inferiores al mnimo legal, que se vieron arrastrados por el aumento del
salario mnimo. El histograma de los salarios del ao 1992 se muestra en
la grfica 20. En ese ao no se permitieron salarios legales por debajo
del mnimo, el pico correspondiente todava se detecta, pero la
concentracin por encima del mnimo aumenta.
Los picos detectados en las distribuciones ilustran la importancia
de la legislacin sobre salario mnimo y, en consecuencia, la importancia
de los factores institucionales en la distribucin de los salarios.
Grfica 18

.078947

Fraction

0
3000

39990
salarios base 1983

Grfica 19
.102424

Fraction

0
4000

A M

68992
salarios base 1986

Grfica 20
.101049

Fraction

0
117000

176900

A=M
salarios base 1992

Las variables de tipo cuantitativo permiten un tratamiento ms completo


que el visto para las variables cualitativas. Adems de las distribuciones de
frecuencias, sus representaciones grficas y estadsticos como la moda y la
mediana, es posible calcular otras medidas numricas que de manera sencilla y
sinttica faciliten informacin de la distribucin de la variable. En el siguiente
captulo se van a discutir algunos de estos estadsticos.

CAPTULO III. ESTADSTICOS DESCRIPTIVOS de una VARIABLE


CUANTITATIVA

De manera tradicional se distingue entre los estadsticos bsicos que


intentan describir la posicin de la variable y los que miden su dispersin.
Tambin se presentan en un grupo diferenciado los estadsticos de forma, que
describen la asimetra o apuntamiento de la distribucin. Mantendremos aqu esta
distincin.
Denotaremos la variable a describir como X y a las observaciones de la
misma, desde i igual a 1 hasta n, como Xi.

Medidas de posicin central

Moda y Mediana. Entre las medidas bsicas de posicin central se encuentran la


moda y la mediana, que ya han sido utilizadas en el anterior captulo.
La moda es aquel valor que presenta una frecuencia mayor. La mediana
es aquel valor que se sita en el punto medio de la distribucin, cuando los
valores estn ordenados de menor a mayor.
Supongamos que disponemos de los das de vacaciones que han
disfrutado nueve turistas: 16, 29, 13, 15, 25, 14, 26, 17, 26. Para calcular la
mediana de estas observaciones, primero deben ordenarse los valores de menor a
mayor: 13, 14, 15, 16, 17, 25, 26, 26, 29. En segundo lugar, debe localizarse el
valor que se sita en el centro de la distribucin, que en este caso sera el valor
17, que deja cuatro observaciones por debajo de l y cuatro observaciones por
encima. Si n, el nmero de observaciones, es impar, como en este ejemplo,
siempre ser inmediato detectar el valor de la mediana; bastar con localizar el
valor situado en el lugar (n + 1) 2 .
En el ejemplo anterior, con nueve observaciones, la mediana es el valor
situado en el quinto lugar. Si el nmero de observaciones es par esta regla
necesita modificarse. Supongamos que tenemos diez observaciones: 13, 14, 15,
16, 17, 25, 26, 26, 29, 31. Ninguna de ellas queda ahora exactamente en el centro
de la distribucin. El valor 17 deja por debajo cuatro observaciones y por encima
cinco, mientras que el valor 25 deja cinco por debajo y cuatro por encima. En el
caso de tener un nmero n de observaciones par, se puede considerar que la

mediana es el promedio de estos dos valores: (17 + 25) 2 = 21 . Una posible


regla, cuando el nmero de observaciones es par es promediar los valores
situados en las posiciones n 2 y (n 2 ) + 1 . No obstante, existen tambin otras
formas de determinar el valor concreto de la mediana.
Otras medidas de uso comn son la media (aritmtica y geomtrica) y los
cuartiles y percentiles (stos ltimos como medidas generales de posicin).

Media Aritmtica: Como estadstico de posicin central se distingue de la


mediana en que utiliza en su clculo todas las observaciones de la muestra. Su
frmula para una variable X es la siguiente:
n

x=

X
i =1

Es decir, la suma de los valores de todas las observaciones de la variable


dividida por el nmero total de observaciones.
La frmula de la media se modifica si de trabaja con datos agrupados,
que provienen de una distribucin de frecuencias. Entonces se tienen los distintos
valores que toma la variable y la frecuencia con la que lo hacen:
X1
X2
X3

n1
n2
n3

Xp

np

En estas circunstancias, la media se expresa (para p valores diferentes)


como:
p

x=

n
i =1

Xi

Las dos expresiones de la media son equivalentes, puesto que en ambos


casos en el numerador aparece la suma de todos los valores de la variable.

Ejemplo 1. A una muestra de 100 turistas de una zona se les


pregunta cuntas veces la han visitado. La distribucin de la variable se
muestra en el siguiente cuadro. Se desea calcular el valor medio y la
mediana de la distribucin.
Nmero visitas
Frecuencia absoluta
Frecuencia
acumulada

1
48
48

2
30
78

3
15
93

4
4
97

5
0
97

6
3
100

El valor medio ser:

x=

48 1 + 30 2 + 15 3 + 4 4 + 0 5 + 3 6
=1,87
48 + 30 + 15 + 4 + 0 + 3

Dado que hay 100 observaciones (nmero par), la mediana ser


el promedio de los valores en las posiciones 50 y 51. En la distribucin
de frecuencias acumuladas las dos posiciones corresponden a 2 visitas,
que ser por tanto la mediana de la distribucin.
Ejemplo 2. En ocasiones la informacin disponible de una variable
est nicamente en intervalos. Por ejemplo, la informacin sobre el
nmero de das de estancia en el lugar de vacaciones puede presentarse
agrupada en intervalos:
Das de estancia
1-7 8-14 15-21 22-30
Frecuencia absoluta 1991 2422 172
24
Si se desea conocer los das medios de estancia, se calcula la media
tomando como valores de la variable las marcas de clase (los puntos medios de
los lmites de cada intervalo: 4, 11, 18 y 26):

x=

1991 4 + 2422 11 + 172 18 + 24 26


= 8,3
1991 + 2422 + 172 + 24

Tambin para la mediana debe aplicarse alguna regla especial. La


mediana debe estar en el intervalo 8-14. Si se quiere dar un valor concreto se
aplica la siguiente frmula:

Mediana = Linferior

n
N inferior
2
+
amplitud
nintervalo

donde:

Linferior = lmite inferior del intervalo que acumula el 50% de

observaciones.
N inferior = frecuencia acumulada hasta el intervalo anterior al que contiene
la mediana.

nintervalo = frecuencia absoluta del intervalo que contiene la mediana.


amplitud = amplitud del intervalo que contiene la mediana.
En nuestro ejemplo:

4609
1991
Mediana = 8 + 2
6 = 8,8
2422
Propiedades de la media
(1) Como estadstico de posicin central la media tiene como principal
caracterstica la siguiente:
n

( X
i =1

x )=0

Es decir, la suma de las desviaciones de los valores con respecto a la


media es igual a cero.
(2) Si a los valores de la variable se les suma una constante ( c + X i ) , la
media de los valores transformados se incrementa en esa cantidad:
n

xc+ X =

(c+ Xi )
i =1

i =1

i =1

c + Xi
n

nc + Xi
i =1

=c+

X
i =1

=c+ x

(3) Si los valores de la variable se multiplican por una constante ( c X i ) ,


la media de los valores transformados es la media de la variable
original multiplicada por la misma constante:
n

x cX =

c X
i =1

c Xi
i =1

= cx .

Media ponderada. Es frecuente trabajar tambin con la media ponderada, en la


que los valores promediados son ponderados mediante un peso determinado. Si
tenemos p valores distintos de la variable Xi y a cada uno de ellos se le da un
peso wi, la media ponderada se define como:
p

xw =

w X
i

i =1

i =1

Si, por ejemplo, las observaciones de una variable se ponderan por sus
frecuencias relativas: wi = ni n , es decir, por la importancia relativa de cada
valor en la distribucin, se tendra (suponiendo p valores distintos):
p

xw =

i =1

ni

i =1 n

ni

nX

n X
i

i =1

n
i =1

n X
i =1

que es la frmula que hemos empleado para la media en el caso de datos


agrupados.
En ocasiones, la ponderacin tiene que ver con el peso en la poblacin de
las distintas observaciones. Suponga, por ejemplo, que dispone de la renta
familiar per capita mensual de tres familias pertenecientes cada una de ellas a
uno de los tres municipios de una regin. Las rentas son de 2000, 2000 y 1000
euros y los tamaos de los municipios son: 10000, 20000 y 1000000 habitantes,
respectivamente. Si se le pidiese estimar la renta familiar per capita media para
toda la regin una opcin directa sera la siguiente:

x=

2000 + 2000 + 1000


= 1666,67
3

El inconveniente de este clculo es que no tiene en cuenta que cada


familia representa un municipio de diferente tamao. Resultara lgico utilizar
una media ponderada, donde la renta de cada familia fuera representativa de
todas las familias de su municipio:

x=

2000 10000 + 2000 20000 + 1000 1000000


= 1029,13
10000 + 20000 + 1000000

Tiene sentido ponderar, porque cada observacin es representativa de un


nmero de familias distinto.
Imagine, por ejemplo, que la informacin censal le permite conocer la
distribucin de una poblacin en zonas rurales y urbanas (60% y 40%). El
resultado de una muestra aleatoria simple no tiene por qu respetar esta
distribucin, especialmente si el tamao muestral no es muy elevado. Una
alternativa podra ser seleccionar una m.a.s. y ponderar las observaciones segn
provengan de una zona rural o urbana. Lo normal, en este caso, sera calcular dos
medias, una con las n rural observaciones rurales y otra con las nurbana
observaciones urbanas, calculando la media global como:

x = 0,60 x rural + 0,40 xurbana


Esto sera lo mismo que ponderar las observaciones de manera diferente,
segn sea su origen rural ( n rural ) o urbano ( nurbana ), empleando como
ponderaciones de la zona rural 0,60 / nrural y de las urbanas 0,40 / nurbana :

0,60
(x1,rural + x2,rural + K + xn,rural ) + 0,40 (x1,urbana + x2,urbana + K + xn,urbana )
n
nurbana
x w = rural
=
0,60
0,40
n rural
+ nurbana
n rural
nurbana
=

0,60
(x1,rural + x2,rural + K + xn,rural )+ 0,40 (x1,urbana + x2,urbana + K + xn,urbana ) =
n rural
nurbana

x1, rural + x 2 ,rural + K + x n , rural


= 0,60
nrural

+ x 2,urbana + K + x n ,urbana
x

+ 0,40 1, urbana
nurbana

= 0,60 x rural + 0,40 xurbana


Media ponderada y muestreos complejos. Comentaremos a continuacin el
empleo de la media ponderada cuando se dispone de informacin proveniente de
muestreos complejos. Cuando se trabaja con informacin muestral se dispone,
por ejemplo para una variable, de los valores de n individuos. Si el muestreo
realizado es del tipo denominado muestreo aleatorio simple (m.a.s.) cada uno de
los individuos de la poblacin ha tenido igual probabilidad de ser seleccionado
para formar parte de la muestra. Supongamos que el tamao de la poblacin es de

N = 100 y se toma una muestra aleatoria simple de 20 observaciones. La


probabilidad de aparecer en la muestra es la misma para todos los individuos e
igual a 20/100. Otra manera de expresar esta informacin es decir que cada
individuo de la muestra, al ser seleccionado, representa a cinco individuos de la
poblacin (100/20, ya que cada uno de los 20 elementos de la muestra representa
por igual a 5 individuos de la poblacin). Si queremos calcular la media de la
variable podramos plantearnos ponderar cada observacin por el nmero de
elementos a los que representa en la poblacin:
p

xw =

w X
i

i =1

w
i =1

5 X 1 + 5 X 2 + 5 X 3 +... +5 X 20 X 1 + X 2 + X 3 +... + X 20
=
20 5
20

El resultado, como puede comprobarse, no modifica el que se obtendra


si empleramos la frmula de x , sin ponderar las observaciones, ya que al ser las
ponderaciones iguales las frmulas son equivalentes.
Sin embargo muchas muestras se elaboran de manera que cada elemento
representa un nmero distinto de individuos en la poblacin. Para mejorar la
representatividad de la muestra y tambin para reducir los costes, muchas
encuestas modifican el esquema de m.a.s. de manera que los individuos de la
poblacin ya no tienen la misma probabilidad de ser seleccionados. La existencia
de diversas categoras (conglomerados o estratos) en la poblacin, se suele
aprovechar para seleccionar las muestras con el mnimo nmero de individuos y
la mxima representatividad. Es normal que las grandes encuestas ofrezcan junto
a la informacin de inters de los individuo un factor de elevacin poblacional,
que indica a cuntos elementos representa ese individuo a nivel de la poblacin.

El factor de elevacin poblacional indica a cuntos individuos de la poblacin


representa cada uno de los individuos de la muestra.
El factor de elevacin poblacional se calcula como la inversa de la probabilidad
de ser seleccionado en la muestra y debera utilizarse como peso del individuo al
calcular los estadsticos representativos de la poblacin.
Si se trabaja con un muestreo aleatorio simple, para una poblacin de N
individuos y una muestra de tamao n, cada uno de los elementos muestrales ser
representativo de N/n individuos en la poblacin. Por tanto, cada individuo
muestral tendra el mismo factor de elevacin poblacional. Si el diseo muestral

es ms complejo, cada uno de los individuos tendr un factor de elevacin


poblacional distinto.

Suponga, por ejemplo, que debe extraer una muestra de tamao 10 de


una poblacin dividida en dos clases, la primera consta de 100 individuos y la
segunda de 40. Rechaza hacer un m.a.s. puesto que en ese caso podra ocurrir que
las diez observaciones correspondieran a individuos de la primera clase,
perdindose con ello la informacin del segundo grupo. Decide hacer dos
selecciones aleatorias, una en cada grupo. Por cuestiones de coste se seleccionan
6 elementos en la primera subpoblacin y 4 en la segunda. Supongamos que los
resultados son los que aparecen en el cuadro 1. En la primera fila aparece la clase
a la que pertenecen las observaciones, en la segunda los valores que ha tomado la
variable.
Cuadro 1
Muestra:

Clase 1

Variable:

110 120 130 140 150 160

Clase 2
70

80

90

95

Si calculase la media nicamente a partir de los valores muestrales, el


resultado es el siguiente:
n

x=

X
i =1

110 + 120 + 130 K + 90 + 95


=
= 114,5
10

La alternativa es ponderar las observaciones teniendo en cuenta la


probabilidad de seleccin. Cada uno de los elementos del primer grupo tena una
probabilidad igual a 6/100 de ser seleccionado, mientras que los del segundo
grupo tenan una probabilidad de 4/40. La propuesta es multiplicar cada valor por
la inversa de esa probabilidad (16,67 y 10, respectivamente), con el siguiente
resultado:
n

xw =

w X
i

i =1

w
i =1

16,67 (110 + 120 + K + 160) + 10 (70 + 80 + K + 95)


= 120,36
140

Cuando se pondera una observacin por la inversa de la probabilidad de


seleccin, se est multiplicando esa observacin por lo que representa al nivel de
la poblacin.

Ejemplo 3. Los resultados que se obtienen segn se utilicen o no


los factores de elevacin pueden implicar una diferencia relevante.
Basndonos en informacin de 21155 familias de la EPF-90 se ha
calculado la media del gasto familiar, empleando y sin emplear los
factores de ponderacin que elabora el INE y que acompaan a los
resultados de la encuesta. En el primer caso, la media es igual a
2527105, mientras que sin ponderar las observaciones, la media es de
2419553. Si al analizar una encuesta no dispone de los factores de
elevacin o desconoce las probabilidades de seleccin de los individuos,
puede calcular la media no ponderada. No obstante, si su anlisis quera
referirse a toda la poblacin, sus conclusiones pueden verse limitadas.

Representatividad de la media. La media es muy sensible a la presencia en la


muestra de observaciones extremas. Cuando existen observaciones extremas
(tambin llamadas atpicas), la mediana o la moda son buenas alternativas al
empleo de la media, al tratarse de estadsticos que no son tan sensibles a la
presencia de valores en los lmites de la distribucin.
La siguiente representacin ejemplifica de una manera visual y clara el
impacto de una sola observacin extrema sobre la media.
__X1____X2__X3_____X4_ x ______X5___X6_________X7__________________
_

__X1____X2__X3_____X4_________X5_ x X6_______________________X7____
_

La media es el centro de gravedad del conjunto de valores, por lo que el


desplazamiento de una nica observacin hacia la derecha arrastra el valor medio
en esa direccin. Sin embargo, la mediana de la distribucin no se alterar. En
ambos casos X4 sera la mediana, el valor que deja por debajo igual nmero de
observaciones que por encima de l.
La media es un estadstico muy sensible a la existencia de valores extremos. La
moda y la mediana son una buena alternativa cuando existen observaciones
atpicas, al verse menos afectadas por su presencia.

Media cortada (Trimmed Mean). Algunos programas estadsticos incorporan


un clculo de la media menos sensible a las observaciones extremas. La media
cortada es un clculo ms robusto de la posicin central de las observaciones.
El calificativo de robusto debe entenderse en este caso como una menor
sensibilidad, como medida de posicin, a los valores atpicos. La media cortada
se calcula segn la expresin conocida de la media, pero suprimiendo un nmero
previo de observaciones en las colas superior e inferior de la variable. Pueden
suprimirse bien un nmero concreto de observaciones (1, 2, 3, , en cada una
de las colas) o bien un porcentaje del tamao de la muestra (0,5%, 1%, , en
cada cola). Si existen observaciones atpicas que corrompen el clculo de la
media, el empleo de la media recortada puede ser una solucin.

Ejemplo 4. Gasto familiar medio en energa elctrica. Una muestra del


impacto que tienen las observaciones extremas nos lo ofrece el anlisis
de una variable que puede obtenerse de la EPF-90. Se ha construido una
variable que pone el gasto en energa elctrica en relacin al gasto
familiar total. La variable, que denominaremos intensidad del consumo
elctrico (ice) se calcula como:

ice =

Gasto familiar en electricidad


100
Gasto familiar total

La variable se ha construido como un porcentaje, multiplicando el


cociente de ambas cantidades por 100. En la grfica 1, adems del
histograma aparecen las frecuencias, frecuencias acumuladas,
frecuencias relativas y frecuencias relativas acumuladas. La mayor parte
de la distribucin se acumula en los intervalos con puntos medios de 1.25
y 3.75, presentndose en ellos prcticamente el 90% de las
observaciones. El histograma queda sin embargo distorsionado por la
necesidad de representar valores extremos, del orden del 20% hasta el
46% de gasto.

Grfica 1

EEINMIDPOINT
-3.75
-1.25
1.25
3.75
6.25
8.75
11.25
13.75
16.25
18.75
21.25
23.75
26.25
28.75
31.25
33.75
36.25
38.75
41.25
43.75
46.25
0

2000

4000

6000

8000

10000

12000

FREQ.

CUM.
FREQ.

PCT.

CUM.
PCT.

0
0
13357
5562
1323
449
180
90
42
18
14
8
9
7
0
2
2
0
2
1
0

0
0
13357
18919
20242
20691
20871
20961
21003
21021
21035
21043
21052
21059
21059
21061
21063
21063
21065
21066
21066

0.00
0.00
63.41
26.40
6.28
2.13
0.85
0.43
0.20
0.09
0.07
0.04
0.04
0.03
0.00
0.01
0.01
0.00
0.01
0.00
0.00

0.00
0.00
63.41
89.81
96.09
98.22
99.07
99.50
99.70
99.79
99.85
99.89
99.93
99.97
99.97
99.98
99.99
99.99
100.00
100.00
100.00

14000

FREQUENCY

Vamos a comprobar el efecto que las observaciones extremas


tienen en la media. En el cuadro 2 aparece, en primer lugar, la media
calculada para todas las observaciones (21066 familias) y a continuacin
diversas medias cortadas: suprimiendo 1 observacin, 2, 3, 10 (en cada
una de las colas) y 105 (el 0.5% de cada una de las colas). El porcentaje
de gasto pasa de un 2.6% a un 2.52% cuando en el clculo se suprimen
210 individuos con valores extremos. Aunque el efecto no es importante,
muestra la influencia de unas pocas observaciones en la descripcin del
conjunto.

Cuadro 2
Media
Medias cortadas

2.6010

Observaciones suprimidas
(en cada cola):

1
2
3
10
105

2.5992
2.5974
2.5957
2.5867
2.5219

Media Geomtrica. La media geomtrica de n observaciones se define como:

g = n X 1 X 2 ... X n
Si se emplea la notacin para valores agrupados segn su frecuencia, la
media geomtrica se define como:

g = n X 1n1 X 2n2 ... X p p


n

La media geomtrica debe emplearse cuando se quieren promediar


porcentajes, tasas, tipos de inters, nmeros ndices, etc., es decir valores que
representan variaciones acumulativas, de un perodo respecto al anterior.
Como medida de posicin central, la media geomtrica es ms representativa
que la media aritmtica cuando la variable se define como variaciones
acumulativas.
Para valorar la importancia de este criterio vamos a discutir un ejemplo
basado en tasas de variacin. Supondremos que las observaciones de la variable
se realizan para un individuo a lo largo del tiempo, midindose el valor de la
variable en el momento 0, en el momento 1, ..., hasta el final del periodo, en el
momento T.
Dada una serie de valores de base temporal: X 0 , X 1 , X 2 ,..., X T , la tasa
de variacin de un perodo a otro se define como:

x[ t , t 1] =

X t X t 1
X t 1

De manera que los valores de X t verifican:

X t = ( 1 + x[ t , t 1] ) X t 1
denominndose a 1 + x[ t , t 1] factor de variacin unitaria.
La relacin entre el ltimo valor, XT, y el primero, X0 , se puede obtener si
sustituimos de manera recurrente:

X T = ( 1 + x[ T , T 1] ) X T 1 = ( 1 + x[ T , T 1] ) (1 + x[ T 1, T 2 ] ) X T 2 =... =

= ( 1 + x[ T , T 1] ) ( 1 + x[ T 1, T 2 ] )...(1 + x[ 2 , 1] ) ( 1 + x[1, 0] ) X 0
Si quisiramos definir una tasa media de variacin, x[ TMV ] , sta debera
satisfacer tambin la anterior relacin:

X T = (1 + x[ TMV ] )(1 + x[ TMV ] )...(1 + x[ TMV ] ) X 0 =


= (1 + x[ TMV ] ) T X 0
La conclusin es, por tanto, que la tasa media debe verificar:

( 1 + x TMV ) T = ( 1 + x[ T , T 1] ) ( 1 + x[ T 1, T 2 ] )...(1 + x[1, 0] )


O, en otros trminos, la tasa media de variacin debe ser igual a la media
geomtrica de los factores de variacin unitarios, menos la unidad:

x TMV = T ( 1 + x[ T , T 1] ) ( 1 + x[ T 1, T 2 ] )...(1 + x[1, 0] ) 1


Tenga en cuenta que este mismo valor puede obtenerse ms fcilmente
cuando se dispone de los valores inicial y final de la serie, ya que a partir de la
relacin:
X T = (1 + x[ TMV ] ) T X 0 ,
se tiene:

x[ TMV ] = T

XT
1
XO

Ejemplo 5. Tasa media de variacin. En el cuadro 3 aparecen el


nmero de horas trabajadas en la industria espaola de extraccin de
hullas, en el perodo 1987-1992. Se han calculado tambin las tasas de
variacin anuales y los factores de variacin unitaria y se desea obtener
la tasa de variacin media acumulativa.
Cuadro 3
Ao
1987
1988
1989

Horas
Trabajada
s
43088
43387
42222

Tasa de
variacin
0,0069
-0,0268

Factor de
variacin
unitaria
1,0069
0,9731

1990
40453
-0,0419
0,9581
1991
33936
-0,1611
0,8389
1992
32126
-0,0533
0,9467
Media Geomtrica (factores de variacin unitaria): 0,057
Media Aritmtica (tasas de variacin): -0,055

Dado que se dispone de los valores inicial y final de la serie, el clculo


puede basarse en la expresin:
,

x[ TMV ] = T

XT
1
XO

En nuestro caso:

x[TMV ] =5

32126
1 = 0,057
43088

Si calcula la media aritmtica de las tasas de variacin el valor


que obtiene es igual a -0,055, algo diferente del valor buscado.

Si slo dispone de informacin de las tasas de variacin o de los factores de


variacin unitaria y debe calcular la tasa media de variacin lo correcto es
emplear la frmula de la media geomtrica sobre los factores de variacin
unitarios (sin olvidar adems restar la unidad).

Ejemplo 6. Rentabilidad media de una accin. Veamos otro caso en el


que tambin resulta adecuado el empleo de la media geomtrica. En el
cuadro 4 se recoge la rentabilidad mensual de una accin, definida como
una tasa de variacin mensual del precio de la accin:

r[ t , t 1] =

p t p t 1
,
p t 1

t = 1,...,12.

Cuadro 4
Mes
1
2
3
4
5
6
7
8
9
10 11 12
Rentabilida
-0,13 0,00 0,29 0,06 0,19 -0,03 0,05 0,04 0,00 0,04 0,00 0,04
d

La caracterstica acumulativa de los datos hace que de nuevo para


obtener un valor promedio, sea ms adecuado el empleo de la media
geomtrica:

rTMV = 12 ( 1 + r[12 , 11] ) ( 1 + r[11, 10] )...(1 + r[1, 0] ) 1


La rentabilidad media de ese ao ser, por lo tanto, igual a un
4,13%:

rTMV =12 (1 0,13)(1+ 0,00)(1 + 0,29)...(1+ 0,04) 1 = 4,13%

Utilizacin de la media, moda y mediana para detectar la asimetra de una


distribucin. Las distribuciones de frecuencias se pueden caracterizar por su
forma, distinguindose bajo un criterio de simetra entre distribuciones simtricas
(como la representada en la grfica 2), asimtricas por la derecha (grfica 3) y
asimtricas por la izquierda (grfica 4). Las distribuciones representadas
muestran un nico intervalo modal, aunque tambin podramos contemplar la
simetra (asimetra) en distribuciones con ms de una moda. Se entiende que la
distribucin es simtrica si respecto a un eje vertical situado sobre la mediana de
la distribucin, su figura puede doblarse coincidiendo ambas partes. La
distribucin es asimtrica por la derecha si aparecen un nmero mayor de
valores de la variable en ese lado, mientras que la asimetra por la izquierda
acumulara un nmero mayor de valores en el lado izquierdo de la distribucin.

Grfica 2
FREQUENCY
200
190
180
170
160
150
140
130
120
110
100
90
80
70
60
50
40
30
20
10
0

Grfica 3
FREQUENCY
3000

2000

1000

Grfica 4
FREQUENCY
300

200

100

Segn su forma, las distribuciones pueden dividirse en simtricas,


asimtricas por la derecha y asimtricas por la izquierda. Las distribuciones
simtricas tienen la misma forma a izquierda y derecha de la mediana. Las
distribuciones unimodales asimtricas por la derecha tienen ms valores a la
derecha del intervalo modal que a su izquierda. Una distribucin con la
forma contraria es asimtrica por la izquierda.
Como veremos, aunque existen estadsticos que describen la simetra (o
asimetra) de la distribucin, los valores de la media, mediana y moda de la
variable facilitan tambin esta informacin. En una distribucin simtrica la
media, la mediana y la moda tienden a coincidir, mientras que en las
distribuciones asimtricas se dispersan. Cuando la distribucin es asimtrica por
la derecha la relacin entre los estadsticos es la siguiente:

Moda Mediana Media

Y cuando la distribucin es asimtrica por la izquierda:

Media Mediana Moda


En funcin de su simetra o asimetra en las distribuciones unimodales se
verifican las siguientes relaciones:
Distribucin simtrica: Moda = Mediana = Media .
Distribucin asimtrica por la derecha: Moda Mediana Media .
Distribucin asimtrica por la izquierda: Media Mediana Moda .

Ejemplo 7. En el cuadro 5 se muestran la media y la mediana de tres


distribuciones. En la distribucin A coinciden el valor de la media y la
mediana, por lo que puede suponerse que se trata de una distribucin
simtrica. La distribucin B tiene la media a la derecha de la mediana, por
lo que en principio puede ser una distribucin asimtrica por la derecha. La
ltima distribucin es tambin asimtrica, al no coincidir media y mediana,
y por sus posiciones, la asimetra se produce por la izquierda.
Cuadro 5
Distribucin
A
B
C

Media
-4
101
-212

Mediana
-4,3
71
-62

Cuartiles, Deciles y Percentiles. Se ha definido la mediana como una medida


de posicin: se trata de aquella observacin que (cuando los valores se ordenan
de menor a mayor) se sita en el centro de la muestra. La mediana es, por tanto,
el valor que en la distribucin acumulada de frecuencias se sita en el 50%. Al
analizar una distribucin tambin se leen otros valores definidos por intervalos de
frecuencias distintos al 50%.
Los cuartiles (primer, segundo y tercer cuartil) son los valores que (con
la variable ordenada de menor a mayor) dejan por debajo de su posicin el 25%,
50% y 75% de las frecuencias acumuladas, respectivamente. Los cuartiles
dividen la variable en cuatro grupos con igual nmero de observaciones (el 25%
de valores ms bajos, el 25% siguiente,).
Para obtener los valores nos basaramos en una regla semejante a la
aplicada para la mediana. As, si el nmero de observaciones es impar, el primer

cuartil ocupar la posicin (n + 1) 4 ; el segundo cuartil ocupar la posicin

2 (n + 1) 4 ; y el tercer cuartil la posicin 3 (n + 1) 4 .

Con los siguientes siete datos (ya ordenados de menor a mayor): 9, 23,
25, 28, 32, 47 y 50, obtendremos los tres cuartiles. El primer cuartil es igual a 23
(el valor en el lugar 8 4 = 2 ); el segundo cuartil es 28 (ocupa la posicin

16 4 = 4 ); y el tercer cuartil es 47 (posicin 24 4 = 6 ).


Con los siguientes ocho datos (un nmero par de observaciones): 9, 23,
25, 28, 32, 47, 50 y 51 obtendremos de nuevo los cuartiles. El primer cuartil ser
el promedio de las posiciones n 4 y (n 4 ) + 1 , en este caso el promedio de las
posiciones 2 y 3, que ser el valor 24. El segundo cuartil ser el promedio de las
posiciones 4 y 5, siendo igual a 30. El tercer cuartil promedia los lugares 6 y 7,
siendo igual a 48,5.
Los deciles dividen la muestra en porcentajes del 10, 20, ..., hasta el 90
por ciento. El primer decil ocupar la posicin n 10 ; el segundo decil ocupar la
posicin 2 n 10 ; ... y el noveno la posicin 9 n 10 .
Los percentiles amplan esta idea para definirse sobre porcentajes del 1,
2, 3, , hasta el 99 por ciento. El primer percentil ocupar la posicin n 10 0 ; el
segundo percentil la posicin 2 n 10 0 ; ... y el 99 percentil la posicin

99 n 10 0 .
Dadas las definiciones anteriores, en el cuadro 6 se ofrecen las obvias
equivalencias de definicin entre cuartiles y percentiles.
Cuadro 6
Mediana = Segundo Cuartil = 50 Percentil
Primer Cuartil = 25 Percentil
Tercer Cuartil = 75 Percentil

Ejemplo 8. Distribucin de la renta en Espaa. Pena et al. (1996) son


autores de un estudio sobre la distribucin personal de la renta en
Espaa en el que analizan los niveles de renta, su distribucin y la
desigualdad de la misma. De este estudio, en el cuadro 7 se recogen los
clculos de algunos percentiles de la renta per capita disponible para
toda Espaa en el ao 1990/1991 (Pena et al., 1986, pg. 503). En la
grfica 5 se representan los percentiles de la renta per capita.
Excluyendo la renta mnima, desde el 5o percentil hasta el 60o se tiene

una relacin de acumulacin de la distribucin distinta de la que se


observa a partir de ese tramo, en el que para acumular iguales
porcentajes de poblacin los incrementos en los valores de las rentas
son mucho mayores. Una distribucin asimtrica por la derecha acumula
ms observaciones en los valores inferiores de la variable, mientras que
los valores superiores seran menos frecuentes.
Cuadro 7
Percentil

Renta p.c.
disponible
Renta mnima
0
5
270903
10
345497
15
403034
20
454221
25
501457
30
542498
35
585791
40
631359
45
681373
50
732524
55
781361
60
839756
65
904918
70
974001
75
1061552
80
1173166
85
1322099
90
1544322
95
1992821
Renta mxima
168572662
Fuente: Pena et al. (1996)
Grfica 5

percentiles
90
80
70
60
50
40
30
20
10
0
0

200000

400000

600000

800000

1000000

1200000

1400000

1600000

1800000

2000000

Renta p.c.

En ocasiones los percentiles de una variable se utilizan como referencia


sobre la que analizar el comportamiento de una segunda variable. Los percentiles
no se emplearan propiamente como estadsticos descriptivos de una variable,
sino que serviran para seguir el comportamiento de otra variable. Se trata, por
tanto, de definir relaciones bivariantes entre los percentiles (de una variable) y
otras variables. Los dos ejemplos siguientes ilustran este empleo de los
percentiles.

Ejemplo 9. La teora de Keynes sobre el consumo plantea una


relacin positiva entre el consumo y la renta disponible; esta relacin
debera cumplir diversas restricciones, entre ellas que la propensin
marginal al consumo (variaciones en el consumo consecuencias del
incremento en la renta) sea inferior a la unidad:

0<

C
<1 ,
Y

indicando C / Y la propensin marginal al consumo.


En el cuadro 8 se reproduce para las familias espaolas y con datos de
1995, la relacin entre el consumo y los ingresos familiares. Para reflejar la
incidencia del nivel de ingresos sobre el cociente consumo/ingresos, se han
dividido las familias en cuatro grupos. El primero tendra ingresos inferiores al
valor del primer cuartil, el segundo tendra ingresos entre el valor del primer y
segundo cuartil, y as sucesivamente. El cociente consumo/ingresos se ha
calculado para cada grupo de familias.

Cuadro 8
Grupos
Ingresos
segn
medios
cuartiles
(millones de
ptas)
1,3
Primero
Segundo
2,0
Tercero
2,8
Cuarto
4,6
Total
2,7

consumo
/
ingresos
%
75,2
67,1
64,4
55,3
62,2

Fuente: INE, 1995

Puede comprobar que a medida que los ingresos crecen el cociente entre gasto e
ingresos, mantenindose siempre inferior a la unidad, disminuye. El consumo representa
un 75,2% de los ingresos de las familias con menos ingresos, mientras que nicamente
supone el 55,3% de los ingresos de las familias situadas en la escala ms alta de riqueza.

Ejemplo 10. Desigualdad salarial y oferta de trabajo familiar. Juhn


y Murphy (1996) emplean datos del censo de EEUU para describir los
cambios en el empleo y en los ingresos de las parejas casadas. En 1969
los hombres en edad activa estaban empleados un 95% del ao y tenan
unos ingresos medios anuales de alrededor de 23000 dlares (todas las
referencias estn en dlares de 1982). Sus esposas, por otra parte,
estaban empleadas slo el 39% del ao e ingresaban nicamente 4000
dlares. Veinte aos ms tarde, en 1989, la situacin de los varones
casados era bastante parecida: en promedio, trabajaban un 93% del ao
y ganaban 25000 dlares. La situacin de las mujeres, sin embargo, era
muy diferente: las mujeres casadas en edad activa trabajaban el 66% del
ao y ganaban 9000 dlares anuales.
Hasta qu punto la disminucin del tiempo trabajado y el escaso
incremento salarial de los varones puede haber causado la entrada de
las mujeres casadas en el mercado laboral? Los autores analizan la
informacin del censo de EEUU en funcin de las decilas de salarios de
los maridos. Se consideran diez grupos distintos: el primero
correspondera al de varones casados con salarios inferiores a la primera
decila de ingresos, el segundo grupo incluira a los varones casados con
ingresos entre la primera y segunda decila, y as sucesivamente.
En las grficas 6 y 7 se muestran, por percentiles de ingresos salariales,
los valores medios de las tasas de variacin en los salarios por hora y en el

empleo, entre 1969 y 1989, para los varones casados. Puede comprobar que
cuanto menores son los ingresos mayores han sido el crecimiento del paro y la
disminucin de los salarios. Por el contrario, en los percentiles superiores, tanto
el empleo como los ingresos salariales han aumentado. Cmo responde la oferta
de trabajo de la familia a esta situacin?

Grfica 6
,2

Variaciones salario hora maridos, 1969-1989

,1

,0

-,1

-,2

-,3
10

20

30

40

50

60

70

80

90

100

80

90

100

percentiles salarios de los maridos

Grfica 7
,0
0,0

Variaciones tasa empleo maridos, 1969-1989

,0
,0
-,1
-,1
-,1
-,1
-,1
-,2
10

20

30

40

50

60

70

percentiles salarios de los maridos

En las grficas 8 y 9 aparecen las tasas de empleo y los ingresos


anuales de las mujeres casadas. Las variables estn medidas, tanto en
1969 como en 1989, sobre los diez niveles de ingresos salariales de los
hombres (se representan valores medios). De estas grficas pueden
derivarse las siguientes conclusiones:

En la grfica 8 (tasas medias de empleo de las mujeres casadas) se


detecta que el empleo ha crecido, entre 1969 y 1989, para todos los
niveles de salarios de los maridos, pero que el aumento es mayor en
los valores medios y altos de los ingresos. Mientras que en 1969
cuanto mayor era el salario del marido, menor era el nmero de
mujeres trabajando; en 1989, esta relacin desaparece, trabajando
mayor nmero de mujeres en la zona de matrimonios con salarios del
varn intermedios.

Respecto a los ingresos anuales (grfica 9), en 1969 los salarios


medios eran ms o menos similares para todos los percentiles.
Aunque las mujeres casadas con los hombres de mayores ingresos
trabajaban menos horas, lo hacan a un sueldo mayor,
mantenindose con ello los ingresos medios. En 1989 esta imagen se
rompe. Las mujeres casadas con varones de salarios altos trabajan el
mismo nmero de horas que las mujeres casadas con hombres con
ingresos bajos, pero sus salarios por hora son mucho mayores,
aumentando comparativamente sus ingresos anuales.
Grfica 8
8
7
6
5

Tasa Empleo Mujeres

4
3
2
1
1969
0

1989
10

20

30

40

50

60

70

percentiles salario de los maridos

Grfica 9

80

90

100

1200

1000

Ingresos Anuales ($ 1982)

800

600

400
1969
200

1989
10

20

30

40

50

60

70

80

90

100

percentiles salarios de los maridos

En las dos dcadas analizadas, por tanto, se ha dado no slo un


aumento en las horas trabajadas y en los ingresos percibidos por las
mujeres casadas, sino que adems se ha producido una modificacin en
la estructura de su distribucin. Las mujeres casadas con hombres de
ingresos altos son las que mayor participacin laboral han conquistado,
acompaada adems de unos mayores ingresos. Los anteriores
resultados contradicen la hiptesis de que la mayor oferta laboral y
mayores ingresos de las mujeres, responderan a la necesidad de cubrir
los ingresos dejados de percibir por sus maridos.

Medidas de Dispersin: Rango, Rango intercuartlico, Varianza,


Desviacin estndar, Coeficiente de variacin
El rango de una variable es la diferencia entre el mayor y el menor valor
de las observaciones:

Rango = X MAX X MIN

Como medida de dispersin el rango es muy sensible a los valores


extremos.
El rango intercuartlico es la diferencia entre el tercer y primer cuartil de
la variable. En ese intervalo se incluyen, por tanto, el 50% de las
observaciones situadas en la zona central de la distribucin:

Rango IQ = Q3 Q1
La varianza es el promedio de las desviaciones de la variable con respecto
a la media:

s x2 =

(X
i =1

x)2

En ocasiones se define promediando no por n, sino por n-1.


La varianza es una medida de la dispersin de las observaciones con
respecto a su valor medio.
La desviacin estndar es la raz cuadrada de la varianza:
n

sx =

(X
i =1

x)2

(O dividiendo por n-1 si ese ha sido el denominador empleado en la


varianza).
El coeficiente de variacin es el cociente entre la desviacin estndar y la
media de la variable, definido en general slo para variables positivas:

CV =

sx
x

Discusin y propiedades de la varianza, desviacin estndar y coeficiente de


variacin
Para visualizar el concepto de dispersin que se mide con la
varianza, pueden compararse los histogramas correspondientes a variables de
comportamiento semejante (igual media, unimodales, simtricas) pero con
varianza diferente. En la grfica 10 aparecen los histogramas de cuatro
distribuciones que multiplican por 2, 3 y 4, respectivamente, la varianza de una
primera variable. En cada uno de los histogramas (todos ellos con media igual a
cero) se ha dibujado la forma idealizada del mismo para facilitar la comparacin.
Grfica 10

.36

.36

0
-10.3137

10

-10.3137

10

Como medidas de dispersin la desviacin estndar (o la varianza)


muestran su utilidad especialmente cuando se emplean de manera comparativa.
Conocer el valor de la varianza de una distribucin no nos permite decir de
manera inmediata si sta es ms o menos dispersa, ya que su valor depende de la
unidad de medida de la variable. Se suele utilizar una referencia en relacin a la
cual se realiza la comparacin; en algunas ocasiones se emplea alguna
distribucin conocida, en otras la referencia es una distribucin emprica
diferente. Las distribuciones de la grfica 10 son ms o menos dispersas en
funcin de su comparacin mutua.
El coeficiente de variacin facilita la discusin de la importancia de
la dispersin de una variable. Resulta de especial inters en dos circunstancias:
(1)

Cuando se quieren comparar distribuciones de variables con diferentes


unidades de medida, ya que la dispersin ser igual a un tanto por ciento
de la media de la variable, sin importar en que unidad se mide sta.

(2)

Cuando se comparan distribuciones que, aun teniendo igual unidad de


medida, toman valores muy distintos. Por ejemplo, si se quieren
comparar las rentas de dos regiones, una muy rica y otra muy pobre,
podra no ser adecuado comparar directamente las varianzas. La regin
con renta media alta tender a presentar una varianza ms alta, por el
hecho de jugar con cifras absolutas mayores que la regin con rentas

bajas. Una manera de relativizar este efecto es el empleo del coeficiente


de variacin.
Propiedades de la varianza:
(1) La varianza no puede ser negativa al tratarse de un promedio de una
suma de cuadrados.
(2) Como la media, es sensible a valores extremos.
(3) Si a los valores de una variable se les suma una constante, c + X i , la
varianza de la nueva variable no se modifica:
n

sc2+ x =

(c + X i (c + x )) 2
i =1

(X
i =1

x)2
= s x2

(4) Al multiplicar los valores de una variable por una constante, c X i , la


nueva varianza se ve multiplicada por la misma cantidad elevada al
cuadrado, c 2 s x2 (y la desviacin estndar se multiplica por la misma
constante, c s x ).
Esta propiedad es fcil de demostrar, teniendo en cuenta que al
multiplicar por una constante, la media de la variable transformada es la
media original multiplicada por la misma constante.
n

sc2x =

(c X i c x ) 2
i =1

c2 ( X i x)2
i =1

Y, por tanto, para la desviacin estndar:

sc x = c s x

c2 ( X i x ) 2
i =1

= c 2 s x2

(5) La

varianza

puede

escribirse

de

manera

equivalente

como:

s x2 =

X
i =1

2
i

x 2 . La demostracin se basa en la siguiente equivalencia:

i =1

i =1
n

i =1
n

i =1

( X i x ) 2 = ( X i2 + x 2 2 X i x ) = X i2 +n x 2 2 x X i =
= X i2 + n x 2 2 n x 2 = X i2 n x 2
i =1

i =1

Con lo que se tiene:


n

( X i x)2

s x2 = i =1

X i2 n x 2

= i =1

X
i =1

2
i

x 2

(6) La varianza cumple:


n

( X
i =1

x)

<

( X
i =1

k )2

para cualquier otro valor de k x .


(7) Como en el caso de la media puede definirse una varianza ponderada, en
la que se de una mayor o menor importancia a las observaciones.
La varianza siempre es un nmero no negativo.
Al sumar a los valores de una variable una constante, su varianza no se
modifica.
Al multiplicar los valores de una variable por una constante, su varianza se
multiplica por el cuadrado de esa constante.
La desviacin estndar es la raz cuadrada de la varianza.

Ejemplo 11. Con los siguientes datos: {9, 23, 25, 28, 32, 47, 50}
calcularemos las diversas medidas de dispersin:

Rango= X MAX X MIN = 50 9 = 41


Rango IQ =Q3 Q1 = 47 23 = 24
Para calcular la varianza emplearemos los datos de la siguiente tabla, y
nos basaremos en su expresin:

s x2 =

X
i =1

i
1
2
3
4
5
6
7

x 2
Xi2
81
529
625
784
1024
2209
2500

Xi
9
23
25
28
32
47
50

X i = 214

i =1

i =1

x=

2
i

X
i =1

2
i

= 7752

= 30,571

X
i =1

2
i

= 1107,43

s x2 =

X
i =1

2
i

x 2 = 172,84

La desviacin estndar ser, por tanto:


n

sx =

(X
i =1

x)2
= 172,84 = 13,147

Y el coeficiente de variacin:

CV =

s x 13,147
=
= 0,43
x 30,571

Ejemplo 12. En el siguiente cuadro se muestran los valores de


algunos percentiles de la distribucin del gasto per capita realizado por
los visitantes de dos regiones tursticas:

Percentil 75

Mediana
Percentil
25

Regin
1
235
100
62

Regin
2
290
100
72

En funcin de estos resultados se puede afirmar que la dispersin


de la variable en las dos zonas es mayor en la segunda regin que en la
primera (rangos intercuartlicos iguales a
235 62 = 173 y
290 72 = 218 , respectivamente). Adems, puede observarse que el
25% de los turistas que gastan ms, en la regin 1 lo hacen por encima
de los 235 euros, mientras que en la regin 2 lo hacen por encima de los
290. Todo ello indica que aunque la medida representativa del gasto
pueda ser similar en ambas zonas (ya que tienen idntico valor de la
mediana) en la regin 2 existe una presencia de turistas con mayor
capacidad de gasto.
Ejemplo 13. El coeficiente de variacin como medida de dispersin. En
el cuadro 9 se muestran los datos de una variable Xi y las
transformaciones necesarias para calcular la varianza.
Si los valores de la variable se multiplican por cien, la media y la
desviacin estndar de la variable transformada se multiplicarn tambin por
cien (ver cuadro 10).

Cuadro 9
i
1
2
3
4
5
6
7

Xi
2,7
1,2
3,45
4,03
4,32
5,4
3,5

Xi2
7,29
1,44
11,9025
16,2409
18,6624
29,16
12,25

X
i =1

= 24,6

i =1

x=

Xi
i =1

2
i

= 96,9458

= 3,514

i =1

2
i

= 13,85

s x2 =

X
i =1

2
i

x 2 = 1,50

Cuadro 10
X1
X2
2,7
270
1,2
120
3,45
345
4,03
403
4,32
432
5,4
540
3,5
350
Media
3,514286
351,4286
Desviacin Estndar
1,322521
132,2521

El coeficiente de variacin en ambas variables proporcionara el


mismo valor: 0,3763, reflejando que la dispersin en trminos relativos es
idntica. En las grficas 11 y 12 se muestran las dos series de valores,
dibujndose una lnea de referencia sobre el respectivo valor medio.
Advierta que los ejes verticales de las dos grficas no son iguales, ya que
en la segunda grfica los valores estn multiplicados por 100 y, por tanto,
la dispersin numrica respecto a la media es mucho mayor en esta
variable. Sin embargo, las dos series presentan una imagen idntica.

Grfica 11

1
1

Grfica 12
500

400

300

200

100
1

Ejemplo 14. En una regin turstica se dispone, para cuatro


nacionalidades, de los valores medios y la desviacin estndar de su
gasto turstico per capita y da (en euros). Se est interesado en detectar
cul es la nacionalidad que presenta mayor dispersin en el gasto
realizado.
Media

Desviaci Coeficiente
n
de

Alemana
Britnica
Espaola
Nrdicos

estndar
22
30
31
36

60
75
60
75

variacin %
36,67
40
51,67
48

Si se juzga por el valor directo de la desviacin estndar la


nacionalidad con mayor dispersin en el gasto corresponde a los pases
nrdicos, seguida de la espaola y la britnica, sin embargo si se juzga
por el coeficiente de variacin la nacionalidad que presenta mayor
dispersin es la espaola, con una desviacin estndar igual al 51,67%
de su gasto medio.
Ejemplo 15. Una variable X tiene una desviacin estndar igual a 9
y una media igual a 10. Determine la media y desviacin estndar de la
variable Y, definida como:

Y=
La

Y =

nueva

variable

X 5
10

tambin

puede

expresarse

como:

5 1
+ X , presentndose como la variable original multiplicada por
10 10

una constante y a la que se le suma una cantidad (en este caso


negativa).
La media de la nueva variable ser (teniendo en cuenta que la
media de X es igual a 10):
n

y=

Y 10 + 10 X
i

i =1

i =1

n
5
1

n +
Xi
X
5 1 i =1 i
10 i =1 10

=
= +
=
n
10 10 n
5 1
5 1
= + x = + 10 = 0,5
10 10
10 10
n

La varianza de la nueva variable ser:


n

s =
2
Y

(Y y )
i =1

5 1
5 1
+ X i + x

10 10
10 10
i =1
=
=
n
n

1
1
(X i x )

10
= 10
= i =1
n
1 2
=
9 = 0,81
100
n

(X
i =1

x )

Y, por tanto, la desviacin estndar ser igual a 0,9.


Ejemplo 16. Una variable X tiene una desviacin estndar igual a 9
y una media igual a 10. Determine la media y desviacin estndar de la
variable Y, definida como:

10 5 X
Y=
4

La media de la nueva variable ser:

y=

10 5
10 5
x = 10 = 10
4 4
4 4

Y la desviacin estndar:

5
5
sY = s X = 9 = 11,25
4
4
Ejemplo 17. Distribucin de los ingresos en las Comunidades
Autnomas. En el cuadro 11 aparecen la media, desviacin estndar, y
coeficiente de variacin (en porcentaje) de la renta per capita de las
Comunidades Autnomas en 1990/1991 (se excluyen Ceuta y Melilla.
Fuente: Pena, 1996, pgs. 502-503). Las comunidades han sido
ordenadas en funcin del valor de su desviacin estndar. La dispersin
de la renta sera utilizada como una medida de desigualdad: cuanto
mayor es la dispersin, mayores diferencias se darn en los ingresos. En
el cuadro 12 se muestran las posiciones (de mayor a menor: 1 indica la
cifra ms alta, 17 la cifra ms baja) que toman las Comunidades segn
se ordenen por su renta, su desviacin estndar o su coeficiente de
variacin.
Como medida de dispersin podemos utilizar la desviacin estndar, pero
tambin el coeficiente de variacin. La desviacin estndar se relativiza al
ponerla en relacin con la media. Los coeficientes de variacin que se recogen en
el cuadro 11 indican que la desviacin estndar de la Comunidad extremea es
0,76 veces su media (o en porcentaje, el 75,90%), la de Catalunya 0,72 veces su
media, la de Madrid 1,85 y la de Castilla-La Mancha 3,96.

Cuadro 11

x
Extremadura
Asturias
Cantabria
Canarias
Navarra
Com. Valenciana
Baleares
Castilla-Len
Aragn
Rioja
Galicia
Catalunya
Pas Vasco
Murcia
Andaluca
Madrid
Castilla- La Mancha

659507
892325
829755
767552
1051310
833886
975140
866326
843630
870680
797931
1091739
990671
787525
744389
1130089
724065

sx
500588
535773
548971
556265
610642
612423
630351
654448
659440
674107
732694
795740
827134
961635
1082408
2099119
2868372

Cuadro 12
Navarra
Asturias
Baleares
Cantabria
Canarias
Catalunya
Com. Valenciana
Castilla-Len
Extremadura
Rioja
Aragn
Pas Vasco
Galicia
Murcia
Andaluca
Madrid
Castilla- La Mancha

CV 100
75,90
60,04
66,16
72,47
58,08
73,44
64,64
75,54
78,17
77,42
91,82
72,89
83,49
122,11
145,41
185,75
396,15

sx

CV 100

3
6
5
11
14
2
10
8
17
7
9
4
12
13
15
1
16

13
16
11
15
14
6
12
10
17
8
9
5
7
4
3
2
1

17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1

En un anlisis comparativo de la distribucin de la renta puede


tener ms sentido emplear el coeficiente de variacin si se quiere
discutir, sobre niveles dados de renta, qu comunidad presenta mayor o
menor dispersin en esa variable. Observe que el orden de las
comunidades en funcin de la desviacin estndar o del coeficiente de
variacin no son totalmente coincidentes.
Ejemplo 18. Distribucin de ingresos de pensionistas, asalariados,
profesionales y empresarios. En el cuadro 13 aparecen la media,
desviacin estndar, varianza y coeficiente de variacin de la variable
ingresos familiares de cuatro colectivos (pensionistas, asalariados,
profesionales y empresarios) de una Comunidad Autnoma (Fuente:
muestra IRPF-1990).

Cuadro 13
x

sx
s x2
CV 100

Pensionistas Asalariados
1375919,81 1872897,97
393701,38 900167,565
1,550E+11
8,103E+11
28,6137

48,0628

Profesionales Empresarios
2221962,38 2067427,89
1471118,41 1279698,30
2,164E+12
1,638E+12
66,2081

61,8981

Los pensionistas son el colectivo con menores ingresos, seguido


de los asalariados, empresarios y profesionales, en este orden. Los
ingresos de los pensionistas muestran la menor dispersin, seguido de
los ingresos de los asalariados, empresarios y profesionales. La
desviacin estndar en el grupo de los pensionistas es 0,28 veces la
media, en el grupo de los asalariados 0,48 veces, en el de profesionales
el 0,66 y en el de los empresarios 0,62. Como medida sinttica de
dispersin permite ignorar cul es el valor medio de los ingresos al hacer
la comparacin de las dispersiones. La medida de dispersin confirma lo
que a priori podamos esperar: escasa dispersin en los colectivos cuyos
ingresos son fijos, con una mayor dispersin en los grupos con ingresos
flexibles.
Ejemplo 19. Volatilidad del precio de una accin. En el cuadro 14
se presenta la evolucin del precio de dos acciones (A y B). Sera
capaz de decidir, simplemente con esta informacin, la compra de una de
las dos acciones?

A partir de las dos series de precios se han calculado las rentabilidades


perodo a perodo. La rentabilidad media de la primera accin es algo menor que
la de la segunda, por lo que si la evolucin que usted espera que siga el mercado
es la de mantener la misma tendencia, podra ser ms atractiva la compra de la
primera accin. En la representacin de las series de rentabilidad (grficas 13 y
14) no se observa que ninguna de ellas crezca (o decrezca) de manera
sistemtica. Pero qu pasa con la diferente dispersin?

Cuadro 14
Perodo

Precio A Rentabilidad Precio B Rentabilidad


A
B
0
10
12
1
10
0,00
12
0,00
2
12
20,00
14
16,67
3
13
8,33
12
-14,29
4
13
0,00
11
-8,33
5
14
7,69
11
0,00
6
14
0,00
12
9,09
7
12,5
-10,71
9,5
-20,83
8
12
-4,00
9
-5,26
9
14
16,67
14
55,56
10
12
-14,29
13
-7,14
11
13
8,33
14
7,69
12
14
7,69
17
21,43
Media Aritm.
3,31
4,55
Tasa Media
2,84
2,95
Desv.
10,17
20,23
Estndar

En bolsa, cuando se invierte en un activo se valoran varios


factores, uno de ellos es la variabilidad que el precio del activo tiene con
respecto al valor medio. Este concepto es una medida de riesgo, puesto
que a para una misma rentabilidad media esperada ser preferible
aquella accin que se desve lo menos posible de la misma. Una buena
aproximacin a esta varianza esperada es el comportamiento histrico de
la varianza. El clculo de la varianza con datos de un perodo de tiempo
anterior puede ser una buena medida del riesgo que afronta al adquirir
una accin. El concepto de volatilidad es el empleado por los tcnicos
burstiles en lugar del de varianza. A igual valor esperado en el precio de

la accin ser ms deseable aquella accin con una menor varianza,


puesto que el riesgo de que el valor esperado se incumpla ser menor, al
oscilar en un recorrido menor sobre el valor medio. Dada la poca
diferencia que existe en las rentabilidades medias, la menor desviacin
estndar de la rentabilidad de la accin A hace que esta resulte ms
atractiva si se quiere enfrentar un menor riesgo.

Grfica 13
60,00
40,00
20,00
0,00
1

10 11 12

10 11 12

-20,00
-40,00
-60,00

Grfica 14
60,00
40,00
20,00
0,00
-20,00
-40,00
-60,00

Ejemplo 20. ndice de Sharpe. Cuando se invierte se intenta valorar


cul es el rendimiento esperado, resultando ms atractiva aquella
inversin que proporciona unos ingresos futuros mayores. El riesgo de la
inversin es, sin embargo, un parmetro que tambin debe tenerse en
cuenta, ya que, normalmente, ser preferible una cantidad segura a la
promesa de una cantidad aproximadamente igual, pero no garantizada
(en economa se habla de esta actitud como de aversin al riesgo).
Para valorar un conjunto de inversiones se han definido diversos ndices.
Uno de los ndices de rentabilidad-riesgo utilizado es el propuesto por Sharpe
(1966):

Indicede Sharpe =

ER

donde:

E , es la rentabilidad media de la cartera en un perodo


determinado.
R , es la rentabilidad media de los activos considerados sin
riesgo.
, es la desviacin estndar de la rentabilidad de la cartera.
La desviacin estndar de la rentabilidad es una aproximacin al
riesgo asumido. La anterior expresin medira la prima de rentabilidad
que ofrece una cartera de valores por unidad de riesgo. Aunque en teora
el clculo de este ndice debera realizarse sobre valores esperados, su
clculo real se efecta a posteriori sobre los valores observados,
empleando para ello las expresiones de la media y de la desviacin
estndar.
Ferruz y Sarto (1997) analizan las rentabilidades trimestrales de
123 fondos de inversin en Espaa entre enero de 1990 y diciembre de
1995. Los resultados que obtienen para los diez fondos mejor
clasificados segn el ndice de Sharpe se ofrecen en el cuadro 15. El
activo que los autores han considerado sin riesgo (necesario para poder
calcular el ndice) ha sido el rendimiento efectivo trimestral promedio de
las Letras del Tesoro (rentabilidad media igual a 2,65%).

Cuadro 15
Fondo de Inversin
Mobiliario
AB Fondo
Fondonorte
BSN Acciones

ndice de
Sharpe
0,07142
0,03420
0.02936

Clasificaci
n
1
2
3

2,79
2,71
2,93

1,93
1,91
9,50

Mutuafondo
Baskinver
BSN Renta Fija
Fondpostal
Segurfondo Divisas
AB Ahorro
BK Fondo

0.02379
0.00604
-0.00947
-0.00975
-0.01193
-0.01309
-0.02220

4
5
6
7
8
9
10

2,69
2,66
2,63
2,62
2,54
2,63
2,61

1,76
1,80
2,61
3,57
2,53
1,87
1,89

Ejemplo 21. Evolucin de la desigualdad salarial. En muchas


economas industrializadas se ha producido un incremento de la
desigualdad en la distribucin de los salarios desde los aos ochenta,
especialmente con un incremento ms fuerte en los salarios mayores.
Para mostrar esta evolucin pueden emplearse el coeficiente de
variacin y la posicin de algunos percentiles.
Para un pas europeo, en la grfica 17 se ofrecen los coeficientes de
variacin de los salarios entre 1983 y 1992, que han aumentado un 26% en el
perodo y son, por tanto, un claro sntoma del crecimiento de la desigualdad
salarial. Para describir si la desigualdad crece ms en la parte baja o en la parte
alta de la distribucin, se utilizan el cociente entre el percentil 90 y la mediana
(Q90/Q50) y la mediana y el percentil 10 (Q50/Q10) (representados tambin en
la grfica 15). Mientras que el cociente Q90/Q50 pasa de un valor igual a 2.35 a
2.7 (un incremento del 14,8%), el cociente Q50/Q10 se mantiene estable,
sufriendo incluso una pequea disminucin entre 1983 y 1986. Ello indicara que
la dispersin en la parte superior de la distribucin se ha ampliado en una
proporcin importante, mantenindose estable la dispersin en la parte inferior.
Grfica 15

coeficiente de variacin
Q90/Q50

Q50/Q10
2.7
2.56

2.5

2.43
2.35

1.6

1.56

1.58

1.5

1.5

.9819
.9027

.8281
.7818

.5
1983

1986

1989

1992

periodo

Ejemplo 22. Convergencia econmica en la OCDE entre 1950 y


1988 (-convergencia). Friedman (1992) sugiere que la evolucin de la
renta de un conjunto de pases puede seguirse analizando las
transformaciones del coeficiente de variacin a lo largo del tiempo. El
coeficiente de variacin es una medida de dispersin. Si se calcula para
un conjunto de pases en distintos momentos del tiempo y se detecta que
su valor disminuye, se tendr un indicador de convergencia en sus
niveles de renta. En el caso de que este coeficiente aumentara en el
tiempo, se detectara la divergencia de las economas. Este tipo de
convergencia se denomina -convergencia.
En Boyle y McCarthy (1997) se analiza la convergencia de la
renta per capita en los pases de la OCDE. Para seguir su evolucin
emplean el concepto de -convergencia, calculando los coeficientes de
variacin del PIB per capita en estos pases. En el cuadro 16 se
reproducen los resultados de su trabajo (tomando como referencia el
valor 1 para el ao 1950, es decir, que todos los coeficientes se han
dividido por su valor en 1950).
La representacin de la serie de coeficientes de variacin (grfica
16) permite detectar que se ha producido un proceso continuado de
convergencia entre 1950 y los primeros aos de la dcada de los
setenta. Alrededor de 1972 el proceso se estabiliza, pudindose concluir

que en los ltimos aos del perodo analizado la convergencia del PIB
per capita prcticamente se haba detenido.
Cuadro 16
Ao
sx x
1950
1951
1952
1953
1954
1955
1956
1957
1958
1959
1960
1961
1962

1,0000
0,9598
0,9491
0,9331
0,9004
0,8942
0,8879
0,8600
0,8257
0,8326
0,8204
0,7896
0,7828

Ao

sx x

Ao

sx x

1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975

0,7616
0,7545
0,7458
0,7349
0,7194
0,7071
0,6896
0,6634
0,6511
0,6273
0,6116
0,5966
0,5799

1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988

0,5753
0,5807
0,5840
0,5841
0,5806
0,5874
0,5700
0,5870
0,6037
0,6037
0,6146
0,6116
0,6091

Grfica 16
1,1

1,0

,9

Sigma-convergencia

,8

,7

,6

,5

88
19
86
19
84
19
82
19
80
19
78
19
76
19
74
19
72
19
70
19
68
19
66
19
64
19
62
19
60
19
58
19
56
19
54
19
52
19
50
19

Ejemplo 22. Efectos intrada y da de la semana en la Bolsa de


Madrid. El efecto del da de la semana en los mercados financieros es
una regularidad emprica estudiada en economa financiera. Los
rendimientos de los activos que cotizan en bolsa son distintos segn el

da de la semana que se considere, se habla, por ejemplo, del efecto


lunes para referirse a los rendimientos negativos observados en este da
de la semana.
Camino (1997) estudia las pautas diarias de la Bolsa de Madrid,
utilizando para ello las cotizaciones del ndice IBEX-35 entre febrero de
1992 y diciembre de 1993. Para cada uno de los das de la semana ha
calculado la rentabilidad media del ndice. En la grfica 17 se ilustra la
informacin del cuadro 18.
Cuadro 18

Rendimientos Medios IBEX-35


Da
Lunes
Martes
Mircoles
Jueves
Viernes

CierreApertura
-0,1933
-0,0457
-0,1670
-0,0522
-0,0424

AperturaCierre
0,0015
0,1578
0,0863
0,2733
0,2617

Cierre-Cierre
-0,1908
0,1127
-0,0803
0,2235
0,2192

Grfica 17
,3

,2

,1

Rendimiento medio

,0

-,1

-,2

cierre-apertura
apertura-cierre

-,3

cierre-cierre
lunes

martes

mircoles

jueves

viernes

Las conclusiones que se obtienen son las siguientes:


Las cotizaciones del IBEX-35 son efectivamente diferentes en
los distintos das de la semana.

El efecto lunes queda claramente detectado, ya que los


rendimientos del IBEX-35, desde el cierre del viernes al cierre
del lunes son negativos (0,1908).
Como un resultado distinto al encontrado en estudios con
otros mercados, se destaca la presencia de rendimientos
negativos entre el cierre del martes y el cierre del mircoles.
En los resultados destaca tambin cmo entre el cierre de un
da y la apertura del siguiente aparecen rendimientos
negativos, al contrario que en horas de mercado, en donde los
rendimientos son positivos todos los das de la semana.
El rendimiento positivo en horas de mercado es suficiente
para que los resultados de cierre a cierre sean positivos,
excepto los lunes y mircoles.

Las explicaciones sobre el efecto lunes no estn claras. Se ha


sugerido, por ejemplo, que puede existir un sistemtico cierre al alza los
viernes, que se compensara con la bajada de los lunes. Tambin se ha
discutido la existencia de informacin no pblica, que se difundira fuera
de horas de mercado.
Respecto a la volatilidad, medida por la desviacin estndar del
ndice IBEX-35, tambin presenta unas pautas sistemticas. En la grfica
18 se representan las desviaciones estndar, calculadas en tramos de 15
minutos, para cada da de la semana. Veamos algunas de las
conclusiones:

La forma que muestran las volatilidades tiene forma de U, con una


reduccin muy importante en la volatilidad en la primera hora que
transcurre desde la apertura.
Las desviaciones estndar toman a continuacin un valor de
alrededor del 10%, incrementndose ligeramente antes del cierre.
El comportamiento de la volatilidad es similar en todos los das de
la semana.

Camino apunta como explicacin al exceso de volatilidad en la


primera hora del da a la llegada de informacin acumulada durante la
noche, es decir, sera consecuencia de la informacin que fluye durante
el perodo en el que el mercado permanece cerrado, manifestndose en
las primeras dos horas de la apertura. Las razones de una mayor
volatilidad al final de la jornada deberan buscarse, segn Camino, en la
necesidad de algunas grandes empresas por maquillar artificialmente
sus cotizaciones.

Grfica 18
,7

,6

,5

,4

Desviacin Estndar

,3

Lunes
,2

Martes
Mircoles

,1
Jueves
0,0
11,00

Viernes
11.30

HORA

12.00

12.30

13.00

13.30

14.00

14.30

15.00

15.30

16.00

16.30

17.00

Relacin entre media y desviacin estndar: Desigualdad de Chebychev. La


desigualdad de Chebychev afirma que, para cualquier variable, la proporcin de
observaciones situadas en el intervalo: [ x k s x , x + k s x ] es como mnimo:

1
k2

Aplicado el teorema a distintos valores de k tendremos, por ejemplo:


La proporcin de observaciones en el intervalo [ x 2 s x , x + 2 s x ] es, como
mnimo del 75% de los datos.
La proporcin de observaciones en el intervalo [ x 3 s x , x + 3 s x ] es, como
mnimo del 89% de los datos.
La proporcin de observaciones en el intervalo [ x 4 s x , x + 4 s x ] es, como
mnimo del 93,75% de los datos.
Por tanto, si se quiere definir un intervalo centrado en la media que
comprenda, como mnimo, el 75% de las observaciones de la variable deber
calcularse x 2 s x . Si el intervalo debe comprender como mnimo el 89% de las
observaciones se construir como x 3 s x . Este tipo de clculos se puede realizar
de manera exacta cuando se conoce la distribucin de la variable, sea utilizando
la distribucin de frecuencias emprica sea a partir de una distribucin terica. El
inters de la desigualdad de Chebychev es que no precisa del conocimiento de la
distribucin, siendo vlidos los intervalos construidos para cualquier variable.
Tiene el inconveniente de ser una aproximacin que define los intervalos de una
manera conservadora (como mnimo). Desde el punto de vista del anlisis
descriptivo la desigualdad de Chebychev proporciona una nueva perspectiva al
concepto de desviacin estndar.
Ejemplo 23. Se desea detectar, empleando la desigualdad de
Chebychev, la existencia de observaciones atpicas en una variable X,
que toma los siguientes valores {27 25 26 28 25 24 27}. La media de
la variable es:
n

x=

Y su desviacin estndar:

i =1

182
= 26
7

sx =

X
i =1

2
i

x2 =

4744
26 2 = 1,31
7

Puesto que como mnimo un 75% de las observaciones estarn


en el intervalo x s x , podemos considerar observaciones extraas
aquellas que superen esos lmites. En este caso:

28,62
26 2 1,31 =
23,38
Por lo que puede considerarse que no hay observaciones
extremas.
Ejemplo 24. Dispersin de los ingresos. En el cuadro 19 se
recogen los ingresos anuales (en euros) de tres colectivos (pensionistas,
asalariados y empresarios). Empleando la desigualdad de Chebychev
calcularemos para cada colectivo el intervalo que comprendera, como
mnimo, el 75% de las observaciones.
Cuadro 19

sx

Pensionista
Empresario
Asalariados
s
s
9735
12236
13150
2300
5400
5537

La proporcin de observaciones en el intervalo [ x 2 s x , x + 2 s x ]


es, como mnimo del 75% de los datos. Para cada categora tendremos,
por tanto:
14335
9735 2 2300 =
5135
24224
13150 2 5537 =
2076

23036
12236 2 5400 =
1436

Para los pensionistas, con una media de ingresos de 9735 euros


podemos afirmar que, como mnimo, el 75% de los pensionistas ingresan
entre 5135 y 14335 euros. En los restantes grupos los resultados
pueden leerse de manera similar.

Ejemplo 25. Control de calidad. En la ltima etapa de control de


calidad de una empresa se quiere analizar el comportamiento de sus
cadenas de produccin. Durante un perodo de una semana se recoge
en las cinco cadenas de produccin existentes en la empresa,
informacin del nmero de unidades defectuosos detectadas sobre el
total producido. En el cuadro 20 se recoge la informacin del nmero de
unidades defectuosas, la cadena de produccin y el da de la semana.
Cuadro 20
%
Lunes
Martes
Mircoles
Jueves
Viernes
Sbado
Domingo

Cadena A
160
159
158
160
159
158
160

Cadena B
158
157
150
150
157
156
158

Cadena C
170
150
159
180
150
140
170

Cadena D
160
158
157
156
158
149
160

Cadena E
149
150
152
157
158
159
160

La desigualdad de Chebychev puede emplearse para detectar en


qu da o en qu cadena se produce un nmero de piezas defectuosas
especial. Sabemos que como mnimo el 75% de los casos estar
comprendidos en el intervalo x 2 s x . Las observaciones que superen
estos lmites se considera que toman valores relativamente extremos. La
representacin grfica de los valores de la variable y los lmites basados
en la desigualdad facilita su deteccin. El nmero medio de piezas
defectuosas es:
n

x=

X
i =1

5502
= 157,2
35

Y la desviacin estndar:
n

sx =

X
i =1

2
i

x2 =

866546
157,2 2 = 6,828
35

Los lmites de la desigualdad sern:

171
157,2 2 6,828 =
143

En la grfica 19 aparecen en el eje vertical el nmero de unidades


defectuosas y en el eje horizontal los siete das de cada una de las
cadenas, destacando el comportamiento de la cadena C, en la que se
producen fuertes oscilaciones en el nmero de piezas anmalas.

Grfica 19
Grf ica de control: DEFECTOS
190

180

170

160

150
Lmit e Sup.
Promedio

140

Lmit e I nf .
130

DEFECTOS
A A A A A A A B B B B B B B C C C C C C C D D D D D D D E E E E E E E
Lmit es basados en la regla de Cheby chev

El Diagrama de Caja. Los diagramas de cajas son representaciones grficas que


muestran la mediana, el rango intercuartlico, los valores atpicos y los casos
extremos de la variable. Son especialmente tiles cuando se trata de comparar
distintas variables o el comportamiento sobre una misma variable de distintos
grupos. El diagrama de caja aporta informacin conjunta de medidas de
posicin y de dispersin. En la grfica 20 se muestra un ejemplo de diagrama de
caja correspondiente a una variable con 25 observaciones.

El diagrama de caja presenta las siguientes caractersticas:


El eje vertical corresponde a los valores de la variable.
En el interior del rectngulo (con una lnea ms gruesa) se seala la
mediana de la variable.
Los bordes superior e inferior del rectngulo coinciden con el tercer y
primer cuartiles, respectivamente (75 y 25 percentiles). La amplitud
de ese intervalo define el rango intercuartlico (rangoIQ), que
coincidir visualmente, por tanto, con la altura del rectngulo (el 50%
de las observaciones centrales se encuentran dentro del rectngulo; un
25% de las observaciones restantes estarn por encima y el otro 25%
por debajo).
Para detectar la existencia de observaciones atpicas, desde las cajas
se definen, tanto por arriba como por abajo, dos lmites formales (que
no se representan), ambos basados en la amplitud del rectngulo, es
decir en el rango intercuartlico de la distribucin. El primer lmite se
obtiene como 1,5 veces el rangoIQ, el segundo lmite se sita en 3
veces la amplitud del rectngulo. En la grfica se sealan como
observaciones atpicas (outliers) aquellas que superan el lmite de 1,5
veces el rangoIQ sin exceder el lmite superior de 3 veces el rangoIQ
(observacin 18 en la grfica). Si la observacin supera el lmite
superior se sealan con otro smbolo, considerndose observaciones
extremas (observacin 19). No todos los programas estadsticos
distinguen entre observaciones atpicas y extremas, sealndose en
ocasiones de manera general aquellas que superan 1,5 veces el
rangoIQ.
Los lmites a los que se ha hecho referencias no son visibles en las
grficas, por lo que si no existen observaciones que los superen no se
visualizar ninguna seal.
Se representan en las grficas dos lneas perpendiculares a los bordes
del rectngulo, que llegan hasta la observacin ms alejada (en ambas
direcciones) pero que no puede definirse como outlier (inferior a 1,5
veces el rangoIQ).
En comparaciones entre diferentes variables o, especialmente, de la
misma variable en diversos grupos, resulta interesante disponer de una
referencia visual del nmero de observaciones implicadas (el nmero
de individuos que forman parte de cada grupo). Esto se consigue

haciendo que el rea de los rectngulos sea proporcional al tamao del


grupo.

En un diagrama de caja deben visualizarse la mediana, la amplitud


(rango y rango intercuartlico) y la existencia de observaciones atpicas y/o
extremas.

Grfica 20
20

19

10
18

-10
N=

25

DIAGRAMA DE CAJA

Diagrama de caja. Ayudas para su interpretacin:


La lnea que seala la mediana no tiene por qu aparecer en el centro
del rectngulo. Aparecer en el medio cuando la distribucin sea
simtrica, mientras que si es asimtrica por la derecha aparecer ms
cerca del lmite inferior que del superior. Al contrario ocurrir en una
distribucin asimtrica por la izquierda.
Si se comparan distribuciones, aquella que muestre un rectngulo de
mayor amplitud corresponder a la distribucin con mayor dispersin
(medida por el rangoIQ).
Si no existen outliers u observaciones extremas los lmites inferior y
superior vendrn sealados por las lneas externas al rectngulo.

Muchos programas facilitan la lectura de un identificador de las


observaciones atpicas o extremas.

En las grficas 21, 22 y 23 se muestran los diagramas de caja que


corresponden a tres distribuciones: simtrica, asimtrica por la derecha y
asimtrica por la izquierda, respectivamente. En la distribucin simtrica la
mediana se sita de manera equilibrada entre el tercer y primer cuartil; en la
distribucin asimtrica por la derecha, la mediana se encuentra ms cerca del
primer cuartil que del tercero; mientras que en la distribucin asimtrica por la
izquierda la mediana se acerca al tercer cuartil. La deteccin de observaciones
atpicas en la parte superior o inferior de la caja suele coincidir tambin con la
direccin de la asimetra.

Grfica 21
4
999

-2

465
998
792

-4
N=

Grfica 22

1000

10
2427
2756
4930

8
947
178
4620
4888
6907
1136
4446
9634
8577
5871
3061
5475
9861
5755
699
7988
4678
6685
5646
8710
932
4499
218
7088
9292
7989
3980
5219
7792
6445
7619
7643
6870
5673
8334
2899
5562
1023
1891
259
3773
7343
8682
5413
927
6608
3314
236
5185
2441
688
313
4431
2977
275
2974
8979
2258
8443
7742
7698
4688
262
7650
7030
1160
5536
3350
1145
5803
1337
9308
466
4617
8655
5557
845
1728
6814
1077
6048
6059
2887
3844
929
1473
8725
9835
91
2
5
7330
3130
4246
411
8718
6259
6722
4105
6020
238
8813
1361
4408
6317
35
8185
1805
1040
2995
3950
3003
5806
7520
7182
9996
2011
2576
4916
5801
5087
8907
6236
4358
67
5279
3049
6030
6396
926
3473
7536
6963
6765
6990
5583
8048
8890
3527
3798
3999
2395
3486
8540
4081
6107
8832
3682
9622
5410
1960
9198
7736
7539
9004
4487
1611
9340
9521
9984
5954
9925
8490
4812
5770
6934
6700
9018
9714
9615
1552
7489
3547
5624
6734
1738
3894
6897
3638
9489
8435
999
8151
2163
4360
3240
5834
2333
7978
2935
5942
7100
5376
7042
5104
1420
9285
3294
6592
1448
4239
8800
2185
3302
8498
8881
5085
1398
1970
5049
9770
5592
5617
4041
5448
4595
1058
3371
7440
4118
5092
4521
5074
2948
4185
1445
1334
9680
243
18
5186
3675
1291
7931
8075
6196
9095
9927
5875
9483
8946
2106
7712
7380
7117
6953
1435
6485
9689
7355
9700
3136
420
2077
1749
6754
7661
1924
9300
5716
7141
3483
7071
6433
8336
414
471
6489
3976
7865
9554
7862
4285
7773
855
21
2002
8918
8960
9829
2070
9404
4107
8066
8326
804
6366
2472
6834
8627
6151
6820
6551
4661
6735
8683
763
8594
4870
7079
4749
6239
1839
9822
8686
1653
4582
6093
3984
945
4816
6621
707
1641
4722
7458
5788
9906
5900
5865
2693
4997
482
1109
7438
5275
1229
9226
5843
872
9609
7820
7522
1393
5155
89
2424
6397
4946
9805
3911
6017
5619
5899
1462
6193
8542
8300
4296
9209
7699
4078
5732
2602
8822
5502
4865
3282
8654
5861
4123
7455
3884
8643
4111
2101
7172
2318
1676
1428
7572
4949
2929
4438
83
1864
5645
7854
541
1698
2867
3100
578
9563
7715
7246
136
5128
7305
4300
9215
5982
6561
5195
9491
944
1356
7168
7540
5077
167
7447
76
8615
8706
9085
3769
1055
4440
8790
2153
2450
6757
5796
2835
4412
968
571
9237
108
6125
4019
9902
170
1261
6618
7492
5582
4312
8082
7868
3310
8503
1670
5210
4724
6859
7972
3043
2715

-2
N=

10000

X3

Grfica 23
10

-10

239
136
21
707
730
763
555
571
108
482
243
266
471
167
83
466
76
91
414
238
262
5
926
845
927
67
35
259
929
313
236
218
275
688
178
932
699
947

-20
N=

1000

X5

Ejemplo 26. El primer y tercer cuartiles de una variable se sitan


en los valores 8 y 36, respectivamente. Un diagrama de caja declarara
como observaciones atpicas aquellas situadas por debajo de 34 o por
encima de 78:

8 1,5 (36 8) = 34

36 + 1,5 (36 8) = 78
Ejemplo 27. En la grfica 24 se reproduce el diagrama de caja
correspondiente a los siguientes datos {9, 23, 25, 28, 32, 47, 50}.
En un ejemplo anterior ya se haban obtenido los valores de los
tres cuartiles: 23, 28 y 47. Estos valores definiran la altura del rectngulo
(el rango intercuartlico es 24) y la posicin de la mediana. Se declararan
observaciones atpicas las que superaran 1,5 veces el rango
intercuartlico. Al restar esa cantidad (36) al primer cuartil y sumrsela al
tercer cuartil se obtienen valores (13 y 83) que superan el mnimo y
mximo de la variable. No existen, por tanto, observaciones extremas y
las prolongaciones de la caja llegan al mnimo y mximo de la variable.

Grfica 24
60

50

40

30

20

10

0
N=

Ejemplo 28. En un estudio de una muestra de familias espaolas


se ha analizado el nivel de ingresos de las familias, teniendo en cuenta
cul es la categora profesional del sustentador principal. Se distingui
entre pensionistas, asalariados, profesionales y empresarios,
obtenindose los resultados que se muestran en el cuadro 21 y en la

grfica 25. Los diagramas de caja se han construido imponiendo que el


tamao de la caja sea proporcional al nmero de observaciones.
Cuadro 21
Pensionista Asalariado Profesionale
s
s
s
8255
11236
13331
x
Mediana
7739
9497
10628
Rango
IQ
2608
6237
13282

Empresario
s
12404
12633
6681

Grfica 25
ingresos
45000

343
Pension.

Asalaria.

Profes.

Empres.

Las caractersticas que destacan de las cuatro distribuciones de


ingresos son las siguientes:
Los ingresos parecen aumentar, medidos por la mediana,
segn el orden pensionistas, asalariados, profesionales y
empresarios.
La dispersin de la variable aumenta en el mismo orden que
el valor de la mediana para los colectivos de pensionistas,
asalariados y empresarios. El colectivo con mayor dispersin
es el de los profesionales.
La distribucin de la categora de jubilados es la ms
simtrica, con la mediana situada cerca del centro del
rectngulo, mostrando una ligera asimetra por la derecha. Las
restantes distribuciones son claramente asimtricas, aunque

dos lo son por la derecha (asalariados y profesionales) y una


por la izquierda. Esta ltima distribucin es la que muestra la
asimetra ms pronunciada, al situarse la mediana muy cerca
del tercer cuartil.
El nmero de observaciones atpicas es reducido, excepto en
el caso de los asalariados.

Ejemplo 29. El crecimiento de los pases de la OCDE. En este ejemplo


se compara el PIB per capita de los pases de la OCDE en 1960 y 1990. En el
cuadro 22 se muestran unos ndices del PIB per capita, que toman como
referencia el PIB per capita de EEUU. Por ejemplo, el valor de Espaa en 1960
de 31,76 se obtiene de dividir el PIB per capita espaol por el correspondiente a
EEUU (ambos en dlares) e indica que el PIB per capita espaol era el 31,76%
del de EEUU.
En la grfica 26 reproducimos los diagramas de caja del ndice en los
dos aos. La posicin central de la distribucin de 1990 (medida por la mediana)
es muy superior a la de 1960. Ello indica que para el conjunto de pases se ha
producido una aproximacin a los niveles de riqueza de EEUU. La dispersin de
la distribucin (medida por el rango intercuartlico) es mucho menor, sealando
una cierta convergencia en los niveles de riqueza de todos los pases.

En el diagrama de caja correspondiente a 1990 se detectan tres


observaciones atpicas: Portugal, Grecia y, especialmente, Turqua, cuyos
ndices del PIB per capita son bastante inferiores. Dado que no se detectaban
como atpicos en 1960, debe inferirse que el nivel de convergencia econmica
alcanzado en estos pases es inferior al de los restantes miembros de la OCDE.
Destaca tambin la posicin de EEUU por la parte superior del diagrama. A
pesar de la convergencia en las sendas de crecimiento, este pas se ha
separado de los dems en la riqueza alcanzada. As por ejemplo, Suiza, que es
el pas que sigue a EEUU en el valor del PIB per capita pasa de tener un valor
del ndice igual a 97,20 a situarse en 95,85.

Cuadro 22

pas
Alemania

PIB per capita


1960
(USA=100)
67,73

PIB per capita


1990
(USA=100)
83,61

Australia
Austria
Blgica
Canad
Dinamarca
Espaa
Finlandia
Francia
Grecia
Holanda
Irlanda
Islandia
Italia
Japn
Luxemburgo
N. Zelanda
Noruega
Portugal
Reino Unido
Suecia
Suiza
Turqua
EEUU

Grfica 26

67,25
52,03
53,27
66,59
63,17
31,76
48,57
58,81
18,97
63,50
31,22
50,05
47,23
29,91
75,18
75,13
50,10
20,77
67,85
67,26
97,20
17,43
100

73,07
75,63
74,59
86,86
75,73
53,66
75,53
79,13
33,83
72,77
49,14
76,22
73,20
80,63
91,16
61,86
73,27
38,24
72,56
77,16
95,85
23,36
100

120

100

EEUU

80

60

40

Portugal
Grecia
Turqua

20

0
N=

24

24

PIB per capita, 1960

PIB per capita, 1990

Ejemplo 30. Empleando los catlogos del ao 2000 publicados por


diversos tour operadores britnicos se recogieron los precios de las
ofertas que realizan para una estancia de una semana en las Islas
Baleares (en la primera semana de agosto y saliendo del aeropuerto de
Gatwick). Para cada grupo de tour operadores (Airtours, Cosmos, First
Choice, Thomas Cook, Thomson y Virgin) se ha construido su diagrama
de caja con los precios de las ofertas de estancias a media pensin en
habitacin doble en un hotel de tres estrellas, con el resultado que se
muestra en la grfica 27. En esta grfica, el tamao de las cajas se ha
dibujado de manera que sea proporcional al nmero de ofertas que
realiza el tour operador. As, First Choice y Thomson seran los grupos
con ms ofertas.
La comparacin de los precios, a partir de la mediana permite detectar
importantes diferencias de precios entre los tour operadores, que posiblemente
reflejaran un poder de mercado diferente. Airtours presenta los precios ms altos,
seguida de Virgin y Thomas Cook y, en un tercer nivel, Thomson, Cosmos y
First Choice. La visin de los diagramas de caja facilita la comparacin de las
distribuciones.

Grfica 27

precio ptas
198967

98281.8
airtours cosmos

firtst ch

thomas co

thomson

virgin

Ejemplo 31. Se quiere analizar si la repeticin de la visita a una


zona implica una modificacin del gasto realizado por el turista. A partir
de un muestra de turistas alemanes se comparan los diagramas de caja
del gasto per capita y da de los que vienen por primera vez, segunda
vez, tercera vez y cuarta o ms veces. En la grfica 28 se reproducen los
diagramas correspondientes.

Grfica 28
total def pc/da
42110.8

800.974
una vez

dos veces

tres vece

4 o ms v

La imagen comparativa muestra la igualdad de las distribuciones,


tanto en su posicin central, como en los cuartiles (y rango
intercuartlico), mximos y mnimos.

Medidas de Asimetra y Curtosis


Existen medidas de forma que proporcionan informacin numrica sobre
dos caractersticas de la distribucin, su simetra y su apuntamiento o curtosis.
El concepto de simetra de una distribucin ha sido ya comentado y hemos visto
algunos ejemplos, aunque no hemos dado ninguna medida cuantitativa directa.
Discutiremos aqu los coeficientes de asimetra de Fisher y de Pearson. La idea
de apuntamiento o curtosis de una distribucin se refiere a la importancia de la
concentracin de las observaciones en la zona central de la variable, mostrndose
con ello una distribucin ms o menos apuntada.

Medida de asimetra de Fisher. En una distribucin simtrica las observaciones


de la variable tienden a situarse en igual proporcin a ambos lados del valor
medio. Cualquier medida que recoja alteraciones de esta situacin proporcionar
una cuantificacin de la asimetra de la distribucin. Una primera propuesta
podra ser la siguiente:
n

( X
i =1

x)

n
en tanto que define un promedio de las desviaciones de la variable con respecto
al valor medio. En el caso de que se dieran muchas observaciones por encima de
la media se esperara un valor positivo, mientras que una mayor proporcin de
valores por debajo de la media proporcionara un valor negativo. Es posible que
ya se haya dado cuenta de que esta propuesta, si no se modifica, es inservible,

( X
n

puesto que por definicin siempre

i =1

x)= 0 .

Una alternativa es tomar las desviaciones de la variable respecto a la


media pero elevadas a alguna potencia. Al elevar las desviaciones al cuadrado se
obtiene la expresin de la varianza, una medida de dispersin de los valores
respecto a la media, pero que no ayuda a sealar la posicin de las observaciones
a derecha o izquierda de la medida de posicin central. El cubo de las
desviaciones, al respetar el signo de la diferencia X i x s permite promediar
tanto la importancia de la desviacin, como su direccin. Se utilizara, por tanto,

un estadstico conocido como el momento de orden tres con respecto a la media


(m3):
n

m3 =

( X
i =1

x)3

O, si los datos estn agrupados en frecuencias, como:


p

m3 =

n (X
i =1

x)3

En funcin del signo de m3 puede determinarse si la asimetra es por la


derecha o por la izquierda (segn un nmero relativamente elevado de
observaciones tomen valores en la parte derecha o izquierda de la distribucin).
Tambin de habla de asimetra positiva (por la derecha) o asimetra negativa (por
la izquierda). Una distribucin simtrica tender a un valor de m3 igual a cero.
Por tanto tendremos:
m3 = 0 : Simetra.
m3 > 0 : Asimetra positiva o por la derecha.
m3 < 0 : Asimetra negativa o por la izquierda.
El estadstico de asimetra de R.A. Fisher se define a partir del anterior
estadstico, plantendose como una normalizacin del mismo para evitar que la
medida vare si se produce un cambio de escala. El coeficiente se define como:

g1 =

m3
s x3

Normalizndose, por tanto, mediante el cubo de la desviacin estndar.


Advierta que las caractersticas del signo no varan con respecto a lo ya expuesto.

g1 = 0 : Simetra.
g1 > 0 : Asimetra positiva o por la derecha.
g1 < 0 : Asimetra negativa o por la izquierda.

Medida de asimetra de Pearson. Recuerde que hemos planteado una relacin


entre media, moda y mediana que permita definir la simetra o asimetra de una
distribucin. En una distribucin simtrica los tres valores tienden a coincidir,
mientras que en una distribucin asimtrica se presentan con un orden distinto.
Pearson propuso el siguiente estadstico:

AS =

x Moda
sx

AS = 0 , la distribucin es simtrica.
AS > 0 , la distribucin es asimtrica por la derecha.
AS < 0 , la distribucin es asimtrica por la izquierda.

Medidas de apuntamiento o curtosis. Se aplican a distribuciones simtricas y


unimodales, pretenden medir hasta qu punto las observaciones de la variable se
acumulan en la parte central de la distribucin. Para medir esta acumulacin de
las frecuencias se emplea como medida cuantitativa la siguiente:
n

Curtosis =

(X
i =1

x)4 / n
s

4
x

m4
s x4

donde m4 definira el momento de orden cuatro respecto a la media.


El empleo de este estadstico (o el equivalente si los datos se presentan
agrupados) se justifica porque facilita la comparacin con lo que sera una
imagen que se considerara la referencia de una distribucin ni muy achatada ni
muy picuda. La distribucin utilizada es la de una variable denominada
normal, que ser el punto de referencia para la comparacin. En la grfica 29 se
representan los histogramas de cuatro variables que siguen este tipo de
distribucin (superpuesta aparece la forma idealizada del histograma).
Es con referencia a esta imagen con respecto a la que se compara el
apuntamiento de la distribucin de una variable. Si se calcula el coeficiente de
curtosis en una distribucin de tipo normal el valor que se obtiene es igual a 3,
como consecuencia de la relacin que existe en esta distribucin concreta entre el
valor m4 y sx:

m4 = 3 s x4

Este tipo de distribucin normal se estudia desde un punto de vista


matemtico dentro de la estadstica no descriptiva, en un marco en el que las
distribuciones de las variables se analizan desde su idealizacin matemtica.

Grfica 29
.089626

.089626

Histogramas Normal

Las distribuciones bsicas que se pretenden detectar se corresponden a


tres tipos de imagen. La primera sera la de una distribucin normal, la segunda
la de una distribucin algo ms achatada y la tercera la correspondiente a
distribuciones con mayor frecuencia en los valores centrales. Las distribuciones
se califican de una manera especfica segn este criterio, las distribuciones
parecidas a la normal se denominan mesocrticas, las distribuciones achatadas
se denominan platicrticas (vea las grficas 30 y 31), y aquellas que muestran
ms apuntamiento se denominan leptocrticas (vea las grficas 32 y 33). En
los histogramas correspondientes suele dibujarse en ocasiones la forma terica
que correspondera a una distribucin normal, con respecto a la cual se est
haciendo la comparacin.

Grfica 30

.057

0
-.1

2.6

Grfica 31
.08

0
-2.38555

5.84201

Grfica 32
.1403

0
-16.758

16.5001

Grfica 33
.1142

0
-7.59041

8.28189

Es frecuente en los programas estadsticos que el coeficiente de curtosis


que se ofrezca en los resultados sea el siguiente:

g2 =

m4
3
s x4

que permite la comparacin directa con la distribucin normal


Con ello se tiene el siguiente criterio:

g 2 = 0 , distribucin mesocrtica (normal).


g 2 < 0 , distribucin platicrtica (achatada).
g 2 > 0 , distribucin leptocrtica (apuntada).

Ejemplo 32. A partir de la informacin del cuadro 23 sobre la


distribucin de la variable X, obtendremos los valores de la desviacin
estndar y del coeficiente de asimetra de Fisher.
Cuadro 23

Xi

ni

X i ni

X i x

( X i x ) 2

( X i x )2 n i

( X i x )3 ni

0
1
2
3
4

4
5
2
2
1

0
5
4
6
4

-1,36
-0,36
0,64
1,64
2,64

1,84
0,13
0,41
2,70
6,98

7,37
0,64
0,83
5,40
6,98

-10
-0,23
0,53
8,87
18,46

n=14

X n =19
i =1

( X x) n =21,21 ( X x ) n =17,63

i =1

x =1,357

La desviacin estndar ser, por tanto:


p

sx =

(X
i =1

x ) ni
2

21,21
=1,231
14

Y el coeficiente de asimetra de Fisher:

i =1

g1 =

m3 17,63 14
=
= 0,67
s x3 (1,231)3

Ejemplo 33. A partir de la informacin de la distribucin de la


variable X que se muestra en el cuadro 24 obtendremos los valores del
coeficiente de curtosis.
Cuadro 24

Xi

ni

X i ni

X i x

( X i x )2 n i

( X i x )4 n i

0
1
2
3
4

4
5
2
2
1

0
5
4
6
4

-1,36
-0,36
0,64
1,64
2,64

7,37
0,64
0,83
5,40
6,98

13,57
0,08
0,34
14,57
48,79

n=14

X n =19

i =1

x =1,357
p

sx =

(X

g2 =

i =1

i =1

i =1

( Xi x)2 ni =21,21 ( Xi x )4 ni =77,35

x ) ni
2

21,21
=1,231
14

m4
77,35 14
3=
3 = 0,59
4
sx
(1,231)4

Ejemplo 34. En un estudio del ndice de ocupacin de la isla de


Tenerife se analizan las variaciones del ndice desde enero de 1978
hasta abril de 1996, calculando las variaciones mensuales del mismo. En
el cuadro 25 aparece un anlisis descriptivo de la Variacin del ndice de
ocupacin. El histograma de la serie de variaciones del ndice se
reproduce en la grfica 34.

Cuadro 25
Variacin
ndice de

sx

Mnimo

Mximo

Asimetra

Curtosis

ndice de
ocupaci
n

219

0,009

0,136

-0,381

0,452

0,351

0,60

Grfica 34
40

30

Frequency
20

10

-40

-20

0
20
Variacin ndice de ocupacin

40

Las conclusiones que pueden extraerse de esta informacin son


las siguientes:
La media de las tasas de variacin est prxima a cero,

indicando con ello que la serie no ha sufrido en el perodo


analizado un crecimiento (o decrecimiento) sistemtico.
El valor de la desviacin estndar de la Variacin del ndice de

ocupacin es elevado.
El coeficiente de asimetra est cercano a cero, coincidiendo

con el valor esperado en una distribucin simtrica de tipo


normal.
El coeficiente de curtosis, con un valor tambin cercano a cero,

indica que la distribucin tiene el mismo tipo de apuntamiento


que correspondera a la distribucin normal.

La semejanza de la distribucin a la de tipo normal queda

tambin confirmada grficamente con el histograma y la


estilizacin correspondiente a la distribucin terica normal.
Ejemplo 35. El histograma de la grfica 35 corresponde al gasto
(per capita y da) de una muestra de turistas de nacionalidad espaola en
una zona turstica.

Grfica 35
nacionalidad espaola
70

60

50

40

30

Frecuencia

20

10
0
10,0

50,0
30,0

90,0
70,0

130,0
110,0

170,0
150,0

210,0
190,0

La distribucin no se aleja demasiado de la que correspondera a una


normal, aunque aparece algo ms apuntada en los valores centrales y con una
cierta asimetra por la derecha. El clculo de los coeficientes de asimetra y
curtosis confirma esta impresin, con valores iguales a 1,348 (ligera asimetra
positiva) y 3,035 (distribucin leptocrtica).

Ejemplo 36. Caractersticas distribucionales de los rendimientos de


los mercados emergentes. Bekaert et al. (1998) analizan los beneficios
que se obtienen como consecuencia de invertir en nuevos mercados. Se
trata de mercados con gran variabilidad, poco ligados a los mercados
desarrollados, propios de inversiones que proporcionan altos beneficios
con un horizonte temporal a ms largo plazo. Este tipo de mercado es
tambin ms sensible a las crisis polticas, devaluaciones de la moneda y

regulaciones legislativas. Los mercados emergentes no pueden


caracterizarse nicamente mediante la media y la desviacin estndar de
los rendimientos, sino que deben contemplarse adems la asimetra y la
curtosis de la distribucin.
Como caso particular Bekaert et al. (1998) comparan los
histogramas de la distribucin de los beneficios del mercado argentino y
del mercado americano (grficas 36 y 37, respectivamente). El perodo
seleccionado para recoger la informacin es desde abril de 1987 a marzo
de 1997. En el histograma de los rendimientos del mercado argentino
resalta una cierta asimetra, as como una curtosis elevada. Las cifras de
EEUU, por el contrario, estn ms prximas a la imagen idealizada de la
distribucin normal.
Como parte de su anlisis Bekaert et al. (1998) ofrecen diversos
estadsticos descriptivos de los rendimientos totales en distintos
mercados emergentes. Parte de esta informacin se reproduce en el
cuadro 26. Sobre estas cifras, los autores destacan que de veinte
pases, diecisiete muestran una asimetra positiva, mientras que
diecinueve tienen un exceso de curtosis. La idea de una distribucin de
tipo normal (simtrica y con curtosis cero) en la distribucin de los
rendimientos no parece, por tanto, adecuada.
Estos parmetros de simetra y curtosis deberan tenerse en
cuenta al decidir las inversiones, puesto que, por ejemplo, puede
suponerse que los inversores preferirn rendimientos que presenten
asimetra por la derecha que por la izquierda. La principal propuesta de
los autores se realiza en el mbito del diseo de una cartera de
inversiones, proponiendo un mtodo por el que la informacin sobre los
momentos de tercer y cuarto orden de la distribucin entran a formar
parte de los parmetros del problema de asignacin.

Grfica 36

.174051

Fraction

0
-70

-50

-30

-10
10
30
50
70
90
ARGENTINA, rendimientos mensuales

110

130

150

170

Grfica 37
.223881

Fraction

0
-30

-10
10
EEUU, rendimientos mensuales

30

50

Cuadro 26
Pas
Argentina
Brasil
Chile
Colombia
Grecia
India
Jordania
Malasia
Mjico
Nigeria
Paquistn
Filipinas
Portugal
Corea del Sur
Taiwan
Tailandia
Turqua
Venezuela
Zimbaue

Media
aritmtica
(%)
56.8
42.6
32.2
32.7
21.6
11.7
5.9
17.3
29.2
32.6
14.7
23.4
15.7
6.6
30.4
20.5
41.9
23.9
25.4

Media
Desviacin Asimetr
geomtric
Curtosis
estndar
a
a (%)
27.2
87.9
3.32
20.22
22.1
63.9
0.25
1.09
28.2
27.6
0.28
-0.07
28.0
31.5
1.63
4.14
14.0
41.2
1.76
6.33
6.3
33.8
0.72
1.11
4.6
15.9
0.17
1.53
13.9
25.2
-0.86
2.79
17.2
45.4
-1.01
5.41
18.1
52.3
1.49
19.64
11.1
27.4
1.23
4.27
17.7
34.1
0.67
3.69
9.0
39.2
2.35
12.91
2.8
28.0
0.59
0.42
17.2
52.4
0.59
1.45
15.0
32.7
-0.19
1.81
19.7
70.5
0.97
1.04
12.9
46.9
0.25
2.23
21.0
29.3
0.02
1.25

CAPTULO IV. Anlisis BIVARIANTE de VARIABLES CUALITATIVAS

El anlisis del comportamiento de una variable casi siempre implica


discutir sobre su relacin con otras variables. A continuacin se estudiarn
dos tipos de relaciones bivariantes. El primer tipo comprende la relacin
entre dos variables de tipo cualitativo, incluyendo en ellas variables
cuantitativas cuyo tratamiento efectivo la asimila una variable cualitativa
ordinal. El segundo, en el prximo captulo, se refiere a la relacin entre dos
variable cuantitativas. En ambos contextos se estudia la asociacin entre dos
variables, aadiendo a la cuestin de su deteccin y medicin, la posible
determinacin de una relacin de dependencia.
La definicin estadstica de una relacin de dependencia entre dos
variables (sean stas cualitativas o cuantitativas) intenta establecer cul es la
variable (independiente) que influye en la otra (dependiente). En el lenguaje
estadstico tambin se habla de una variable explicativa y una variable explicada.
La idea de causalidad supone algo ms que la asociacin entre ellas, puesto que
impone una relacin de dependencia entre las variables, debiendo plantear qu
variable es dependiente y qu variable es independiente. Desde el punto de vista
estadstico existen tcnicas para establecer la direccin e importancia cuantitativa
de la causalidad, pero su aplicacin adquiere pleno sentido cuando se acompaa
de algn tipo de hiptesis terica, aunque sea al nivel puramente exploratorio de
los datos.

Distribucin conjunta de variables. Tabla de contingencia

Al tratar de describir la relacin entre dos variables cualitativas, que


denotaremos A y B, la principal herramienta de anlisis es la tabla de frecuencias
conjunta o tabla de contingencia. Se considera que cada una de las variables
puede tomar una serie de valores mutuamente excluyentes, de manera que sobre
cada individuo de la muestra puede observarse cules son las categoras a las que
pertenece en cada una de las variables. Como en el caso de la estadstica
univariante, la primera manera de resumir la informacin es el puro cmputo.
Empleando una tabla de doble entrada se muestran todas las posibles
combinaciones de las categoras de las dos variable, anotando en cada una de las
celdas resultantes el nmero de casos que pertenecen a las dos categoras. La
presentacin usual de este tipo de tablas, representando su distribucin conjunta,
se muestra en el cuadro 1.

Cuadro 1
B1 B2
A1 n11 n12
A2 n21 n22

AI nI1 nI2

BJ
n1J
n2J

nIJ

En la anterior tabla se relacionan las dos variables indicadas como A y B,


cada una de ellas con un nmero de atributos o categoras igual a I y J,
respectivamente (Ai, i=1,,I; Bj, j=1,, J); nij indica el nmero de observaciones
que presentan simultneamente las caractersticas i y j de las variables A y B. El
tratamiento ms elemental de esta informacin es la obtencin de las distintas
frecuencias. En las tablas de contingencia se muestran las frecuencias (absolutas
o relativas) en las que ocurren las categoras de filas y columnas. La notacin
empleada no debe provocarle ninguna dificultad, aunque dado que la lectura de
los subndices siempre resulta algo engorrosa piense que lo que se est
definiendo como tratamientos de la tabla de distribucin conjunta es la
formalizacin de una lectura natural de la tabla: como frecuencias absolutas,
como frecuencias relativas respecto al total de observaciones y como frecuencias
relativas respecto a cada uno de los lados de la tabla.
(i) Distribuciones marginales. Son las frecuencias (absolutas y relativas) de cada
una de las variables. Para ello es suficiente con sumar todas las celdas
correspondientes a cada una de las filas o de las columnas. En el cuadro 2 se
muestra la tabla de contingencia cuando se incluyen las distribuciones
marginales. En la misma,
J

ni . = nij ,
j =1

n. j = nij
i =1

Cuadro 2

n11 n12
n21 n22

nI1 nI2

n1J
n2J

nIJ

Distribucin
marginal de
A
n1.
n2.

nI.

n.1

n.J

B1
A1
A2

AI
Distribucin
marginal de
B

B2 BJ

n.2

(ii) Distribucin de frecuencias relativas. Son las frecuencias relativas de cada


una de las celdas respecto al total de observaciones (cuadro 3).
Cuadro 3
B1

B2 BJ

Distribucin
marginal de
A

A1

n1J
n11 n12
K
n n
n

n1.
n

A2

n2 J
n21 n 22
K
n n
n

n2.
n

M
M K M
n IJ
n I1 n I 2
K
n n
n

M
nI .
n

n.1 n.2
n. J
K
n n
n

AI
Distribucin
marginal de
B

(iii) Perfiles fila. Corresponde a la tabla en la que aparecen las frecuencias


relativas de cada una de las celdas con respecto al total de las filas (cuadro 4).
Cuadro 4
B1

B2

BJ

A1

n
n11 n12
K 1J
n1. n1.
n1.

A2

n 21 n 22
n 2. n 2.

AI

nI1
nI .

Distribucin
marginal de
B

n 21
n 2.

M K M
nI 2
n IJ
nI . K
nI .

n.1 n.2
n
K .J
n n
n

M
1

(iv) Perfiles columna. Muestra las frecuencias relativas de cada una de las celdas
con respecto al total de las columnas (cuadro 5).
Cuadro 5
B1 B2
A1
A2

AI

Distribucin
BJ marginal de
A

n
n11 n12
K 1J
n.1 n.2
n. J

n1.
n

n
n21 n22
K 2J
n.1 n.2
n. J
M
M K M
n
nI1 nI 2
K IJ
n.1 n.2
n. J

n2.
n
M
nI .
n

Ejemplo 1. Diferencias en el tamao de las empresas industriales.


Para el sector industrial espaol se desea analizar si existe alguna
relacin entre el tamao de las empresas y el sector concreto al que
pertenecen. Empleando un ao de la Encuesta Industrial se ha recogido
para 610 empresas, informacin consistente en el sector al que
pertenece la empresa (Metal, Qumica, Alimentacin, Confeccin,
Madera, Papel, Minerales no metlicos, Construccin) y su tamao,
medido en tres intervalos: de 20 a 99 empleados, de 100 a 499 y de ms
de 500. Los resultados del cruzamiento de estas dos variables (sector y
tamao) se ofrecen en el cuadro 6 (frecuencias absolutas).
Cuadro 6
20/99 100/499 ms 500 Totale
s
Metal
50
73
90
213
Qumica
13
31
15
59
Alimentacin 14
15
9
38
Confeccin 33
48
8
89
Madera
20
3
1
24
Papel
9
10
4
23
Minerales
11
9
5
25
Construcci 80
31
28
139
n

Totales

230

220

160

610

En el cuadro 7 se muestran los porcentajes, respecto al total de


empresas considerado en la muestra, de cada una de las celdas de la
tabla. La tabla puede representarse en un espacio de tres dimensiones
para facilitar su lectura. En la grfica 1 se ofrece esa representacin,
indicndose con la serie numrica 1 a 8 los sectores productivos
correspondientes.
Cuadro 7
20/99 100/499 ms 500
Metal
8,20 11,97
14,75
Qumica
2,13
5,08
2,46
Alimentacin 2,30
2,46
1,48
Confeccin 5,41
7,87
1,31
Madera
3,28
0,49
0,16
Papel
1,48
1,64
0,66
Minerales 1,80
1,48
0,82
Construccin 13,11 5,08
4,59
Totales
37,70 36,07
26,23

Totales
34,92
9,67
6,23
14,59
3,93
3,77
4,10
22,79
100,00

Grfica 1
15,00
10,00
5,00
ms 500
100 a 499
20 a 99

0,00
1

Sea a travs de la tabla de frecuencias conjunta o por medio de


su representacin puede obtenerse una visin de la importancia de cada
de los sectores y su distribucin en funcin del tamao de las empresas.
En un problema como el planteado aqu, en el que interesa destacar la

distribucin de cada sector segn el tamao, sera de ms ayuda la tabla


de perfiles fila que se muestra en el cuadro 8. En la misma es fcil
detectar que el sector del metal sera el representativo de las grandes
empresas, mientras que los sectores de la madera, construccin y
minerales no metlicos estaran caracterizados por un mayor nmero de
empresas pequeas. El sector de la confeccin y el qumico se
caracterizaran por tener empresas de tamao mediano, mientras que el
sector del papel acumulara empresas pequeas y medianas. El sector
de la alimentacin, por ltimo, sera el que mantendra un equilibrio
mayor entre los tres tipos de tamao. La conclusin general es, por tanto,
que efectivamente existen claras diferencias en el tamao de las
empresas segn el sector productivo, habiendo ayudado la estructura de
perfiles fila a describir la distribucin particular de cada uno de los
sectores.
Cuadro 8
Metal
Qumica
Alimentacin
Confeccin
Madera
Papel
Minerales
Construccin
Totales

20 a 99 100 a 499 ms 500 Totales


23,47
34,27
42,25
100,00
22,03
52,54
25,42
100,00
36,84
39,47
23,68
100,00
37,08
53,93
8,99
100,00
83,33
12,50
4,17
100,00
39,13
43,48
17,39
100,00
44,00
36,00
20,00
100,00
57,55
22,30
20,14
100,00
37,70
36,07
26,23
100,00

Advierta, sin embargo, que la lectura de la tabla en trminos de


los perfiles fila, no anula los comentarios que pueden realizarse cuando
se toma la tabla en la direccin de las columnas. Aunque resulta obvio, el
hecho de que el sector de la madera sea representativo de las empresas
de pequeo tamao, su menor nmero en el total de la muestra hace que
en trminos de la distribucin de las empresas de este tamao entre
sectores (perfiles columna) su importancia sea pequea (vase cuadro
9). Si se quisiese incidir de manera global en este tipo de empresas los
sectores de la construccin y el metal seran los de mayor peso. Una
discusin similar podra realizarse para las restantes columnas.
Cuadro 9
Metal
Qumica

20/99
21,74
5,65

100/499 ms 500 Totales


33,18
56,25
34,92
14,09
9,38
9,67

Alimentacin
Confeccin
Madera
Papel
Minerales
Construccin
Totales

6,09
14,35
8,70
3,91
4,78
34,78
100,00

6,82
21,82
1,36
4,55
4,09
14,09
100,00

5,63
5,00
0,63
2,50
3,13
17,50
100,00

6,23
14,59
3,93
3,77
4,10
22,79
100,00

La interpretacin de los resultados de una tabla de contingencia obliga a


una lectura cuidadosa de los porcentajes de filas y columnas, al ofrecer diferentes
perspectivas de la misma informacin.
Ejemplo 2. Baleares como segunda residencia. Con el objetivo de
conocer la evolucin y estructura del gasto turstico, el Govern Balear
realiza anualmente una encuesta sobre el gasto turstico en las Islas
Baleares. Entre la informacin que se publica para el ao 1990 aparece
el deseo que los turistas tienen de seleccionar Baleares como una
posible segunda residencia. Considerando que este deseo puede estar
en funcin de la zona en donde se ha realizado la estancia, las
respuestas a la cuestin deseara escoger Baleares como segunda
residencia? se han cruzado con el lugar de estancia. Las posibles
respuestas a la pregunta son: (i) no; (ii) s, en los prximos aos; (iii )s,
cuando me jubile, (iv) no lo sabe. Los lugares de estancia se han
clasificado en las siguientes zonas: (1) Palma; (2) Costa de Ponent; (3)
Costa de Tramuntana; (4) Badia de Pollena; (5) Badia dAlcudia; (6)
Costa de Llevant; (7) Platja de Palma-SArenal; (8) Menorca; (9) EivissaFormentera. La informacin correspondiente a los turistas llegados a la
isla en temporada alta se recoge en el cuadro 10. La distribucin de
porcentajes fila y columna se muestran en los cuadros 11 y 12,
respectivamente.
Cuadro 10
zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales
No
S, prx.aos
S, jubilacin
NS/NC
Totales

88
25
16
34
163

524
143
148
211
1026

36
8
8
19
71

97
37
48
39
221

395
100
167
212
874

593
182
233
249
1257

358
120
102
118
698

200
94
90
115
498

520
148
157
181
1006

2812
856
968
1178
5814

Cuadro 11
zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales

No
S, prx.aos
S, jubilacin
NS/NC
Totales

3,13
2,92
1,65
2,89
2,80

18,63
16,71
15,29
17,91
17,65

1,28
0,93
0,83
1,61
1,22

3,45
4,32
4,96
3,31
3,80

14,05
11,68
17,25
18,00
15,03

21,09
21,26
24,07
21,14
21,62

12,73 7,11 18,49


14,02 10,98 17,29
10,54 9,30 16,22
10,02 9,76 15,37
12,01 8,57 17,30

100
100
100
100
100

Cuadro 12
zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales

53,99
S, prx.aos 15,34
S, jubilacin 9,82
NS/NC
20,86
Totales
100
No

51,07
13,94
14,42
20,57
100

50,70
11,27
11,27
26,76
100

43,89
16,74
21,72
17,65
100

45,19
11,44
19,11
24,26
100

47,18
14,48
18,54
19,81
100

51,29
17,19
14,61
16,91
100

40,16
18,88
18,07
23,09
100

51,69
14,71
15,61
17,99
100

48,37
14,72
16,65
20,26
100

En el cuadro 11 puede observarse la distinta afluencia de


turistas segn las zonas, las que reciben mayor afluencia de visitantes
son la zona 2 (Costa de Ponent, 18%) zona 5 (Badia dAlcudia, 15%),
zona 6 (Costa de Llevant, 22%) y zona 9 (Eivissa-Formentera, 17%),
mientras que la zona 3 (Costa de Tramuntana, 1%) y la zona 4 (Badia de
Pollena, 4%) son las que menos turistas reciben. En el cuadro 12
pueden leerse los porcentajes totales de aceptacin: el 48% de los
encuestados no elegiran las islas como segunda residencia, mientras
que el 32% s lo hara, el 15% en los prximos aos y el 17% en la
jubilacin. Los porcentajes segn el lugar de estancia no varan en
exceso, aunque pueden observarse dos zonas en las que claramente se
supera el valor medio de aceptacin: la zona 4 (Badia de Pollena, para
la que el 39% de los turistas visitantes de la zona escogeran las Islas) y
la zona 8 (Menorca, con el 37% de sus visitantes). Entre las zonas donde
se observa un rechazo a esta seleccin destaca la ciudad de Palma
(54% de respuestas negativas).
En los siguientes apartados se tratan algunos estadsticos de asociacin
para variables de tipo cualitativo. Los dos primeros se centran en algunos
coeficientes de asociacin para variables nominales u ordinales (Chi-cuadrado, C
de contingencia y lambda), mientras que en el tercero se explican algunas
medidas de asociacin para cualitativas ordinales (gamma, tau-b y tau-c).

Chi-Cuadrado y C de contingencia

La lectura de los porcentajes de una tabla de frecuencias permite


averiguar si existe algn tipo de asociacin entre las diversas categoras de las
variables, verificando si el hecho de pertenecer a alguna de las categoras de una
de las variables permite asegurar una frecuencia mayor o menor de la esperada
respecto a las categoras de la otra variable. Retomemos el ejemplo anterior en el
que se analiza las respuestas de los turistas de Baleares a la pregunta deseara
escoger Baleares como segunda residencia?, teniendo en cuenta la zona en la
que han pasado sus vacaciones en las islas. El total de turistas que contestan
No a esta pregunta es aproximadamente del 48%. En el caso de que el lugar de
estancia no tuviese una especial influencia en esta opinin, el porcentaje de
noes esperado sera el mismo independientemente de la zona de vacaciones. Es
decir, tanto en la zona 1 como en la zona 2, etctera, esperaramos un porcentaje
de respuestas negativas muy cercano al 48%. Al observar una zona con un
porcentaje distinto (sea mayor o menor) que el calculado sobre toda la muestra es
cuando se detecta una asociacin entre las dos variables cualitativas. Si la
distribucin de frecuencias se modifica en funcin de la zona de estancia
podemos hablar de una asociacin entre las dos variables.
Una medida sinttica del grado de asociacin se calcula a partir de la
comparacin entre los valores observados y los valores que uno esperara
encontrar en el caso de inexistencia de asociacin. Si no se esperase ninguna
asociacin entre el lugar de estancia y la posible segunda residencia, la
distribucin de frecuencias relativas en trminos de los perfiles columna sera la
reproducida en el cuadro 13.
Cuadro 13
zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales

48,37
S, prx.aos 14,72
S, jubilacin 16,65
NS/NC
20,26
Totales
100
No

48,37
14,72
16,65
20,26
100

48,37
14,72
16,65
20,26
100

48,37
14,72
16,65
20,26
100

48,37
14,72
16,65
20,26
100

48,37
14,72
16,65
20,26
100

48,37
14,72
16,65
20,26
100

48,37
14,72
16,65
20,26
100

48,37
14,72
16,65
20,26
100

48,37
14,72
16,65
20,26
100

Es decir, todos los perfiles columna seran iguales a la distribucin


marginal. En trminos de las frecuencias absolutas los resultados que
esperaramos encontrar (frecuencias esperadas, eij) seran los del cuadro 14.
Cuadro 14
zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales
No
S, prx.aos
S, jubilacin

79
24
27

496
151
171

34
10
12

107
33
37

423
129
145

608
185
209

338
103
116

241
73
83

487
148
167

2812
856
968

NS/NC
Totales

33
163

208
1026

14
71

45
221

177
874

255
1257

141
698

101
498

204
1006

1178
5814

Cada una de las celdas de la tabla se obtiene aplicando el porcentaje de


los totales de la ltima columna al nmero de personas que han estado en cada
zona, por ejemplo:

e11 =

2812
163 = 79
5814

e12 =

2812
1026 = 496
5814

; ...

e21 =

856
163 = 24
5814

e22 =

856
1026 = 151
5814

; ...

Si las cifras observadas son parecidas a las esperadas suponiendo


independencia de las respuestas, las diferencias entre los valores observados nij y
los esperados eij estaran prximas a cero. El estadstico de asociacin chicuadrado, 2 , resume esta posible discrepancia para el conjunto de las celdas de
la tabla:
I

2 =

(n

ij

i =1 j =1

eij

eij

Este estadstico suma para todas las celdas la discrepancia, elevada al


cuadrado, entre la frecuencia observada y la esperada; normalizando esa cifra
mediante el valor esperado.
Si no existe ningn grado de asociacin entre las variables cualitativas
los valores esperados seran iguales a los valores observados, con lo que el valor
del estadstico en este caso sera igual a cero.

Inexistencia de asociacin entre las variables 2 =

i =1 j =1

(n

ij

eij

eij

En el cuadro 15 se leen las cifras correspondientes a las diferencias

(n

ij

eij
eij

del ejemplo de segunda residencia.


Cuadro 15
zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9
No
S, prx.aos
S, jubilacin
NS/NC

1,1
0,0
4,6
0,0

1,6
0,4
3,1
0,0

0,1
0,6
1,2
1,5

0,9
0,6
3,4
0,7

1,8
6,4
3,1
6,9

0,4
0,1
2,6
0,1

1,3
2,9
1,8
3,9

7
5,7
0,6
1,9

2,3
0,0
0,7
2,5

La suma de todas estas cantidades proporciona el valor del estadstico


chi-cuadrado, que en este caso es igual a 71,87. Dado que este valor no est
cercano a cero, puede afirmarse que existe algn tipo de asociacin entre las dos
variables. Dicho de otra manera, puede afirmarse que lo que se opina sobre
Baleares como segunda residencia tiene algn tipo de relacin con la zona de
estancia de las vacaciones.
El problema de este estadstico es que aunque tiene un lmite inferior con
una interpretacin muy clara, tal como est definido no proporciona un lmite
superior que permita referirnos al grado de asociacin existente. Como ya se ha
comentado, muchos estadsticos tienen una mayor utilidad si definen lmites a los
que tomar como referencia. En este caso, el lmite inferior es cero e indica la
ausencia total de dependencia entre las dos variables, pero desconocemos el
lmite superior que puede tomar y, por tanto, no podramos afirmar si la
asociacin detectada es fuerte o dbil.
Como una opcin al estadstico chi-cuadrado, K. Pearson propuso el
coeficiente C de contingencia definido como:

C=

2
n+2

El lmite superior de este estadstico no est, sin embargo, libre de


problemas. El coeficiente C toma su valor mnimo cuando 2 es cero, es decir si
entre las dos variables no existe asociacin. El valor mximo del coeficiente, que
se da cuando existe una asociacin completa entre las variables, depende del
nmero de modalidades de las variables. El mximo que puede alcanzar el
coeficiente es uno (correspondiente a dos variables con infinitas modalidades),
pero no siempre se alcanza. Por ejemplo, cuando se trata de una tabla cuadrada
I x I (igual nmero de filas que de columnas), el lmite superior es igual a

(I 1)

I . En general, el lmite mximo del coeficiente es igual a:

1
,
mn(I , J )

mn (I , J ) 2

El coeficiente C de contingencia toma valores entre 0 y 1. Valores de C


cercanos a cero indican un grado de asociacin pequeo. Valores cercanos a uno
seran sntoma de asociacin entre las variables.

Ejemplo 3. Caractersticas de los hogares unipersonales. Se desea


conocer si los hogares unipersonales son caractersticos de las zonas
urbanas. Para ello y utilizando datos de la EPF-90 se cruza informacin
sobre estas dos caractersticas del hogar. La variable denominada
unipersonal toma dos posibles atributos segn el hogar sea o no sea unipersonal;
la variable zona indica si el hogar pertenece al medio rural o al medio urbano.
Los resultados del cruzamiento se ofrecen en los cuadros 16 (frecuencias
observadas) y 17 (porcentajes de filas, columnas y sobre el total, en este
orden).
Puede observar que los hogares unipersonales representan el 10,2% de
los hogares de la EPF-90, los porcentajes de este tipo de hogar segn se
distinga entre su pertenencia a zona rural o urbana no son muy distintos (10,5%
y 10%, respectivamente). Una informacin similar se obtiene analizando los
perfiles fila. Los hogares urbanos representan el 51,9% del total de hogares,
siendo el porcentaje igual a 50,6% cuando se consideran nicamente los
hogares unipersonales. La lectura de estos porcentajes, por lo tanto, no parece
indicar una asociacin importante entre las variables tipo de hogar (unipersonal
o no) y zona de residencia (rural o urbana).

Cuadro 16
Unipersonal:
No
S
Totales

Zona:
Rural Urbana
9070
9840
1065
1091
10135
10931

Totales
18910
2156
21066

Cuadro 17
Unipersonal:
No

Zona:
Rural
Urbana
48%
52%
89,5%
90%
43,1%
46,7%

Totales
89,8%

49,4%
10,5%
5,1%
48,1%

S
Totales

50,6%
10%
5,2%
51,9%

10,2%

Cuadro 18
Zona:
Unipersonal:
No
S

Rural

Urbana

18910
10135 = 9097,73
21066
2156
10135 =1037,27
21066

18910
10931= 9812,27
21066
2156
10931=1118,7
21066

10135

10931

Totales

Totales
18910
2156
21066

Para conocer el valor del estadstico de asociacin chi-cuadrado


deben obtenerse los valores esperados de cada celda, calculados segn
se muestra en el cuadro 18, siendo el valor del estadstico:
2 =

(9070 9097,73)2 (9840 9812,27)2 (1065 1037,27)2 (1091 1118,7 )2


9097,73

9812,27

1037,27

1118,7

= 1,59

Y el valor del coeficiente C:

C=

2
1,59
=
= 0,0087
2
21066 + 1,59
n+

El coeficiente C, al estar tan prximo a cero apunta la ausencia de


asociacin entre las dos variables.

Lambda

Este coeficiente se define tomando como base el concepto de prediccin.


Supongamos que queremos predecir la respuesta de un individuo a la pregunta de
una encuesta. Si no sabemos nada de ese individuo, una prediccin razonable
sera suponer que su respuesta coincidir con la opcin que ms gente haya
contestado. Al adoptar este criterio interpretaramos como valor ms probable

aquel que en la muestra se ha descubierto como el ms frecuente. As, por


ejemplo, si tuviramos que asignar una familia espaola a la categora de hogar
urbano o rural, empleando la informacin del cuadro 16, este criterio aconsejara
asignarlo a la categora ms frecuente, en este caso el hogar urbano. Obviamente,
existe la posibilidad de cometer un error. Puede medirse la importancia del
error? Si aplicsemos este criterio a las 21066 familias de la muestra EPF-90
realizaramos una prediccin correcta en 10931 casos (las familias que
efectivamente pertenecen a la opcin mayoritaria), mientras que cometeramos
un error en las 10135 familias restantes (las familias que no pertenecen a la moda
de la distribucin).
En el caso de disponer de informacin adicional, la prediccin podra
intentar mejorarse. Por ejemplo, si supiramos que la familia que queremos
asignar como hogar rural o urbano tiene alguna otra caracterstica, podramos
utilizar esa informacin en el proceso de asignacin. Supongamos que,
efectivamente, se conoce si en ese hogar existen o no personas con ms de 60
aos. Podramos mejorar el nmero de aciertos si utilizsemos esta
informacin?
En los cuadros 19 (frecuencias absolutas) y 20 (porcentajes fila) se
muestra el cruzamiento de las dos variables.

Cuadro 19
mayores de 60 aos:
No
S
Totales

Zona:
Rural
Urbana
5318
6726
4817
4205
10135
10931

Totales
12044
9022
21066

Zona:
Rural
Urbana
44,2%
55,8%
53,4%
46,6%
48,1%
51,9%

Totales
100%
100%
100%

Cuadro 20
mayores de 60 aos:
No
S
Totales

Si sabemos que en la familia hay miembros mayores de 60 aos


modificaramos la prediccin. La distribucin de la fila correspondiente a este
tipo de hogar entre rural y urbano es del 53,4% y 46,6%, respectivamente,

cuando en el total el porcentaje era del 48,1% y 51,9%. La prediccin, si


mantenemos el criterio de asignar la familia al atributo ms frecuente es distinta
ahora, al ser la caracterstica de hogar rural la ms frecuente entre aquellos
hogares con familias que tienen algn miembro mayor de 60 aos. Cul ser el
error que se cometera si se aplica la prediccin a todas las familias de la
muestra? Por un lado, si en la familia hay mayores de 60 aos, se asignaran
errneamente a zonas rurales las 4205 familias que viven en zonas urbanas. Por
otro lado, si sabemos que en la familia no existe ningn miembro de 60 aos,
cualquier familia para la que hagamos la prediccin la situaramos en zona
urbana, al tratarse de la categora ms frecuente (55,8% de los casos). El error
que cometeramos en este caso sera de 5318 familias. En total, por tanto, el error
global sera de 4205+5318 familias, igual a 9523.
Al considerar dos variables puede utilizarse una de ellas para facilitar la
prediccin de la otra. La prediccin de la variable dependiente se realiza
condicionada a los valores de la variable independiente.
Se ha mejorado la prediccin al tener en cuenta la variable mayores de
60 aos? Manteniendo siempre como criterio de prediccin la asignacin de un
individuo a la caracterstica ms frecuente, cuando no se ha tenido en cuenta esta
variable el error global era de 10135 familias y cuando se ha considerado, el error
global ha sido de 9523. En consecuencia, se ha mejorado la prediccin en slo
612 familias que ahora se asignaran correctamente. Porcentualmente puede
valorarse si se ha producido una mejora mediante la siguiente medida de
reduccin proporcional del error:

10135 9523
= 0,06038
10135

Cmo debe leerse este estadstico? El valor obtenido indica que


sabiendo que en la familia viven una o ms personas por encima de los 60 aos el
error de la prediccin se reducira un 6,04%, en este caso una cifra pequea.
En general, el estadstico lambda se define como:

=
donde:

error no condicionado - error condicionado


error no condicionado

error no condicionado, es el error de prediccin cometido cuando las


predicciones para los atributos de la variable dependiente no estn condicionadas
a otra variable.

error condicionado, es el error de prediccin cometido cuando las


predicciones para los atributos de la variable dependiente se hacen condicionadas
a los atributos de una variable independiente.
El valor mnimo de lambda es cero y se dar cuando el error no
condicionado = error condicionado, es decir, cuando el error de la prediccin no
se mejora al tener informacin de la segunda variable. El valor mximo es igual a
1 y se da cuando el error condicionado se hace cero, es decir, cuando la
prediccin condicionada reduce el error totalmente.
El estadstico lambda toma valores entre cero y uno: 0 1 . Un
valor de lambda igual a cero quiere decir que la variable independiente no ayuda
a predecir la variable dependiente: no se reduce el error de prediccin cuando se
usan los valores de una variable para predecir la otra; el valor de lambda igual a 1
indica una prediccin condicionada que reduce el error original en un 100%.
Al cruzarse dos variables, el estadstico lambda puede calcularse de dos
maneras distintas, alternando la definicin de cul de las dos variables se
considera independiente. Es decir, que se obtiene un valor de lambda distinto
segn se considere la prediccin de una u otra variable. En el ejemplo numrico
al que estamos haciendo referencia hemos planteado la prediccin de las
frecuencias de la variable urbano condicionadas a la variable mayores de ms de
60 aos. De una forma alternativa podramos haber planteado la prediccin de
mayores de 60 aos condicionada a los valores de la variable urbano. Como
veremos a continuacin, el valor de lambda que se obtiene es distinto.
La prediccin no condicionada nos llevara a un error (error no
condicionado) igual a 9022. Al darse una mayor frecuencia de familias con
ningn miembro de ms de 60 aos (12044 familias) frente a las que tienen uno o
ms de uno (9022 familias) el criterio de prediccin que hemos definido nos
conducira a asignar a una familia al grupo mayoritario, lo que supondra (en caso
de aplicarse en la propia muestra) realizar una asignacin incorrecta en 9022
familias. El error que cometemos al predecir de manera condicionada es la suma
de dos cantidades: si supisemos que el hogar est en una zona rural
predeciramos para cualquier familia que no hay ningn individuo de ms de 60
aos, cometiendo un error en la muestra de 4817 familias; si consideramos que el
hogar est en una zona urbana, la prediccin (al ser tambin la frecuencia
mayoritaria) es la misma y el error igual a 4205 familias. El estadstico lambda
ser por tanto:

9022 ( 4817 + 4205 )


=0
9022

En consecuencia, tener informacin sobre la variable mayores de 60 aos


no mejora en nada la prediccin de la variable urbano.
El estadstico lambda ofrece resultados distintos segn cul de las dos
variables de la tabla de contingencia se utilice como variable dependiente.
Una sntesis de los dos estadsticos lambda es el denominado lambda
simtrico definido como una combinacin de los dos anteriores. En nuestro
ejemplo tomara el siguiente valor:

( 10135 9523 ) + ( 9022 9022 )


= 0,03195
10135 + 9022

El estadstico lambda simtrico se define como la combinacin de los


lambdas simples y resume la reduccin del error de prediccin cuando no existe
ninguna razn para considerar a una de las dos variables como dependiente.
Ejemplo 4. Nivel de estudios y categora socioeconmica. El nivel de
estudios alcanzado por un individuo puede entenderse como una
inversin en capital humano que debe tener su recompensa en su nivel
de ingresos o en la categora social en la que se inserta. Como una
manera de valorar esta hiptesis se han cruzado dos variables de la
EPF-90, la primera recoge el nivel de estudios del sustentador principal
(SP), la segunda recoge su categora socioeconmica.
Las categoras de las variables se recogen a continuacin:
Nivel de estudios del SP:
1.
2.
3.
4.
5.

Analfabeto o sin estudios.


Primarios, EGB o FP-1.
BUP, COU, FP-2.
Diplomado universitario o equivalente.
Estudios superiores o equivalentes.
Categora socioeconmica:

1. Empresarios y directivos agrarios.


2. Resto de trabajadores y miembros de cooperativas agrarias.
3. Empresarios, profesionales y trabajadores independientes no
agrarios.
4. Directores profesionales y jefes administrativos por cuenta
ajena.

5. Resto del personal de servicios y profesionales de las Fuerzas


Armadas.
6. Contramaestres, operarios cualificados y miembros de
cooperativas no agrarias.
7. Operarios sin especializacin, no agrarios.
8. No clasificables.
Los resultados del cruzamiento de estas dos variables se
muestran en el cuadro 21 (frecuencias absolutas, porcentajes fila,
columna y totales). El clculo de algunos de los estadsticos de
asociacin de esta tabla son los siguientes: chi-cuadrado igual a
11231,389; coeficiente C de contingencia igual a 0,58970; lambda
simtrica igual a 0,07016; lambda con categora socioeconmica como
variable dependiente 0,04047; lambda con nivel de educacin como
dependiente 0,09137. Qu conclusiones pueden obtenerse de estas
cifras?

El clculo de los estadsticos muestra que efectivamente existe


una asociacin importante entre las dos variables, mostrando el
coeficiente C de contingencia un valor alejado del cero y relativamente
prximo al valor terico mximo del estadstico (igual a uno). Este grado
de asociacin, sin embargo, no se ve reflejado en el estadstico lambda.
En concreto, dado que la relacin de dependencia que nosotros hemos
planteado a priori implica una dependencia de la categora
socioeconmica del nivel de estudios del individuo, debemos leer la cifra
correspondiente a lambda con la categora socioeconmica como
variable dependiente, que es igual a 0,04047. El error de prediccin se
reduce, por tanto, slo en un 4,05% cuando se emplea el nivel de
estudios como variable dependiente.

Cuadro 21
Categora socioeconmica del sustentador principal (SP):
Nivel de
estudios
del SP:
1
2

1
259
4,8
33,2
1,2
489

383 247
7,0
4,5
50,6 11,7
1,8
1,2
345 1434

4
3
0,1
0,2
0,0
228

256 645 113


4,7 11,8 2,1
8,2 14,8 30,9
1,2
3,1
0,5
1828 3252 235

44 3500
0,8 64,2
26,3 44,8
0,2 16,6
98 3693

Totales

5450
25,9
11602

Totales

4,2
62,7
2,3
22
1,1
2,8
0,1
6
0,6
0,8
0,0
4
0,4
0,5
0,0
780
3,7

3,0 12,4
45,6 67,9
1,6
6,8
22
253
1,1 12,3
2,9 12,0
0,1
1,2
6
78
0,6
7,4
0,8
3,7
0,0
0,4
1
99
0,1 10,9
0,1
4,7
0,0
0,5
757 2111
3,6 10,0

2,0
14,4
1,1
276
13,5
17,4
1,3
506
48,1
31,9
2,4
573
62,9
36,1
2,7
1586
7,5

15,8
58,5
8,7
751
36,6
24,0
3,6
191
18,2
6,1
0,9
99
10,9
3,2
0,5
3125
14,8

28,0 2,0
74,6 64,2
15,4 1,1
402
13
19,6 0,6
9,2
3,6
1,9
0,1
51
3
4,9
0,3
1,2
0,8
0,2
0,0
12
2
1,3
0,2
0,3
0,5
0,1
0,0
4362 366
20,7 1,7

0,8 31,8
58,7 47,3
0,5 17,5
16
297
0,8 14,5
9,6
3,8
0,1
1,4
7
203
0,7 19,3
4,2
2,6
0,0
1,0
2
119
0,2 13,1
1,2
1,5
0,0
0,6
167 7812
0,8 37,1

55,1

2052
9,7

1051
5,0

911
4,3
21066

Estos resultados son llamativos puesto que mientras que, por un


lado, se detecta una asociacin de dependencia mediante el estadstico
chi-cuadrado, por otro, el estadstico lambda sugiere la ausencia de
mejora en la prediccin cuando se utiliza una de las variables como
dependiente. Si se invierte la relacin de dependencia tampoco mejorara
el resultado, al calcularse lambda igual a 9,14%. La razn de esta
aparente contradiccin es que ambos estadsticos miden el grado de
asociacin con un objetivo diferente. Los valores observados y los
valores esperados bajo la hiptesis de independencia pueden ser muy
distintos, detectndose por ello un grado de asociacin alto mediante el
estadstico chi-cuadrado, pero ello no tiene por qu suponer que el
conocimiento de una de las variables mejore la prediccin de los valores
de la otra, al menos bajo el criterio utilizado en el estadstico lambda.
Para ilustrar esta circunstancia, Norusis (1991, pg. 320) presenta el
ejemplo que reproducimos en el cuadro 22.
Cuadro 22
variable independiente:
1
2
3
Totales

variable dependiente:
1
2
3
19
20
1
10
20
10
1
20
19
30
60
30

Totales
40
40
40
120

El valor del estadstico chi-cuadrado en esta tabla es igual a 32,4,


con una C de contingencia igual a 0,46, lo que sugiere algn grado de
asociacin. Para calcular el estadstico lambda con respecto a la variable
dependiente observemos que la prediccin no condicionada llevara a un
error global igual a 30+30=60, al ser la categora ms frecuente la 2.
Para realizar la prediccin condicionada debemos considerar para cada
uno de sus atributos cul es la categora ms frecuente. En los tres
casos coincide que se trata de la 2. El error total que se cometera sera,
por tanto, la suma de las frecuencias en las categoras menos frecuentes
(19+1)+(10+10)+(1+19)=60. El estadstico lambda, por tanto, proporciona
un valor igual a cero. Con ello se seala que el conocimiento de la
variable independiente, bajo el criterio establecido de prediccin, no
disminuira el error.
Puede existir una asociacin entre dos variables (medido por el
estadstico chi-cuadrado), sin que el conocimiento de la variable independiente
disminuya el error en la prediccin (medido por el estadstico lambda).

Gamma, Tau-b y Tau-c

Se trata de estadsticos de asociacin para variables cualitativas de tipo


ordinal. Cuando se trabaja con variables ordinales las categoras de las variables
pueden ordenarse, en algn sentido, de menos a ms. Las medidas a las que se
hace referencia aqu permiten detectar adems si la asociacin existente es
positiva o negativa.
Los estadsticos gamma, tau-b y tau-c se utilizan como medidas de
asociacin de variables cualitativas ordinales.
Pares concordantes y discordantes. Para definir los nuevos estadsticos se
deben emplear los conceptos de par concordante y par discordante. Utilizaremos
para ello un ejemplo con dos variables cualitativas de tipo nominal, que
recogeran la edad y los ingresos de una muestra de individuos. Tanto la edad
como los ingresos se pueden medir en escala continua o en escala ordinal,
considerndose en este caso como variables cualitativas. Supongamos que la
edad est definida en 9 intervalos (1, desde 20 a 25 aos; 2, de 25 a 30; 3, de 30 a
35; ; 8, de 55 a 60; 9, ms de 60), los ingresos en 10 intervalos (1, menos de un
milln; 2, de uno a dos millones; ; 10, ms de 10 millones) y que disponemos
de nueve observaciones, con los valores del cuadro 23.

En el ejemplo aparecen nueve individuos, cada uno en un intervalo de


edad distinto (desde 1 hasta 9) y distintos niveles de ingresos. La muestra se
puede ordenar en funcin de los valores de una de las dos variables, por ejemplo
la edad. El resultado sera el que se observa en el cuadro 24.
Cuadro 23
individuo edad
1
4
2
2
3
3
4
5
5
1
6
6
7
9
8
8
9
7

ingresos
4
3
2
5
2
10
9
4
1

Cuadro 24
individuo edad
5
1
2
2
3
3
1
4
4
5
6
6
9
7
8
8
7
9

ingresos
2
3
2
4
5
10
1
4
9

Dos individuos de la muestra se definen como pares concordantes si los


valores que toma uno de los individuos en las dos variables son mayores que los
que toma el otro individuo. As el individuo 5 y el 2 forman un par concordante,
al tomar el individuo nmero 2 en las variables edad e ingresos valores iguales a
2 y 3, mayores que 1 y 2, del individuo 5. El siguiente par que puede detectarse
como concordante sera el correspondiente a los individuos 5 y 1, ya que los
valores que toma este ltimo son superiores en ambas variables a los del
individuo 5.
Dos individuos definen un par discordante si los valores que toma uno
de los individuos en una de las variables son mayores que los del otro, pero esa

relacin se invierte en la segunda variable. As, el par formado por los casos 5 y 9
sera discordante, al tomar el individuo 9 un valor mayor en la variable edad,
pero un valor menor en los ingresos. Los individuos 2 y 3, por ejemplo, seran
tambin un par discordante al invertirse el orden de los valores en las dos
variables.
En el caso de que los valores de una o ambas variables coincidieran el
par no se considerara ni concordante ni discordante. El par 5, 3, por ejemplo,
sera un par igualado, ni concordante ni discordante, al tomar el mismo valor en
la variable ingresos.
Un par de observaciones se considera como un par concordante si los
valores que toma una de las observaciones en las dos variables son mayores que
los que toma la otra observacin. Un par de observaciones se considera como un
par discordante si los valores que toma una de las observaciones en una de las
variables son mayores que los de la otra observacin, pero esa relacin se invierte
en la segunda variable. En el caso de que los valores de una o ambas variables
coincidieran, el par se considerara como un par igualado.

Al comparar dos casos pueden darse, por tanto, cinco posibilidades:


concordancia, discordancia, igualdad en la primera variable, igualdad en la
segunda variable o igualdad en ambas variables.
Para todas las parejas de observaciones puede definirse el par como
concordante, discordante o igualado. Si muchas de las parejas son concordantes
la relacin entre las dos variables deber interpretarse como positiva, mientras
que la abundancia de pares discordantes indicar que la asociacin es negativa. Si
ninguno de estos dos tipos de pareja es preponderante supondremos que no existe
asociacin entre ambas variables.
Cuando se trabaja con una tabla de doble entrada es fcil controlar
el nmero de pares concordantes o discordantes. Imaginemos una tabla
como la que aparece en el cuadro 25, en la que A, B, , I simbolizan las
frecuencias absolutas en cada celda.
Cuadro 25
X
1
2
3

1
A
D
G

Y
2
B
E
H

3
C
F
I

Los individuos cuyos valores son (X=1, Y=1) mostraran valores


inferiores a aquellos individuos con valores (X=2, Y=2), (X=2, Y=3), (X=3,
Y=2), (X=3, Y=3), segn se indica en el cuadro 26. Para todos los pares de
individuos formados a partir de alguno perteneciente al conjunto con valores
(X=1, Y=1) y otro con valores en el rango (X 2, Y 2) nos
encontraremos pares concordantes.
Cuadro 26
X
1
2
3

Y
2

El nmero de pares concordantes detectados en este caso sera igual a:

A E + AF + A H + A I

Otros pares concordantes se darn para otros rangos de valores. Los


individuos con valores (X=1, Y=2) tendran valores estrictamente inferiores a
aquellos individuos con (X=2, Y=3) o (X=3, Y=3), segn se indica en el cuadro
27, formando tambin pares concordantes.
Cuadro 27
X
1
2
3

Y
2

Aqu el nmero de pares concordantes sera:

BF + BI

Para acabar contabilizando todos los pares concordantes deberamos


adems contar los pares que se reflejan en los cuadros 28 y 29.

Cuadro 28
X
1
2
3

Y
2

Cuadro 29
X
1
2
3

Y
2

De igual manera pueden calcularse fcilmente los pares discordantes y


los igualados.
Medidas basadas en pares concordantes y discordantes. Hemos sealado
cmo la deteccin de un nmero proporcionalmente elevado de pares
concordantes ser indicativa de una asociacin positiva: cuando los valores de
una variable crecen, tambin lo hacen los valores de la otra variable. Un
razonamiento similar sirve para detectar una asociacin negativa o la ausencia de
asociacin. Para obtener medidas de asociacin basadas en estos conceptos se
consideran las diferencias entre el nmero de pares concordantes (C) y el nmero
de pares discordantes (D).
Gamma. El estadstico gamma (debido a Goodman y Kruskal) se define
como:

C D
C+ D

Si todas las parejas son concordantes ( D = 0 ), el valor de gamma sera


igual a 1, coincidiendo con el grado de asociacin positivo ms alto entre las dos
variables. En el caso contrario, cuando todos los pares son discordantes ( C = 0 ),
el estadstico nos proporcionara un valor igual a -1, que coincidira por tanto con
el grado de asociacin ms alto de tipo negativo. Si el nmero de parejas
concordantes y discordantes estuviese igualado, el estadstico estara cercano a
cero.

El estadstico gamma proporciona valores entre -1 y 1. El grado ms alto


de asociacin positiva entre dos variables se da cuando = 1 . El grado ms alto
de asociacin negativa se da cuando = 1 . Finalmente, = 0 se interpreta
como la ausencia de asociacin.

Tau-b. Trata de normalizar el mismo numerador que el coeficiente gamma


pero incluyendo en el denominador el nmero de pares igualados (ni
concordantes ni discordantes) en una de las dos variables (no considera los pares
en los que se da la igualdad en ambas variables). Su expresin es:

b =

C D

(C + D + T X ) (C + D + TY )

indicando TX , TY el nmero de pares igualados en las variable X o Y. Tau-b toma


valores -1 o 1 slo en tablas cuadradas.
Tau-c. Se define como:

c=

2m(C D)
n 2 (m1)

donde n es el tamao de la muestra y m es el nmero menor de las filas y


columnas de la tabla. El estadstico puede alcanzar los valores lmites de -1 y 1
en tablas de cualquier tamao.

Ejemplo 5. Existe relacin entre la rentabilidad y el riesgo


empresarial? En una muestra de empresas se ha obtenido su
rentabilidad media y la desviacin estndar de su rentabilidad en los
ltimos diez aos (esta ltima como una medida de riesgo). Las
empresas se han clasificado en cuatro grupos, segn los rendimientos y
riesgo de la empresa sean inferiores o superiores a la mediana de toda la
muestra. En el cuadro 30 se muestran la tabla de contingencia que se
correspondera con la definicin de los cuatro grupos.
Cuadro 30
Rendimiento inferior
Rendimiento
superior
Total

Riesgo inferior
66

Riesgo superior
68

Total
134

68

65

133

134

133

267

La informacin de los cuatro grupos puede analizarse como el


resultado del cruzamiento de dos variables cualitativas, rendimiento y
riesgo, con dos categoras cada una de ellas. Aunque la informacin de
la tabla muestra claramente la ausencia de relacin entre el rendimiento

y el riesgo, calcularemos los estadsticos chi-cuadrado y gamma. Para


obtener el estadstico chi-cuadrado en el cuadro 31 se calculan las
frecuencias esperadas.
Cuadro 31
Riesgo superior

134
= 67,2509
267
133
134
= 66,749
267

134
= 66,749
267
133
133
= 66,2509
267

134

133

Rendimiento inferior 134


Rendimiento
superior
Total

Tota
l

Riesgo inferior

133

134
133
267

Los estadsticos de asociacin Chi-cuadrado y C de contingencia


se muestran a continuacin:
I

=
2

(n

ij

eij

i =1 j =1

eij

(66 67,2509) 2 (68 66,749) 2


67,2509

(68 66,749) 2 (65 66,2509) 2


66,749
C=

66,2509

66,749

= 0,09378

2
0,09378
=
= 0,01874
2
267 + 0,09378
n+

El estadstico gamma en esta tabla de orden 2x2 es muy rpido


de calcular:

C D 66656868
=
= 0,03747
C + D 6665+6868

Cuadro 32

Chi-cuadrado
0,09378

C de contingencia
0,01874

gamma
-0,03747

Los resultados del cuadro 32 confirman la impresin de la tabla de


contingencia, no detectndose en la muestra ninguna asociacin entre la
rentabilidad y el riesgo empresarial.
Ejemplo 6. Beneficios empresariales y nivel de concentracin. En el
campo de la economa industrial es objeto de discusin la relacin
existente entre los beneficios empresariales y los niveles de
concentracin sectorial. Segn algunos autores, los beneficios
empresariales seran mayores en mercados con unos pocos productores
responsables de las ventas, que podran ponerse de acuerdo al margen
de los mecanismos del mercado (hiptesis de colusin), favoreciendo
precios y beneficios ms altos.
Con una muestra de empresas se intenta detectar la existencia de una
asociacin entre los niveles de concentracin y los beneficios empresariales. Las
empresas se clasifican en tres niveles de beneficios (bajo, medio y alto) y en tres
niveles de concentracin de su mercado (bajo, medio y alto). Entre las dos
variables se efecta un cruzamiento obtenindose la tabla de contingencia que
se muestra en el cuadro 33.

Cuadro 33
Nivel de Beneficios

Nivel de
concentracin
Bajo
Medio
Alto
Total

Bajo

Medio

Alto

Total

120
64
68
252

114
74
44
232

46
88
137
271

280
226
249
755

Dado que las dos variables son de tipo ordinal puede calcularse el
estadstico gamma, para ello deben obtenerse el nmero de pares
concordantes y de pares discordantes:

C = 120 (74 + 88 + 44 + 137 ) + 114 (88 + 137 ) + 64 (44 + 137 ) + 74 137 = 88532
D = 46 (64 + 74 + 68 + 44) + 114 (64 + 68) + 88 (68 + 44) + 74 68 = 41436
Y, por tanto:

C D 88532 41436
=
= 0,3624
C + D 88532 + 41436

El valor de gamma es igual a 0.36, al tratarse de un valor positivo


se estara detectando un grado de asociacin positiva entre ambas
variables. El valor mximo se da cuando gamma es igual a 1, por lo que
puede aceptarse una asociacin positiva moderada.
El estadstico lambda, tomando como variable dependiente el
nivel de beneficios, sera:

error no condicionado - error condicionado


=
error no condicionado
[252 + 232] [(114 + 46) + (64 + 74) + (68 + 44)] = 484 410 = 0,15
=
[252 + 232]
484
beneficios =

Tambin puede calcularse el estadstico lambda invirtiendo la


relacin de dependencia, es decir, planteando como variable
dependiente el nivel de concentracin, que sera consecuencia de los
niveles de beneficio alcanzado por algunas empresas:

error no condicionado - error condicionado


=
error no condicionado
[226 + 249] [(64 + 68) + (74 + 44) + (46 + 88)] = 475 384 = 0,19
=
[226 + 249]
475
concentracin =

Los valores de lambda indican que el error de prediccin del


nivel de beneficios si se tiene informacin del nivel de concentracin del
mercado, se reducira en un 15% e invirtiendo la relacin de dependencia
el error de prediccin se reducira en un 19%. El estadstico lambda
simtrico sera igual a:

simtrico =

(484 410) + (475 384) = 0,172


484 + 475

confirmando la existencia de una relacin de dependencia moderada


entre las dos variables.
Ejemplo 7. Satisfaccin y calidad del establecimiento hotelero. En
una encuesta realizada a una muestra de turistas en un municipio
turstico se les ha solicitado cul es el nivel de satisfaccin de su
estancia. La respuesta poda establecerse en tres niveles: baja
satisfaccin, media y alta. Se desea analizar el grado en el que la

categora del hotel en el que se ha alojado ha podido influir en el nivel de


satisfaccin. Para ello se realiza el cruzamiento de las dos variables,
obtenindose las frecuencias que se muestran en el cuadro 34. Existe
asociacin entre el nivel de satisfaccin y la categora del hotel? Para
responder a esta pregunta se calculan los estadsticos de asociacin chicuadrado y gamma.
Cuadro 34
Categora Hotel

Nivel de
Satisfaccin
Bajo
Medio
Alto
Totales

**

***

****

Totales

43
12
8
63

36
25
23
84

48
57
22
127

63
67
40
170

190
161
93
444

Para calcular el estadstico chi-cuadrado deben obtenerse, en


primer lugar, los valores esperados bajo la hiptesis de que no hay
asociacin (vase el cuadro 35).

Cuadro 35
Categora Hotel

Nivel de
Satisfaccin

**

***

****

Totale
s

190
190
63 = 26,96
84 = 35,95
444
444

190
190
127 = 54,35
170 = 72,75
444
444

190

Medio

161
63 = 22,84
444

161
84 = 30,46
444

161
161
127 = 46,05
170 = 61,64
444
444

161

Alto

93
63 =13,20
444

93
84 =17,59
444

93
93
127 = 26,60
170 = 35,61
444
444

93

Totales

63

84

Bajo

127

170

444

Teniendo en cuenta estos valores, el estadstico chi-cuadrado se


calcula:

2
2
2
2
(
(
43 26,96) (36 35,95)
22 26,60) (40 35,61)
=
+
+K+
+
= 25,83

26,96

35,95

26,60

35,61

Y el estadstico C de contingencia:

C=

25,83
2
=
= 0,234
2
444 + 25,83
n+

El valor mximo de este estadstico poda llegar a ser:

1
1
= 1 = 0,816
mn(I , J )
3

por lo que C alcanza en este anlisis el 28,7% de su posible mximo,


sealando con ello que existe una relacin moderada entre el nivel de
satisfaccin y la categora del hotel de estancia.

El clculo del estadstico gamma confirma que la asociacin es


moderada y, adems, que es de tipo positivo:

C D 26744 18763
=
= 0,1754
C + D 26744 + 18763

Finalmente, puede intentar establecerse la capacidad de prediccin que


tiene la categora del hotel en el nivel de satisfaccin del turista:

error no condicionado - error condicionado


=
error no condicionado
[161 + 93] [(12 + 8) + (25 + 23) + (48 + 22) + (63 + 40)] =
=
[161 + 93]
254 241
=
= 0,0512
254

satisfaccin =

El bajo valor de lambda seala que la categora hotelera no ayuda


a la prediccin del nivel de satisfaccin, puesto que el error de prediccin
empleando esta informacin slo se reducira en un 5%.

Ejemplo 8. Toma de decisiones familiares en la adquisicin de bienes de


consumo. En un estudio se intenta determinar quin o quines son los
responsables de las decisiones de consumo dentro de las familias. Se
realiza, para ello, una encuesta a 557 matrimonios, preguntndoles a
cada miembro de la pareja quin toma las decisiones sobre los productos
que se compran. Las posibles respuestas a esta pregunta eran que las
decisiones las toma el hombre, la mujer o ambos. En el cuadro 36 se
cruzan el sexo del encuestado con la respuesta de quin influye ms en
la compra de los automviles.
Cuadro 36
Las decisiones las toma:

Miembro de la
pareja:
Hombre
Mujer
Total

Hombre

Ambos

Mujer

Total

179
356
535

356
178
534

22
23
45

557
557
1114

Para el conjunto de encuestados, el 48% consideraba que las


decisiones las tomaban los hombres, el 48% que la decisin era conjunta
y slo un 4% afirmaba que la decisin la tomaba la mujer. Sin embargo,
si se consideran separadamente las respuestas dadas por los hombres y
las mujeres, estos porcentajes difieren radicalmente. Existe relacin
entre la respuesta dada a la pregunta y el sexo del individuo que la
contesta?
El estadstico chi-cuadrado se basa en los valores esperados que
se muestran en el cuadro 37.
Cuadro 37
Las decisiones las toma:

Miembro de la
pareja:

Hombre

Ambos

Mujer

Total

Hombre

557
535 = 267,5
1114

557
534 = 267
1114

557
45 = 22,5
1114

557

Mujer

557
535 = 267,5
1114

557
534 = 267
1114

557
45 = 22,5
1114

557

Total

535

534

45

1114

El valor del estadstico chi-cuadrado ser:

2 =

(179 267,5)2 + (356 267)2 + K + (178 267)2 + (23 22,5)2 = 117,91


267,5

267

267

22,5

Y el estadstico C de contingencia:

2
117,91
C=
=
= 0,31
2
1114 + 117,91
n+
El mximo de C podra ser:

1
1
= 1 = 0,707
mn(I , J )
2

por lo que alcanza el 44% de su posible valor mximo, mostrando que la


opinin sobre quin influye ms en la compra de un automvil es muy
dependiente de cul es el sexo de la persona que responde.
El clculo del estadstico lambda ser:

error no condicionado - error condicionado


=
error no condicionado
[534 + 45] [(179 + 22) + (178 + 23) ] = 579 402 = 0,30
=
[534 + 45]
579
decisin =

El valor de lambda seala que el sexo del miembro de la pareja


ayuda a la prediccin de la respuesta a quin toma la decisin, con una
reduccin en el error de prediccin del 30%.
Ejemplo 9. Especializacin de los tour operadores. Para valorar el
grado de especializacin de tres tour operadores de una zona turstica,
se han recogido las ofertas que realizan en sus catlogos en funcin de
las distintas categoras hoteleras (una a cuatro estrellas). En el cuadro 38

se muestra la tabla de contingencia que cruza la informacin de estas


dos variables cualitativas y entre parntesis los valores esperados bajo la
hiptesis de inexistencia de asociacin.
Cuadro 38
Categora Hotel
Tour
Operador
A
B
C
Total

**

***

****

Total

21
37
137
49
244
(17,84) (28,96) (126,29) (70,91)
32
52
179
113
376
(27,49) (44,63) (194,61) (109,26)
24
36
229
144
433
(31,66) (51,40) (224,11) (125,83)
77
125
545
306 1053

Los resultados de aplicar el estadstico chi-cuadrado:

2
2
2
2
(
(
21 17,84) (37 28,96)
229 224,11) (144 125,83)
=
+
+K+
+
= 22,997

17,84

28,96

224,11

125,83

Lo que lleva a un estadstico C de contingencia:

C=

2
22,997
=
= 0,146
2
1053 + 22,997
n+

El mximo de C podra ser:

1
1
= 1 = 0,816
mn(I , J )
3

alcanzando, por tanto, el 18% de su valor mximo. En consecuencia, no


parece, existir asociacin entre los tour operadores y la categora de la
oferta que realizan.

CAPTULO V. EL COEFICIENTE DE CORRELACIN

Cuando se dispone de dos variables cuantitativas y continuas basadas en


escala de intervalo o de cociente (en adelante variables cuantitativas) las
medidas de asociacin estudiadas hasta ahora suelen ser inaplicables,
esencialmente porque el nmero de valores que toman este tipo de variable hace
que carezca de sentido el cmputo de frecuencias de todas las combinaciones
posibles. Aunque siempre es posible convertir estas variables cuantitativas en
variables cualitativas ordinales (construyendo intervalos), resulta adecuado
utilizar otro tipo de coeficientes de asociacin. El estadstico ms comnmente
empleado es el coeficiente de correlacin lineal simple (o abreviadamente, el
coeficiente de correlacin). Se trata de una medida sinttica del grado de
asociacin lineal entre dos variables cuantitativas.
El coeficiente de correlacin lineal simple mide el grado de asociacin
lineal entre dos variables. Se aplica sobre variables cuya escala es de intervalo o
cociente.
Existe una segunda idea que destaca en el propio nombre del estadstico,
se trata de la palabra simple. Circunscrito al concepto de linealidad el calificativo
de simple se opone a la idea de asociacin mltiple entre variables. Mediante este
coeficiente se analiza la relacin entre dos variables X e Y, sin considerar la
existencia de otras variables que puedan estar relacionadas con ellas, ni la posible
incidencia de las mismas en esa relacin. Por ejemplo, supongamos que tanto la
variable X como la variable Y varan cuando lo hace una tercera variable Z. El
coeficiente de correlacin entre la variable X e Y revelara una asociacin entre
estas dos variables, pero nada dir el coeficiente de la existencia de la tercera
variable, ni de su capacidad de explicar las variaciones de X e Y.
El coeficiente de correlacin lineal simple refleja de manera directa la
asociacin entre dos variables y no tiene en cuenta que esa relacin pueda
enmarcarse en un entorno de relaciones ms complejo.

Asociacin lineal entre dos variables


Cuando se habla de una relacin lineal entre dos variables se est
haciendo referencia a una relacin que puede representarse aproximadamente
como una lnea recta. Denotando a las dos variables como X e Y, la existencia de
una relacin lineal exacta entre las dos variables podra ser la siguiente:

Yi = a + b X i

i =1, ..., n

donde a y b son constantes que pueden tomar cualquier valor, excluyendo para b
el valor de 0.
No debe confundirse la existencia de una relacin lineal con la
existencia de una relacin causal. La relacin lineal entre dos variables es
compatible tanto con una relacin causal en la que se enuncie que X es
causa de Y, como con la relacin contraria, en la que Y es causa de X o
incluso con la inexistencia de una relacin causa-efecto. El coeficiente de
correlacin slo detecta la existencia (y grado) de la asociacin entre dos
variables, sin implicar la presencia de algn tipo de relacin causal.
Podemos, por tanto, detectar una relacin lineal entre dos variables sin que
exista una relacin causal entre ellas: X no es causa de Y y tampoco Y es
causa de X. Simplemente existira una relacin lineal entre ellas, no estando
definida la direccin causal.

La deteccin de una asociacin lineal entre dos variables no implica que


entre ellas exista una relacin causal.

Asociacin lineal positiva o negativa


Entre dos variables pueden detectarse dos tipos de asociacin lineal:
positiva y negativa. Visualmente estas dos situaciones quedan reflejadas en las
grficas 1 y 2.
Grfica 1
3

-1

-2

Y -3
-3

-2

-1

Grfica 2
3

-1

-2

Y -3
-3

-2

-1

Las dos grficas anteriores muestran relaciones lineales exactas entre dos
variables, X e Y. Cuando se da una relacin positiva la pendiente de la recta es
positiva, mientras que una relacin negativa entre las dos variables se refleja en
una pendiente de la recta negativa. El signo del valor del parmetro b de la recta
reflejara, por tanto, el sentido de la asociacin (positiva o negativa) entre las dos
variables.
Tambin pueden existir relaciones exactas entre dos variables que sean
de tipo no lineal, como por ejemplo las representadas en las grficas 3 y 4. En
estas grficas se muestran relaciones exactas de tipo cuadrtico y cbico,
respectivamente. La asociacin entre las dos variables es exacta en ambas
grficas. El coeficiente de correlacin no tiene por qu detectar este tipo de
relacin, puesto que est diseado con la intencin de medir asociaciones
lineales.
Grfica 3
10

-10

-20

Y -30
-3

-2

-1

Grfica 4
40
20
0
-20
-40
-60
-80

Y -100
-3

-2

-1

Aunque los ejemplos anteriores se refieren a relaciones exactas entre


variables, el coeficiente de correlacin no slo sirve para detectar si la asociacin
es positiva o negativa, sino que tambin mide el grado, la importancia, de la
misma. Las relaciones exactas sealan los grados mximos de correlacin, pero
existen otros niveles menores de asociacin. Por ejemplo, si se calcula el
coeficiente de correlacin para las variables de la grfica 5, ste nos informar de
la existencia de una asociacin positiva, permitindonos valorar hasta qu punto
esa asociacin est cercana a la definida por una relacin exacta.
Grfica 5
6000
5000

4000
3000
2000
1000
0

-1000
-2000
-1000

1000

2000

3000

4000

5000

6000

Estadstico de covarianza
El coeficiente de correlacin se puede definir a partir de otro estadstico,
el coeficiente de covarianza. En general, se habla de la covarianza entre dos
variables, X e Y, y se define formalmente como:
n

s XY =

( X
i =1

x )(Yi y )
n

(o dividiendo por n-1).


El sentido del estadstico resultar ms claro si utilizamos la
representacin grfica de una base de datos concreta. Para ello hemos simulado
cien observaciones de dos variables X e Y, representndolas en el grfico 6. La
asociacin entre las dos variables, aunque no es exacta, es de tipo positivo:
cuando los valores de una de las dos variables aumentan, tambin lo hacen los de
la otra variable. Las medias de las variables X e Y son iguales a 10,09 y 13,14,
respectivamente. En la grfica 7 se han marcado dos lneas de referencia que
corresponden a estos valores medios. Qu ocurre si en lugar de expresar los
valores de las variables en sus cifras originales ( X i , en niveles), las expresamos
en diferencias respecto a la media ( X i x )? Las lneas de referencia que
aparecan dibujadas en la grfica 7 sern ahora los nuevos ejes de coordenadas.
El punto medio (10,09; 13,14) ser ahora el punto (0;0) y un punto cualquiera
( X i ; Yi ) ser ahora el punto ( X i x ; Yi y ).
Grfico 6.
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3

2
1
0
0

10

11

12

13

Grfico 7.
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3

2
1
0
0

10

11

12

13

El empleo de las variables en desviaciones respecto a la media equivale a


una traslacin de los ejes de coordenadas, que pasan de estar centrados en el
punto (0;0) a estarlo en el punto ( x ; y ). Al expresar los valores de las variables
en desviaciones, el centro de coordenadas se sita ahora en el centro de la nube
de puntos.
En la grfica 8 se muestra la apariencia de la nueva representacin (con
las variables en desviaciones). El nuevo punto (0;0) en las antiguas coordenadas
es el punto ( x ; y ).
Volvamos ahora al estadstico de covarianza. El signo y valor de este
estadstico depende, esencialmente, de la suma de los productos

(X

x )(Yi y ) , para todas las observaciones (i=1,,n). Centrmonos en el

signo. En el producto, el signo final depende la posicin de la observacin en los


cuadrantes de los ejes de coordenadas.
Las observaciones que se sitan en los cuadrantes I y III (vase la grfica
9) proporcionarn productos positivos (+ por + en el primer cuadrante y por
en el tercero). En el primer cuadrante, esto coincide con las observaciones que
tienen un valor superior a la media en ambas variables, mientras que en el tercero
se encuentran las observaciones con valores inferiores a la media, en las dos
variables. Las observaciones que se sitan en los cuadrantes II y IV tendrn un

producto negativo ( por + en el segundo cuadrante y + por en el cuarto). En el


segundo cuadrante, esto coincide con las observaciones que tienen un valor
inferior a la media en la variable X y superior a la media en la variable Y. En el
cuarto cuadrante, la relacin se invierte.

Grfico 8.
4

Y en desviaciones

-1

-2

-3
-4
-3

-2

-1

X en desviaciones

Grfico 9.
4
3

II

III

IV

2
1
0
-1
-2
-3
-4
-3

-2

-1

El signo (y valor) de la covarianza depende del nmero de observaciones


que aparezcan en cada uno de los cuadrantes. Un nmero de observaciones
relativamente elevado en los cuadrantes I y III proporcionar, en la suma global,
una covarianza positiva; mientras que una mayora de las observaciones en los
cuadrantes II y IV conducir a una covarianza negativa.
En la grfica 10 se muestra la imagen de dos variables asociadas
negativamente, es decir, cuya covarianza sera negativa como consecuencia de la
acumulacin de puntos en los cuadrantes II y IV.
Debe entenderse que en el signo de la covarianza se refleja la relacin
existente entre las dos variables. Si la covarianza es positiva, sabemos que
cuando un individuo tiene un valor por encima de la media en una de las dos
variables ser fcil que tambin se encuentre por encima de la media en la otra
variable. En el caso de una covarianza negativa, este estadstico de asociacin
nos indica que el ubicarse por encima del valor medio en un variable implicar,
en general, estar por debajo en la otra (o viceversa).
Grfica 10
4

Y en desviaciones

-1

-2

-3
-4
-3

-2

-1

X en desviaciones

Junto a la existencia de asociacin positiva o negativa, cabe la


posibilidad de que no exista una asociacin clara entre las dos variables. Esta
sera la situacin que se describe visualmente en la grfica 11, en la que el
conjunto de observaciones se dispersa de manera ms o menos homognea sobre
los cuatro cuadrantes.

Grfica 11
1,5

1,0

,5

0,0

-,5

-1,0
-4

-3

-2

-1

Entre dos variables X e Y pueden establecerse cualquiera de las


siguientes asociaciones:
Covarianza positiva s XY > 0 Asociacin lineal positiva.
Covarianza negativa s XY < 0 Asociacin lineal negativa.
Covarianza nula s XY = 0 Asociacin lineal inexistente.

Resaltemos de nuevo la idea de linealidad. Cuando se utiliza el


estadstico de covarianza se mide el grado de asociacin lineal entre dos
variables. Si existe una relacin no lineal entre dos variables, sta no tiene
por qu detectarse mediante el estadstico de covarianza.
El valor del coeficiente de covarianza depende, entre otras cosas, de las
unidades de medida de las variables. En el cuadro 1 se muestra el clculo del
coeficiente de covarianza de dos variables, de las que se dispone de diez
observaciones. Su representacin se ofrece en la grfica 12. La covarianza es
igual a 11,67; la asociacin entre las dos variables es, por lo tanto, positiva. El
valor absoluto, sin embargo, no nos aade en este caso ms informacin. Es el

grado de asociacin alto o bajo? O dicho de otra manera, la asociacin se acerca


mucho o poco a lo que sera una asociacin positiva de tipo exacto? El problema
de la covarianza como medida de asociacin es que depende de las unidades de
medida de las variables, no pudindose comparar rpidamente con una cifra
estndar que permita hablar de mucha o poca asociacin.

Cuadro 1

(X

x )(Yi y )

Xi

Yi

Xi x

Yi y

1
2
3
4
5
6
7
8
9
10

12
10
11
13
15
14
12
11
19
20

14,55
12,85
13,3
13,53
18,18
18,94
16,11
13,82
23,53
23,02

-1,7
-3,7
-2,7
-0,7
1,3
0,3
-1,7
-2,7
5,3
6,3

-2,233
-3,933
-3,483
-3,253
1,397
2,157
-0,673
-2,963
6,747
6,237

s XY

13,7

16,783

11,67

3,7961
14,5521
9,4041
2,2771
1,8161
0,6471
1,1441
8,0001
35,7591
39,2931

Grfica 12
24
22
20
18
16
14
12
10
8
6
4

2
0
0

10

12

14

16

18

20

22

Si multiplicamos las variables del cuadro 1 por una constante (dos, por
ejemplo) y calculamos la nueva covarianza, tal como aparece en el cuadro 2, la
cifra de la nueva covarianza se ha multiplicado por cuatro, siendo ahora igual a
46,68. Implica esta cifra un mayor grado de asociacin? La respuesta es
negativa. Observe la representacin de las dos nuevas variables que se ofrece en
la grfica 13. La forma de la nube de puntos es la misma que en la grfica 12, no
presentando una asociacin ms fuerte entre las nuevas variables.
Cuadro 2

X i*

Yi *

1
2
3
4
5
6
7
8
9
10

24
20
22
26
30
28
24
22
38
40

29,1
25,7
26,6
27,06
36,36
37,88
32,22
27,64
47,06
46,04

x*

y*

X i* x * Yi * y *
-3,4
-7,4
-5,4
-1,4
2,6
0,6
-3,4
-5,4
10,6
12,6

(X

-4,466
-7,866
-6,966
-6,506
2,794
4,314
-1,346
-5,926
13,494
12,474

*
i

x * )(Yi * y * )
15,1844
58,2084
37,6164
9,1084
7,2644
2,5884
4,5764
32,0004
143,0364
157,1724

s X *Y *

27,4 33,566

46,68

Grfica 13
50

40

30

20

Y*

10

0
0

X*

10

20

30

40

50

La covarianza, como medida de asociacin lineal tiene el inconveniente


de estar afectada por las unidades de medida de las variables.
Un mayor valor absoluto de la covarianza no puede, en consecuencia,
interpretarse de manera automtica como sinnimo de mayor asociacin. Deber
tenerse en cuenta el valor medio de las variables y las unidades en las que son
medidas.

Propiedades de la covarianza
(1) La covarianza puede calcularse a partir de la siguiente equivalencia
de su numerador:

( X

x )(Yi y ) = X i Yi n x y .

i =1

i =1

(2) Si se suma a la variable X una constante b y a la variable Y una


constante c, la covarianza entre las dos nuevas variables
transformadas ser igual a la covarianza original:

( (X
n

s X +b , Y + c =

i =1

+ b) ( x + b )

) ( (Y + c) ( y + c) ) ( X
n

i =1

x )( Yi y )
n

= s XY

(3) Si se multiplica la variable X por una constante b y la variable Y por


una constante c, la covarianza entre las dos nuevas variables
transformadas ser igual a la covarianza original multiplicada por las
constantes bc:

( bX
n

sbX , cY =

i =1

bx )( cYi cy ) bc ( X i x )( Yi y )
= i =1
= b c s XY
n
n
n

(4) La covarianza entre una variable y una constante es cero:


n

sX a =

( X
i =1

x )( a a )
n

=0

Coeficiente de correlacin lineal


El coeficiente de correlacin lineal, tambin llamado coeficiente de
correlacin de Pearson, lo notaremos como rXY y se define como:

( X
n

rXY

s
= XY =
s X sY

i =1

(X
n

i =1

x )( Yi y )

x)

(Y y )
n

i =1

El coeficiente de correlacin lineal entre dos variables es, por tanto, igual
a su covarianza dividida por el producto de desviaciones estndar de las dos
variables.
El signo del coeficiente de correlacin ser igual al signo de la
covarianza. Si entre dos variables existe una asociacin lineal positiva el
coeficiente de correlacin ser positivo. En el caso de una asociacin negativa, el
coeficiente de correlacin ser negativo. En el caso de ausencia de asociacin, el
coeficiente de correlacin ser cero:
Asociacin lineal positiva entre las dos variables s XY > 0 rXY > 0 .
Asociacin lineal negativa entre las dos variables s XY < 0 rXY < 0 .
Ausencia de asociacin lineal entre las dos variables s XY = 0 rXY = 0 .
Al estandarizar la covarianza mediante las desviaciones estndar se
suprime el problema de las unidades de medida. En el caso de multiplicar las
variables por cualquier constante, el numerador de rXY se multiplicar por esas
constantes, pero tambin en el denominador se producirn transformaciones:

( bX
n

rbX , cY =

i =1

( bX
n

i =1

bx )( cYi cy )

bx )

( cY cy )
n

i =1

=
2

b( X

x ) c ( Yi y )

i =1

b ( X

x )

i =1

c (Y y )
n

=
2

i =1

bc ( X i x )( Yi y )
n

i =1

( X
n

i =1

x )

( Y y )
n

=
2

bc s XY
=r
b s X c sY XY

i =1

El valor numrico del coeficiente de correlacin entre dos variables no se


modifica si una (o ambas) variables se multiplica por una constante.
Una de las consecuencias ms importantes de esta estandarizacin de la
covarianza es que el coeficiente de correlacin toma valores en el intervalo 1 y
1. Los lmites superior o inferior se alcanzan cuando entre las dos variables se da
una relacin exacta del tipo:

Yi = a + b X i

i =1, ..., n .

Se puede comprobar fcilmente que si entre dos variables se da una


relacin lineal exacta, su coeficiente de correlacin ser igual a uno (en valor
absoluto), sustituyendo esa relacin en la propia definicin del coeficiente.
Supongamos, en primer lugar que el parmetro b de la relacin lineal es positivo:
n

rXY

( X

s
= XY =
s X sY

i =1

( X
i =1

( X
n

i =1

(X
n

i =1

x )( Yi y )

x)

(Y y )

i =1

x ) a + b X i (a + b x )

x)

=
2

(a + b X (a + b x ))
n

i =1

=
2

( X

x )b ( X i x )

i =1

(X

x)

i =1

b ( X
n

i =1

b ( Xi x )

x)

=
2

i =1

( X

i =1

x)

( X

i =1

x)

=1
2

En el caso de que el parmetro b sea negativo, podemos definir la


relacin lineal como: Yi = a b X i , con lo cual se tendra:
n

( X

s
= XY =
s X sY

rXY

i =1

( X
i =1

( X
n

i =1

(X

i =1

(X
i =1

(Y y )

x )( b)( X i x )

x)

( b) ( X
n

i =1

x)

( X
i =1

x)

( X
i =1

=
2

i =1

=
2

( b) ( X i x )

(a b X (a b x ))
i =1

=
2

i =1

( X
n

x)

x )( Yi y )

x ) a b X i (a b x )

x)

i =1

x)

=1
2

Cuando el coeficiente toma un valor igual a +1 o 1 se habla de


correlacin exacta entre las dos variables. En el primer caso de correlacin
positiva exacta, en el segundo de correlacin exacta negativa. Entre los dos
lmites, -1 y 1, el coeficiente puede tomar cualquier valor. Valores cercanos a los

lmites indicarn la existencia de asociaciones fuertes o altas entre las variables.


El valor que toma el coeficiente de correlacin cuando no existe una relacin
lineal entre las variables ser el mismo que el que toma la covarianza en igual
situacin: cero. Valores del coeficiente de correlacin cercanos a cero, por tanto,
sealan la ausencia de asociacin lineal entre las variables.

rXY = + 1
rXY = 1
rXY = 0

1 rXY + 1
Asociacin lineal exacta de tipo positivo.
Asociacin lineal exacta de tipo negativo.
Ausencia de asociacin lineal.

Propiedades del coeficiente de correlacin

(1) El valor numrico del coeficiente de correlacin entre dos variables


no se modifica si una (o ambas) variables se multiplica por una
constante.
(2) El coeficiente de correlacin toma valores en el intervalo 1 y 1. Los
valores mximo y mnimo se alcanzan cuando se da una relacin
lineal exacta entre las dos variables, de tipo positivo o de tipo
negativo, respectivamente.
(3) Valores del coeficiente prximos a 1 indican la existencia de una
asociacin positiva fuerte entre las variables; valores cercanos a 1
indican la existencia de una asociacin negativa fuerte entre las
variables; valores cercanos a cero sealan la ausencia de una
asociacin lineal.
(4) El coeficiente de correlacin puede calcularse como:
n

rXY =

X
i =1

X
i =1

2
i

Yi n x y

n x2

Y
i =1

n y2

Matriz de correlaciones
Es frecuente analizar la relacin existente entre un conjunto de variables,
de manera que estemos interesados en las correlaciones entre todos los pares

posibles. Una forma de presentar estos resultados es una matriz de correlaciones,


R, definida como una matriz simtrica, con la siguiente presentacin:

1 r12

R=

r13 K r1k
r23 K r2 k

1 K r3k

O M
1

donde rij indica la correlacin entre la i-sima y la j-sima variables.


Algunos errores en la interpretacin del coeficiente de correlacin

Aunque el resultado del clculo de un coeficiente de correlacin resulta


fcil de interpretar, debe tenerse cuidado de no emplearlo de manera errnea. En
este apartado se hace hincapi en algunas incorrecciones que pueden cometerse
en un uso poco riguroso del coeficiente.

La deteccin de asociaciones lineales entre dos variables NO SUPONE la


existencia de una relacin causal.

Una correlacin alta (positiva o negativa) entre dos variables no es


indicativa de una relacin causal entre ellas. Son muchos los pares de variables
para los cuales pueden calcularse coeficientes de correlacin altos, mostrando
con ello la existencia de algn grado de asociacin y que, sin embargo, sera
disparatado intentar vincular por medio de algn tipo de relacin causa-efecto.
Incluso aunque la relacin causal pueda existir, este estadstico descriptivo no
pretende detectar ni su existencia ni la direccin de la causalidad.

El coeficiente de correlacin lineal TAMBIN PUEDE detectar la existencia


de relaciones no lineales entre dos variables.

Es cierto que los valores (absolutos) mximos del coeficiente de


correlacin se alcanzan cuando se da una relacin lineal exacta, sin embargo, es
posible encontrar coeficientes de correlacin entre dos variables distintos de cero
(incluso prximos a la unidad) que reflejen la existencia de una relacin no
lineal. En la grfica 14 reproducimos una relacin no lineal exacta entre dos
variables. Resulta evidente que si se calcula la correlacin lineal, el coeficiente
tendr un valor cercano a la unidad (de hecho, el coeficiente de correlacin entre
esas dos variables es igual a 0,9139). La explicacin se encuentra en la propia
definicin del coeficiente de correlacin, por lo que debe tenerse en cuenta que
aunque una asociacin lineal implica un coeficiente de correlacin alto (en valor

absoluto), lo contrario no es cierto: un coeficiente de correlacin alto no siempre


se corresponde con una relacin lineal entre las variables.
Grfica 14
30000

20000

10000

-10000
0

10

20

30

El coeficiente de correlacin entre dos variables SE VE AFECTADO por la


existencia de otras variables.

Cuando se mide el grado de asociacin entre un par de variables se debe


tener en cuenta que el movimiento conjunto que puede detectarse en ellas
puede ser consecuencia de una tercera variable (o terceras variables). Esta
situacin se denomina de correlacin espuria, caracterizada por la existencia de
una tercera variable (o terceras), que influira simultneamente en los valores de
las variables analizadas. En situaciones de correlacin espuria debe tenerse en
cuenta que la asociacin se mide correctamente, pero que tendr mayor
capacidad explicativa cualquier discusin que incida en las verdaderas relaciones
de dependencias entre las variables.

NO SIEMPRE tiene sentido calcular el coeficiente de correlacin entre una


variable X y otras variables compuestas del tipo X + Y o X Y .

Por ejemplo, si se calcula el coeficiente de correlacin entre una variable


X y otra variable W, definida como W = X +Y , puede ocurrir que aun cuando las
variables X e Y no estn correlacionadas, obtengamos valores altos de la

correlacin entre X y X+Y. El resultado depende de las varianzas de las variables


X, Y: cuanto mayor sea la varianza de X en relacin a la de Y, mayor ser el
coeficiente de correlacin entre X y X+Y.
Un fenmeno parecido de correlacin espuria se produce cuando se
calcula el coeficiente entre la variable X y un cociente como X/Y. Un caso usual,
por ejemplo, es la definicin de cantidades per capita, en las que las cifras de dos
variables X, Y medidas por ejemplo a nivel nacional, se dividen por el nmero de
individuos en la poblacin. En general, si calculamos proporciones de la forma
X/Z, Y/Z, fcilmente se producirn correlaciones espurias entre las dos variables
transformadas. Incluso si las variables X e Y no estuviesen correlacionadas, el
coeficiente de correlacin sera significativo, como consecuencia del papel de la
variable del denominador. Tambin es posible el fenmeno contrario: entre dos
variables con un cierto grado de asociacin, la estandarizacin puede disminuirla.
Por ello, debe tenerse un cierto cuidado cuando se trabaja con cocientes o
ndices, para tener en cuenta estos posibles efectos perversos.

El coeficiente de correlacin NO ES VLIDO si las observaciones procedan


de POBLACIONES DIFERENTES.

Existe una tendencia a aplicar las tcnicas estadsticas de manera ms o


menos automtica: si se dispone de informacin de dos variables para un
conjunto de individuos, nada impide calcular el coeficiente de correlacin entre
ambas. En ocasiones, sin embargo, es necesario tener en cuenta el origen de esas
observaciones. Al estar interesados en la relacin entre las dos variables, es
deseable que las observaciones provengan de un conjunto homogneo de
individuos, ya que lo contrario puede provocar una distorsin de la relacin entre
las variables. Una imagen explicar claramente el problema.
En la grfica 15 se muestran la situacin en el plano X, Y de 30
observaciones. Puede ver que existen dos grupos diferentes de observaciones:
respecto a los valores medios de las variables, uno se situara en el segundo
cuadrante, mientras que el otro grupo se localiza en el cuarto cuadrante.
Obviamente el coeficiente de correlacin, calculado sobre el conjunto de 30
observaciones, ser negativo (concretamente es igual a 0,9413). Si
conociramos que el origen de las observaciones no es una poblacin
homognea, sino dos poblaciones diferentes, estaramos ms interesados en
calcular dos coeficientes de correlacin, uno para el primer grupo de
observaciones y otro para el segundo. De hecho, si se calculan los coeficientes de
correlacin separadamente, las cifras que se obtienen son iguales a 0,763 y 0,686
(segundo y cuarto cuadrantes, respectivamente), es decir, que presentaran
correlacin positiva de parecida intensidad. El problema que se plantea es
importante, puesto que, si se tiene en cuenta la existencia de dos tipos de
observaciones, entre las dos variables se da una asociacin de tipo positivo,

mientras que cuando se agrupan todas ellas sin distincin, se consigue un


coeficiente negativo.
Grfica 15
140

120

100

80

60

40

20
10

20

30

40

50

60

70

Piense que situaciones como la descrita pueden ser muy comunes. Por
ejemplo, suponga que estudia la relacin entre superficie de la vivienda y su
precio. Para ello toma informacin de diversas viviendas, sin distinguir si stas se
encuentran en una zona rural o urbana. Es posible que la posicin de las
observaciones sea similar a la representada en la grfica 15, siendo X la
superficie de la vivienda e Y el precio de la misma. El grupo del primer
cuadrante respondera a las viviendas de tipo urbano (con una baja superficie
media y alto precio), mientras que en el cuarto cuadrante apareceran las
viviendas de tipo rural, con una mayor superficie y un menor precio medio. Sin
distincin de su ubicacin, la asociacin entre las dos variables sera negativa: a
mayor superficie, menor precio; sin embargo, con ello se ocultara la relacin
fundamental entre las dos variables: cuanto mayor es la superficie, mayor es el
precio de la vivienda, aunque deba tenerse en cuenta la situacin geogrfica para
entender que los niveles en los que se establece esa relacin difieren segn se
trate de zonas urbanas o rurales.
Situaciones similares pueden darse combinando diversas posiciones de
los grupos. Puede existir una relacin esencial negativa entre las variables y que
por la existencia de grupos de individuos se detecte una correlacin positiva, o no
existir asociacin y detectarse con cualquier signo, etc. Como un segundo
ejemplo, observe la grfica 16. En la misma aparecen dos grupos de
observaciones. Si se calcula el coeficiente de correlacin, sin distincin de

grupos, se obtendr un valor positivo y posiblemente elevado. Sin embargo, las


formas de las dos nubes en el grfico hacen sospechar que la asociacin entre las
dos variables, en el caso de anlisis separados, sera nula.
Grfica 16
60

50

40

30

20

10
10

20

30

40

50

60

El coeficiente de correlacin de rangos de Spearman


El coeficiente de correlacin se puede calcular para cualquier tipo de
variable cuantitativa de tipo continuo. Una aplicacin comn del mismo, sin
embargo, es sobre el el clculo del coeficiente sobre dos variables que indican,
cada una de ellas, cul es la posicin de la observacin en el conjunto de la
muestra, cuando la variable se ordena de menor a mayor. Por ejemplo, los valores
de la variable X en la segunda columna del cuadro 4, ordenados de menor a
mayor proporcionaran el orden que aparece en la cuarta columna (rango de X).
El valor menor es el correspondiente a la observacin 4, el siguiente a la
observacin 1, etctera. La misma ordenacin se puede realizar para la variable
Y. Entre estas dos ordenaciones se puede calcular el coeficiente de correlacin.
Con ello se obtiene una medida de asociacin en los posicionamientos de las dos
variables.
Mientras que el coeficiente de correlacin sobre las variables originales
X e Y indica el grado de asociacin en los valores de las dos series de
observaciones, el coeficiente de correlacin de rangos (o coeficiente de
correlacin de Spearman) mide el grado de asociacin del orden de las
observaciones en las dos variables.

Cuadro 4

i
1
2
3
4
5

X
4
5
7
3
8

Y
10
11
9
15
13

Rango de X
2
3
4
1
5

Rango de Y
2
3
1
5
4

Difiere el grado de asociacin segn se utilice el coeficente de Pearson


(el coeficiente calculado sobre los valores originales) o el coeficiente de
Spearman (sobre los rangos de las observaciones)? En el cuadro 5 se muestran
las cifras necesarias para calcular ambos estadsticos.
Cuadro 5

Valores originales de las variables

Xi

Yi

X i Yi

4
5
7
3
8

10
11
9
15
13

40
55
63
45
104

16
25
49
9
64

5,4 11,6

X
i =1

2
i

Xi

Yi

X i Yi

X i2

Yi 2

2
3
4
1
5

2
3
1
5
4

4
9
4
5
20

4
9
16
1
25

4
9
1
25
16

696

42

Yi

100
121
81
225
169

X Y

i Yi

i =1

307

Rangos de las variables

2
i

163

i =1

i =1

i Yi

X
i =1

55

2
i

Y
i =1

55

El coeficiente de correlacin de Pearson ser:


n

rPearson =

X Y nx y
i =1
n

i i

X
i =1

2
i

n x

Y el coeficiente de Spearman:

307 5 5,4 11,6


163 5 5,4 2

696 511,6 2

= 0,3104

rSpearmn =

X Y n x y
i i

i =1
n

X
i =1

2
i

nx

42 5 3 3
55 5 32

55 5 32

= 0,3

En este caso, por tanto, ambos coeficientes proporcionan valores


similares. Esta concidencia, sin embargo, no siempre se mantiene. Por ejemplo,
los datos del cuadro 6 mantienen la misma relacin de rangos que el ejemplo
anterior, pero con distintos valores de las variables. El coeficiente de correlacin
de Pearson es ahora igual a 0,153, valor ya alejado del 0,3 del coeficiente de
Spearman.
Cuadro 6

i
1
2
3
4
5

X
Y Rango de X
19 73
2
55 110
3
110 9
4
3 230
1
220 150
5

Rango de Y
2
3
1
5
4

Si existen observaciones empatadas (dos valores de X idnticos) sus


rangos se obtendran promediando las observaciones empatadas. Por ejemplo, si
aparecen tres valores iguales a 19, y los rangos que le corresponden son 2, 3 y 4,
asignaramos el rango 3 a todas ellas. La siguiente observacin tendra un valor
del rango igual a 5. Si dos observaciones toman un valor igual y sus rangos son 2
y 3, se les asignara el rango 2,5 y a la siguiente observacin se le asignara el
rango 4.
Dadas las caractersticas numricas del coeficiente de Spearman (por
ejemplo, las sumas de cuadrados de las desviaciones son iguales en ambas
variables) en ocasiones (y si no hay empates en las observaciones) se utiliza
como frmula de clculo la siguiente:
n

rSpearman = 1

( )

( )

donde d i = Rango X i Rango Yi .

6 d i2
i =1

n (n 2 1)

Ejemplo 1. La fiscalidad sobre el trabajo y el desempleo en la


OCDE. Bajo este ttulo Domnech et al. (1997) analizan la relacin entre
las tasas de desempleo en los pases de la OCDE y el crecimiento de la
fiscalidad sobre el trabajo. La coincidencia entre las altas tasas de
desempleo y los impuestos sobre el trabajo han llevado a estudiar la
posible reduccin del paro al disminuir estos impuestos.
Como parte de su trabajo estudian la relacin entre la tasa de
desempleo de diversos pases y la brecha entre el coste laboral real (a
precios de produccin) y el salario real neto (a precios de consumo). La
diferencia esencial entre los dos conceptos salariales es lo que los
autores denominan cua fiscal, que incluye los tipos efectivos de las
cotizaciones sociales del empleador y a cargo del asalariado, la
imposicin indirecta y la imposicin directa sobre el factor trabajo (la cua
fiscal se define, por tanto, como la suma de estos cuatro tipos
impositivos). Para diversos pases, en el cuadro 7 se muestran los
valores medios en el perodo 1965-1992 de la tasa de paro y de la cua
impositiva (fuente: Domnech et al. 1997).
Los datos de los valores medios de las dos variables se han
reproducido en la grfica 17. Puede observar que no existe una relacin
clara entre la cua fiscal y la tasa de desempleo. Como indican
Domnech et al. (1997, pg. 183 y siguientes):

Los pases no europeos de la OCDE presentan una cua fiscal


inferior a la de los pases europeos, sin que, sin embargo, se
detecten tasas de desempleo sistemticamente inferiores.

EEUU con una cua fiscal inferior a la de Francia o


Dinamarca, tiene una tasa de desempleo promedio muy
similar.

Dos de los pases con mayor cua fiscal (Suecia y Noruega)


tienen unas tasas de desempleo menores que las de otros
pases con menor cua fiscal.

Espaa tiene una cua fiscal similar a la de Portugal o Nueva


Zelanda, pero su tasa de desempleo es muy superior.

Si se excluyen de la grfica las observaciones de Japn, Suiza


y Nueva Zelanda, la imagen de una relacin negativa entre las
variables parece que se refuerza.

De hecho, una manera sinttica de medir la asociacin entre las


dos series de valores es el coeficiente de correlacin, que pasamos a
calcular a partir de la informacin del cuadro 8.

Cuadro 7
Pas

Alemania
Austria
Blgica
Canad
Dinamarca
EEUU
Espaa
Francia
Grecia
Holanda
Irlanda
Italia
Japn
Noruega
Nueva Zelanda

Portugal
Suecia
Suiza
UK

Grfica 17

Tasa de
desempleo
2,6
5,6
7,3
7,9
6,4
6,6
10,6
6,4
5,5
5,2
10,4
8,4
2,4
2,7
3,3
5,8
2,4
0,8
6

Cua
impositiva
0,8
0,35
0,87
0,53
1
0,4
0,47
0,85
0,63
0,89
0,61
0,62
0,31
1,03
0,46
0,45
1,1
0,39
0,52

12
Espaa

Irlanda

tasa de desempleo

10
Italia
Canad

Blgica
EEUU

Austria

Francia

Portugal

Dinamarc

UK
Grecia

Holanda

4
Nueva Ze
Noruega
Suecia

Alemania

Japn

2
Suiza

0
.2

.4

.6
.8
cua impositiva

1.2

Cuadro 8

Xi

Yi

X i2

Yi 2

X i Yi

2,6
5,6
7,3
7,9
6,4
6,6
10,6
6,4
5,5
5,2
10,4
8,4
2,4
2,7
3,3
5,8
2,4
0,8
6

0,8
0,35
0,87
0,53
1
0,4
0,47
0,85
0,63
0,89
0,61
0,62
0,31
1,03
0,46
0,45
1,1
0,39
0,52

6,76
31,36
53,29
62,41
40,96
43,56
112,36
40,96
30,25
27,04
108,16
70,56
5,76
7,29
10,89
33,64
5,76
0,64
36

0,64
0,1225
0,7569
0,2809
1
0,16
0,2209
0,7225
0,3969
0,7921
0,3721
0,3844
0,0961
1,0609
0,2116
0,2025
1,21
0,1521
0,2704

2,08
1,96
6,351
4,187
6,4
2,64
4,982
5,44
3,465
4,628
6,344
5,208
0,744
2,781
1,518
2,61
2,64
0,312
3,12

Xi
i =1

Yi
i =1

X i2
i =1

Yi 2
i =1

X
i =1

Yi

106,3

12,28

727,65 9,0528

5,5947

0,64632

67,41

El coeficiente de correlacin es:


n

rXY =

X
i =1

X
i =1

2
i

n x

Yi n x y
=

Y
i =1

n y

67,41 19 5,5947 0,64632


727,65 19 5,5947 2

9,0528 19 0,64632 2

= 0,1062

Entre las dos variables, por tanto, no parece existir ningn tipo de
asociacin, pudindose incluso hablar de una pequea asociacin negativa,
cuando se utiliza la informacin promedio del perodo 1965-1992.

Ejemplo 2. Los costes del despido en Europa. Los costes del


despido en los pases de la Unin Europea (UE) se contabilizan por
meses de salario, que varan en funcin de la antigedad del trabajador
en la empresa. En el cuadro 9 se muestran los costes de despido en los
diversos pases de la UE en 1996, para un trabajador con veinte aos de
antigedad (Fuente: Layard et al., 1996), distinguiendo entre despidos
procedentes y despidos improcedentes. A partir de esta informacin se
desea conocer si en el conjunto de pases de la UE exista (los costes se
han modificado para algunos pases, entre ellos Espaa) algn tipo de
asociacin entre los costes de despido procedente e improcedente.
Cuadro 9

Austria
Belgica
Dinamarca
Finlandia
Francia
Alemania
Irlanda

Costes de despido
Despidos
Despidos
procedentes improcedentes
14
20
9
12,5
5,2
9
5,2
6
4,2
15
3,4
18
5,4
24

Italia
19,6
Holanda
4
Portugal
16,1
Espaa
8,3
Suecia
5
UK
6,7
UE
8,1
Fuente: Layard et al. (1996)

32,5
5,3
20
30
16
11
16,8

La representacin de los costes de despido para el conjunto de


pases se muestra en la grfica 18. En la imagen ya se detecta la
asociacin positiva entre ambos tipos de costes: los pases con un coste
alto en los despidos procedentes tienen, en general, costes tambin
relativamente altos en los despidos improcedentes. Destaca la posicin
de Italia, con costes muy elevados en ambos tipos de despido, y de
Espaa, con un alto coste en el despido improcedente (segundo mayor
coste) pero con un coste en el despido procedente similar al de la media
de la UE.

Grfica 18
Italia

19.6

Portugal

despidos procedentes

Austria

Belgica
Espaa

UE
UK
Finlandi

Dinamarc

Irlanda

Suecia
Francia

Holanda

Alemania

3.4
5.3

32.5
despidos improcedentes

Cuadro 10

Xi

Yi

X i2

Yi 2

X i Yi

14
9
5,2
5,2
4,2
3,4
5,4
19,6
4
16,1
8,3
5
6,7

20
12,5
9
6
15
18
24
32,5
5,3
20
30
16
11

X
i =1

196
81
27,04
27,04
17,64
11,56
29,16
384,16
16
259,21
68,89
25
44,89

i =1

106,1

219,3

8,1615

16,8692
3

400
156,25
81
36
225
324
576
1056,25
28,09
400
900
256
121

i =1

2
i

1187,59

i =1

280
112,5
46,8
31,2
63
61,2
129,6
637
21,2
322
249
80
73,7

X
i =1

4559,59

Yi

2107,2

Para calcular el coeficiente de correlacin entre las dos variables


aplicaremos explcitamente la expresin:
n

rXY =

X
i =1

X
i =1

2
i

Yi n x y

n x2

i =1

n y2

Utilizando los valores que aparecen en el cuadro 10, el coeficiente de


correlacin entre los dos tipos de costes confirma numricamente la asociacin
que detectbamos al visualizar los datos:
n

rXY =

X
i =1

X
i =1

2
i

Yi n x y

n x2

Y
i =1

n y2

2107,2 13 8,1615 16,86923


1187,59 13 8,16152

4559,59 1316,869232

= 0,6034

La correlacin entre ambos tipos de costes es positiva y


relativamente alta, aunque su valor implica que cualquier comentario
sobre la importancia de los costes de despido en estos pases debe
distinguir entre los despidos procedentes y los improcedentes.
Ejemplo 3. Transformacin de variables. Para dos variables X e Y
se conoce su coeficiente de correlacin lineal, siendo igual a 0,9. Se
desea conocer el coeficiente de correlacin lineal entre las variables X* =
3X-4 e Y* = 4Y-3.
El coeficiente de correlacin entre las variables transformadas de
definir a partir de las reglas que se aplican para sus covarianzas y
desviaciones estndar, por lo que se tendr:

rXY =

sX*Y*
s X * sY *

3 4 s XY
s
= XY = rXY = 0,9
3 s X 4 sY s X sY

Es decir, que la correlacin entre dos variable que se han


modificado a partir de transformaciones lineales directas de otras dos, no
modifica el valor del coeficiente.
Ejemplo 4. Beneficios de las compaas areas. Se desea conocer
si existe relacin entre el volumen de ventas de las compaas areas y
su nivel de beneficios. Para ello tiene la informacin del cuadro 11, donde
aparecen los valores medios de diversas compaas norteamericanas en
el periodo 1987-1996 (en miles de dlares).

Cuadro 11

Xi

Yi

Ventas

Beneficios

1239
13212
6867
9023
6286
10258
9854
4200
10199
7736

31,3
18,1
9
379,4
503
14,8
55,4
71
115,1
42,3

X i Yi

X i2

38781
1535121
239137 174556944
61803
47155689
3423326 81414529
3161858 39513796
151818 105226564
545912 97101316
298200 17640000
1173905 104019601
327233 59845696

Yi 2
980
328
81
143944
253009
219
3069
5041
13248
1789

5272
5485
1799
4603
3826
12242
6442

96,1
912,1
103,8
567,5
212,8
128,9
171,5

506639 27793984
5002869 30085225
186736
3236401
2612203 21187609
814173 14638276
1577994 149866564
1104803 41499364
n

6973

X i Yi

9235
831926
10774
322056
45284
16615
29412
n

X i2

i =1

i =1

i =1

2122738 101631667
9
9
1687012

202

El coeficiente de correlacin ser:


n

rXY =

X Y n x y
i =1

X
i =1

2
i

n x 2

Y
i =1

n y 2

21227389 17 6973 202


1016316679 17 69732 1687012 17 202 2

= 0,197

Es decir, que cuanto mayor es el volumen de ventas, menor


parece ser el nivel de beneficios.
Ejemplo 5. Riqueza y consumo turstico. En una discusin sobre la
importancia de las vacaciones en las familias europeas, se defiende que
los determinantes del consumo turstico no son slo econmicos, sino
culturales. Para justificar este argumento se calcula la correlacin entre
un indicador de riqueza y la proporcin de la poblacin que hace
vacaciones. En el cuadro 12 se muestra la informacin utilizada (datos de
1990).
Cuadro 12
Pas

Xi

Yi

Consumo
per capita
(euros)

% poblacin
que hace
vacaciones

X i Yi

X i2

Yi 2

Espaa
UK
Holanda
Italia
Blgica
Francia
Alemani
a

6172
8440
8646
9199
9872
9977

53,4
61
69,9
57,2
56
59,1

329585
514840
604355
526183
552832
589641

38093584
71233600
74753316
84621601
97456384
99540529

2852
3721
4886
3272
3136
3493

10141

68,2

691616

102839881

4651

x
8921

X i Yi

X i2

i =1

i =1

Y
i =1

3809051,9
26010,4
568538895
0
6

60,69

El coeficiente de correlacin es igual a:


n

rXY =

X Y n x y
i =1

X
i =1

2
i

n x

Y
i =1

n y

3809052 7 8921 60,69


568538895 7 89212

26010 7 60,69 2

= 0,38

Del resultado se deduce que existe una relacin entre el nivel de


riqueza del pas y la cantidad de personas que hacen vacaciones, aunque
el bajo valor del coeficiente seala que deben influir tambin otros
factores.
Ejemplo 6. Correlaciones de los gastos familiares. Sobre una
muestra de 271 familias espaolas se desea analizar las asociaciones
existentes entre su gasto familiar total, sus ingresos familiares y varias
categoras de gasto. Para cada familia se ha tomado como periodo de
referencia el trimestre anterior a la encuesta. Se han agregado los gastos
familiares correspondientes a las siguientes categoras: alimentacin,
vestido y calzado, bienes no duraderos (vivienda, calefaccin y
alumbrado, medicinas, seguros, enseanza, etctera) y bienes
duraderos (muebles y accesorios fijos, aparatos de calefaccin y
cocina, vehculo de transporte, aparatos de radio y televisin, etctera).
La matriz de correlaciones entre estas partidas de gasto, el gasto total y
el ingreso familiar se muestra en el cuadro 13.
Cuadro 13

Aliment.
Vestido
No durad.
Durad.
Gasto
Ingresos

Alimentacin

Vestido

1
0,22
0,25
0,09
0,50
0,26

0,22
1
0,43
0,13
0,60
0,34

No duraderos Duraderos

0,25
0,43
1
0,14
0,86
0,61

0,09
0,13
0,14
1
0,51
0,16

Gasto

Ingresos

0,50
0,60
0,86
0,51
1
0,59

0,26
0,34
0,61
0,16
0,59
1

La relacin entre los ingresos y los gastos totales es, obviamente,


positiva (en la grfica 19 se muestra la relacin entre las dos variables) y
relativamente alta (con un valor igual a 0,59). Esa relacin, sin embargo,
no se mantiene cuando se desglosan las diversas componentes del gasto
total. Mientras que la relacin entre ingresos y los gastos no duraderos
proporciona un valor similar, la relacin de los niveles de ingreso y el
gasto en alimentacin es muy bajo (0,25), siendo el valor del coeficiente
del gasto en vestido y calzado algo mayor (0,34). Estos valores se
corresponden con los valores esperados: tanto la partida de alimentacin
como la de vestido pueden considerarse bienes de consumo necesarios
y, en consecuencia, resulta lgico que, aunque con una asociacin
positiva, unos mayores ingresos no supongan un gasto en alimentacin
proporcional. Es, sin embargo, llamativo el que el coeficiente de
correlacin entre los ingresos y el gasto en bienes duraderos sea tan
bajo. Lo que parecera normal esperar es que, al tratarse de un tipo de
bien no necesario, un nivel alto de ingreso estuviera asociado a un alto
nivel de consumo. O dicho de otra manera, que al ir situndonos en
niveles de renta ms altos, tambin se observarn niveles de consumo en
bienes duraderos por encima de la media. Esto ocurre as, por ejemplo,
con el gasto en bienes no duraderos, para el que el coeficiente de
correlacin con los ingresos es igual a 0,61. Por el contrario, el
coeficiente asociado a los bienes duraderos es el ms bajo de todos
(0,16). La visualizacin de los datos nos ayudar a entender lo que
ocurre.
En la grfica 20 se puede observar que un importante nmero de
familias, en cualquier nivel de ingresos, no realizan ningn consumo de
bienes duraderos. La razn es que muchos de sus productos tienen una
frecuencia de compra que no abarca el trimestre. Muchas de las 271
familias encuestadas no han realizado en ese trimestre ningn gasto en
este tipo de bienes, por lo que su respuesta en esta partida es de
consumo cero. Como consecuencia de ello, el valor medido del
coeficiente de correlacin no recoge la expectativa a priori sobre el
mismo. El problema de frecuencia de compra es uno de los que deben

enfrentarse cuando se desean analizar los patrones de consumo


individuales.

Grfica 19
Gasto familiar total

3000000

2000000

1000000

0
0

1000000

Ingresos familiares

2000000

3000000

2000000

3000000

Grfica 20
Gasto en bienes duraderos
1300000
1200000
1100000
1000000
900000
800000
700000
600000
500000
400000
300000
200000
100000
0
0

1000000

Ingresos familiares

Ejemplo 7. Por qu son ms pobres los pensionistas ms viejos?


En Johnson y Stears (1998) se estudia la relacin que existe entre los
ingresos de los pensionistas y su edad. En muchas economas los
pensionistas aparecen entre los grupos ms pobres, pero tambin entre
ellos parecen existir fuertes diferencias. Uno de los fenmenos ms

curiosos es la relacin negativa que existe entre la edad y los ingresos de


los pensionistas. Se ha comprobado que cuanto mayor es la edad del
pensionista, menores son sus ingresos. Una primera explicacin ha
justificado esta relacin por el hecho de que entre los pensionistas de
mayor edad el porcentaje de mujeres es mayor (al tener una mayor
esperanza de vida). Para comprobar la validez de esta explicacin, los
autores han analizado los ingresos de los pensionistas de sexo
masculino, con relacin a su edad. Los autores emplean informacin de
una encuesta anual de gastos familiares en el Reino Unido (Family
Expenditure Surveys, FES), que recoge informacin sobre ingresos y
gastos de unas 7000 familias. En el cuadro 14 se recogen los ingresos
totales medios de los pensionistas varones entre 65 y 85 aos, en
1992/1993. Se trata de ingresos semanales, medidos en libras constantes
de enero de 1995.
Cuadro 14
66
Edad 65
Renta 197 193
77
Edad 76
Renta 153 149

67
184
78
144

68
172
79
143

69
166
80
138

70
177
81
139

71
72
172,5 164
82
83
130 130,5

73 74 75
150 152 156
84 85
125 124

En la grfica 21 se ilustra la relacin entre las dos series. Resulta


evidente a partir de la misma que la asociacin entre ambas variables es
negativa y alta en valor absoluto. El coeficiente de correlacin
proporciona el siguiente resultado:
n

rXY =

X
i =1

X
i =1

2
i

n x

Yi n x y
=

Y
i =1

n y

241825 21 75155,1905
118895 21 752

Grfica 21

515066,5 21155,19052

= 0,9716

200

180

renta media

160

140

120
65

70

75

80

85

edad del pensionista

El clculo del coeficiente confirma la impresin visual, con un alto


valor negativo igual a 0,9716, dado que los datos slo incluyen a los
varones pensionistas, no parece que la relacin negativa entre edad e
ingresos dependa del sexo.
Ejemplo 8. Correlacin en el mercado mundial de acciones. Las
carteras internacionales de acciones se caracterizan hoy por su
diversificacin. La diversificacin internacional de la inversin supone una
reduccin del riesgo y un aumento de los beneficios esperados. Estos
estmulos a la diversificacin dependen, no obstante, del grado de
correlacin de los distintos mercados, ya que si los mercados siguen una
evolucin similar, los incentivos de la diversificacin disminuyen. Debe
tenerse en cuenta, adems, la estabilidad a lo largo del tiempo de esas
asociaciones, ya que si stas son constantes el inversor tendr una
garanta adicional. Michaud et al. (1996) analizan el grado de correlacin
existente entre el mercado de acciones de EEUU y distintos mercados
mundiales, calculando los coeficientes de correlacin entre un ndice
representativo de la evolucin del mercado de EEUU e ndices de 15
pases. Los ndices empleados son los de Morgan Stanley Capital
International (MSCI) para los distintos pases. Las correlaciones se han
calculado con informacin de dos perodos de tiempo, el primero entre
1959 y 1973, el segundo entre 1976 y 1995. En el cuadro 15 se
reproducen los resultados que ofrecen los autores, junto con el orden en
funcin del valor del coeficiente (desde el valor ms alto del coeficiente
hasta el valor menor), para cada perodo.

Cuadro 15

Mercado

Australia

Correlaciones
con el mercado de
EEUU
197619591995
1973
0,40
0,23

Austria
Blgica
Canad
Dinamarca
Francia
Alemania
Italia
Japn
Holanda
Noruega
Espaa
Suecia
Suiza
UK
Del anlisis de los
conclusiones:

0,12
0,40
0,68
0,32
0,42
0,33
0,20
0,23
0,58
0,47
0,29
0,39
0,46
0,50
coeficientes

Orden de la
correlacin
(de mayor a menor)
19591976-1995
1973
7
9

0,12
15
0,46
8
0,80
1
0,04
11
0,25
6
0,38
10
0,21
14
0,13
13
0,61
2
0,17
4
0,04
12
0,33
9
0,49
5
0,29
3
de correlacin se extraen

13
4
1
14
8
5
10
12
2
11
14
6
3
7
las siguientes

Los mercados con las correlaciones ms altas en el perodo 19591973 (Canad, Holanda y Suiza) tienen correlaciones numricamente
inferiores en el segundo perodo. Por el contrario, mercados como el
de Espaa y Dinamarca, apenas correlacionados con el de EEUU en
la primera etapa, presentan correlaciones algo ms altas en las
ltimas dos dcadas.
Si se calcula el coeficiente de correlacin entre los rangos de las
correlaciones de los dos perodos se obtiene un valor igual a 0,71.
Esto es indicativo de que efectivamente parece haberse dado una
continuidad importante en las relaciones a largo plazo entre estos
mercados de acciones.
No parece existir evidencia, por lo tanto, de cambios importantes en
la correlacin del mercado de EEUU con los principales mercados
mundiales. Este resultado entrara en contradiccin con la creencia de
que los mercados de acciones han incrementado su sincronizacin,
siendo ms sensibles a la influencia de factores comunes.

Ejemplo 9. Correlacin entre Bolsas Mundiales A quin sigue el


IBEX? Martnez y Cabezas (1997) intentan contestar a esta pregunta
calculando los coeficientes de correlacin entre el ndice IBEX y seis
ndices internacionales, empleando para ello datos diarios de cierre
durante el perodo 1/1/1985 al 1/1/1996. Los ndices considerados son los
siguientes:

DAX 30 (Alemania).
CAC 40 (Francia).
FT SE 100 (Inglaterra).
S&P 500 (EEUU).
NIKKEI 225 (Japn).

Los coeficientes de correlacin no se calculan directamente sobre los


ndices, sino sobre las rentabilidades logartmicas, definidas como:

p
log t
p t 1
donde pt indica el valor del ndice en el da t.
Los coeficientes de correlacin se calculan separadamente en
cuatro perodos:
Primer perodo: Enero de 1985 a octubre de 1987. En octubre de
1987 se produce una importante crisis burstil.
Segundo perodo: Octubre de 1987 a agosto de 1990. En agosto
de 1990 tiene lugar la guerra de Kuwait, que provoc una crisis en
las bolsas.

Tercer perodo: Agosto de 1990 a junio de 1992. Este perodo


abarca desde la crisis de Kuwait al no dans a Maastricht.
Cuarto perodo: Junio de 1992 a diciembre de 1996. Abarca desde
el referndum dans hasta la ltima fecha analizada.
En el cuadro 16 se muestran los coeficientes de correlacin
obtenidos por los autores, entre el IBEX y los cinco restantes ndices
mundiales.
Cuadro 16

Correlaciones con el IBEX


Perodo

DAX 30

85-87
-0,1

87-90
0,3

90-92
0,4

92-96
0,5

CAC 40

-0,1

0,3

0,4

0,6

FT SE 100
S&P 500
NIKKEI 225

0,0
0,0
0,0

0,1
0,0
0,2

0,3
0,3
0,2

0,5
0,2
0,2

Los autores obtienen las siguientes conclusiones:

Coincidiendo con las crisis burstiles ms importantes de los ltimos


12 aos, la correlacin del IBEX con las restantes bolsas ha ido
aumentando con el tiempo.
La crisis de octubre de 1987 inicia la conexin del mercado burstil
espaol con los de Alemania y Francia.
La crisis de 1992 relaciona el mercado espaol con el mercado
europeo.
Las bolsas que mantienen una mayor relacin con la espaola son la
francesa y alemana, estando ms alejadas las bolsas de Japn y
EEUU. Este proceso sera resultado del proceso de convergencia de
la unin monetaria europea.

Ejemplo 10. Riesgo de una cartera. La rentabilidad de un activo de


renta variable puede definirse de distintas maneras. Hemos utilizado
anteriormente un concepto habitual de rentabilidad simple:

rit =

Precioit Precioit 1
Precioit 1

que supone que en los precios ya se incorporan dividendos, derechos y


otras remuneraciones.
Cuando se trabaja con una nica accin, una medida del riesgo la
constituye la varianza de su rentabilidad. Se trata ahora de generalizar el
concepto de riesgo de un activo al de una cartera de activos. Para ello,
definiremos en primer lugar la rentabilidad de una cartera. Una cartera es
una combinacin de ttulos, en la que cada uno de ellos participa con un
porcentaje determinado. La rentabilidad de la cartera se define como una
media ponderada de las rentabilidades individuales, en la que la
ponderacin viene dada por el porcentaje que representa en el valor total
de la cartera. As, si definimos por wi el porcentaje que representa un
activo i en el valor total de la cartera, la rentabilidad de la cartera ser
(teniendo en cuenta que la suma de las ponderaciones es la unidad):

w r
=
=w r
w
i

Rct

it

it

El riesgo de una cartera se puede definir empleando de nuevo el


concepto de varianza. Para T observaciones de la rentabilidad de la cartera:

(R
T

var( Rct ) =

ct

t =1

Rc )

donde Rc indica la media de la rentabilidad de la cartera en el perodo:

Rct
t =1

Rc =

wi rit
t =1

wi rit
t =1

= wi

it

i =1

= wi ri
i

Supongamos que la cartera est compuesta nicamente de dos


activos, cada uno de ellos con una importancia
wi y
verificando: w1 + w2 = 1 . El numerador de la varianza podra reescribirse
de la siguiente manera:
T

(R

ct

t =1

Rc ) = w1 r1t + w2 r2 t ( w1 r1 + w2 r2 ) =
2

t =1

= w1 (r1t r1 ) + w2 ( r2 t r2 ) =
t =1

))

= w12 ( r1t r1 ) + w22 ( r2 t r2 ) + 2 w1 w2 ( r1t r1 )(r2 t r2 ) =


2

t =1
T

= w ( r1t r1 ) + w (r2 t r2 ) + 2 w1 w2 (r1t r1 )(r2 t r2 ) =


t =1
T

2
1

t =1
T

2
2

t =1

= w12 ( r1t r1 ) + w22 ( r2 t r2 ) + 2 w1 w2


2

t =1

t =1

t =1

(( r

1t

r1 )( r2 t r2 )

Como consecuencia, la varianza de la rentabilidad de la cartera


ser:

(R
T

var( Rct ) =
T

(r1t r1 )

2 t =1
1

=w

t =1

(r2 t r2 )

2 t =1
2

ct

Rc )

T
2

((r
T

t =1

1t

r1 )( r2 t r2 )

+w
+ 2 w1 w2
T
T
T
2
2
= w1 var (r1 ) + w2 var (r2 ) + 2 w1 w2 covar(r1 r2 )

Denotando var(a) la varianza de a y covar(a,b) la covarianza entre


a y b. La expresin anterior puede generalizarse a carteras de ms de
dos activos. Para k activos:
k 1 k

( )

var ( Rc ) = wi2 var (ri ) + 2 wi w j covar ri r j


k

i =1

i =1 j = 2
i< j

O si se quiere, puede expresarse en funcin del coeficiente de


correlacin (indicando en esta notacin correl(a,b) la correlacin entre los
rendimientos de los activos a y b)1:
k

( )

k 1 k

( )

var ( Rc ) = wi2 var ( ri ) + 2 wi w j var ( ri ) var r j correl ri r j


i =1

i =1 j = 2
i< j

Fjese que el riesgo de la cartera depende de k varianzas y de k(k1)/2 covarianzas. De manera que cuanto mayor es el valor de k, mayor
ser la importancia relativa de las covarianzas para determinar el riesgo
de la cartera. Si k=6, el nmero de covarianzas distintas ser de 15; si
k=12, el nmero de covarianzas es de 66.
Al aumentar el nmero de activos de la cartera, el riesgo global se
aproxima a una media ponderada de las covarianzas.
De nuevo para nicamente dos activos:

var ( Rc ) = w12 var (r1 ) + w22 var (r2 ) + 2 w1 w2 var (r1 ) var (r2 ) correl (r1 r2 )
Este resultado permite observar que el riesgo global de una
cartera depende del riesgo de cada uno de los activos que la forman
(ponderados segn la importancia de su participacin) y de un riesgo
comn. Esta ltima componente del riesgo de la cartera juega un papel
importante para lograr disminuir el riesgo global. La situacin ideal ser
aquella en la que la correlacin sea negativa, pues con ello disminuir la
varianza del rendimiento de la cartera definida por la ponderacin simple
de las varianzas:

Teniendo en cuenta que el coeficiente de correlacin entre dos variables X e Y se define


como:

rXY =

s XY

s X sY

var( Rc ) = w12 var (r1 ) + w22 var (r2 ) 2 w1 w2 var (r1 ) var (r2 ) correl (r1 r2 )
Sin embargo, la correlacin de tipo positivo entre los activos ser
el valor ms frecuente, al incidir el riesgo de mercado sobre todas ellas.
Respecto a una correlacin positiva exacta, una correlacin positiva e
inferior a la unidad, disminuir comparativamente el riesgo global de la
cartera.
Ejemplo 11. Valoracin de una cartera con dos acciones. En este
ejemplo vamos a aplicar directamente lo explicado en el ejemplo anterior
a una cartera con dos acciones. En el cuadro 17 se muestran las
cotizaciones de las dos series durante 12 perodos. A partir de las
mismas se han calculado los rendimientos de cada perodo, los valores
medios y desviaciones estndar, la covarianza y el coeficiente de
correlacin de las dos series de rendimientos.
Cuadro 17
t

p At

p Bt

0
1
2
3
4
5
6
7
8
9
10
11

11
12
13
12,5
13
13,5
14
14,7
15
16
16,3
16,4

12
10
9,5
10
9
10
12
13
15
16
17
16,5

rA

rB

0,0375

0,0349

-0,001395

-0,38

covar(rA rB ) correl(rA rB )

rAt =

p At p A t 1
p A t 1

rBt =

p Bt p B t 1
p B t 1

0,091
0,083
-0,038
0,04
0,038
0,037
0,05
0,021
0,067
0,019
0,006

-0,167
-0,05
0,053
-0,1
0,111
0,2
0,083
0,154
0,067
0,063
-0,029

0,0348

0,1052

var(rA )

var (rB )

Mediante los estadsticos de resumen podemos observar que las


dos acciones tienen un rendimiento similar, aunque superior para la
accin A. El riesgo de la accin B (medido por su desviacin estndar) es

mayor que el de la accin A. El signo negativo de la correlacin entre las


dos series de rendimientos indica que su combinacin en una cartera
puede resultar adecuada, aunque su valor absoluto, sin embargo, est
alejado de una correlacin exacta.
Con la anterior informacin podemos ahora calcular los
rendimientos medios y el riesgo global de una cartera que combine de
manera diferente ambas acciones. En el cuadro 18 se muestran posibles
combinaciones de las dos acciones (en las columnas w1 , 1 w1 ). Para
cada una de ellas se ha calculado el rendimiento medio de la cartera y el
riesgo global, segn las frmulas:

Rc = w A rA + w B rB
var( Rc ) = w 2A var(rA ) + wB2 var(rB ) + 2 w A wB var(rA ) var(rB ) correl(rA rB )
Cuadro 18
Orden

Orden

Rendimiento Rendimiento
w1 1 w1 medio de la
(ms a
cartera
menos)
0,75 0,25
0,0369
4
1
0
0,0376
1
0
1
0,0349
12
0,9
0,1
0,0373
2
0,8
0,2
0,0370
3
0,7
0,3
0,0368
5
0,6
0,4
0,0365
6
0,5
0,5
0,0362
7
0,4
0,6
0,0359
8
0,3
0,7
0,0357
9
0,2
0,8
0,0354
10
0,1
0,9
0,0352
11

Riesgo
global
0,00084
0,00121
0,01107
0,00084
0,00077
0,00100
0,00153
0,00237
0,00351
0,00495
0,00669
0,00873

Riesgo

(menos a
ms)
3
5
12
2
1
4
6
7
8
9
10
11

La opcin de mayor rendimiento (1, 0) sera la que opta por invertir


todo en la accin A, que es la que tiene mayor rendimiento individual y
menor riesgo. Sin embargo, esta opcin no la sita entre las mejores a
nivel del riesgo global. Respecto a este concepto, esta combinacin sera
la quinta mejor opcin. La explicacin de ello se encuentra en la
correlacin negativa entre las dos series, que hace que algunas de las

combinaciones de las dos acciones permitan reducir el riesgo global por


debajo de lo que individualmente pueda alcanzar cualquiera de las dos
acciones. Una opcin que ponderase en (0,90 y 0,1) o (0,80 y 0,20)
parecera adecuada para mantener una buena combinacin de beneficio
y riesgo.
Ejemplo 12. Actividades de los turistas. En el cuadro 19 se
muestran el porcentaje de turistas que han realizado distintas actividades
durante sus vacaciones en una regin. La informacin distingue entre
turistas que han estado por primera vez y turistas que repiten sus
vacaciones en el lugar.

Cuadro 19
%
%
rango
rango
activida participacin primeros participaci
repetidore
visitante n visitantes
d
primeros
s
s
repetidores
visitantes
A
58,8
1
34,7
1
B
58,6
2
27,3
3
C
51,7
3
31,7
2
D
47
4
18,9
7
E
42,1
5
17
8
F
39,6
6
21,4
6
G
37,3
7
13,8
10
H
34,1
8
25,2
4
I
31,2
9
16,4
9
J
28,1
10
12,5
11,5
K
26,1
11
11,4
13
L
24,9
12
12,5
11,5
M
24,1
13
22,6
5
N
13,2
14
10,3
14

12,9
15
6,9
15

Los porcentajes de participacin en las diferentes actividades son


muy elevados en el caso de los primeros visitantes, mientras que entre
los repetidores se detecta una limitacin en las actividades.
Adicionalmente, se desea conocer si las actividades en las que los
turistas participan son muy diferentes, para lo que se han obtenido los
rangos de cada grupo. Una informacin til en este contexto es la

obtencin del coeficiente de correlacin de rangos entre ambas


variables:
n

rSpearman =1

6 d i2
i =1
2

n(n 1)

=1

6 115,5
= 0,794
15 15 2 1

Aunque la importancia de la participacin en las actividades sea


diferente entre los dos tipos de turistas la importancia relativa en las
mismas es bastante parecida, dado el elevado valor del coeficiente de
correlacin de rangos.
Ejemplo 13. Segmentacin e inversin internacional en los
mercados de valores. El caso de Benetton. Los inversores
internacionales han buscado mercados poco integrados con el resto del
mundo. Las razones para ello son, en primer lugar, porque las
oportunidades de obtener beneficios, en ocasiones, son mayores en
estos mercados aislados; en segundo lugar, porque invirtiendo en ellos
se puede reducir el riesgo de una cartera de inversin. Akdogan (1997)
analiza el valor de las acciones de la empresa Benetton, una compaa
italiana dedicada a la produccin y distribucin de artculos de moda.
Akdogan discute el grado de asociacin que tiene la evolucin del precio
de las acciones de este grupo con la de diversos mercados nacionales
(incluyendo el propio mercado italiano). Con ello desea valorar, desde el
punto de vista del impacto que el mercado mundial puede tener en ella,
el nivel de seguridad de esta accin. Entre otros anlisis, Akdogan
calcula la matriz de correlaciones entre las variaciones del precio de las
acciones de Benetton y las variaciones de los ndices de cotizaciones de
diversos pases.
En el cuadro 20 aparecen las correlaciones de las cotizaciones
del grupo Benetton (BEN.) y los ndices de mercado de Blgica, Europa,
Francia, Alemania, Italia, Holanda, Espaa, Suecia, Suiza, UK, EEUU y
un ndice mundial, calculadas con informacin diaria del ao 1994. Las
correlaciones entre las cotizaciones de la empresa y los distintos
mercados nacionales son muy bajas, lo que tambin ocurre incluso con
respecto a la propia bolsa italiana. Dos de las correlaciones (con los
ndices de Japn y Suiza) presentan signos negativos. Si nada ms
tuvisemos en cuenta estos resultados, podra aceptarse que las
cotizaciones de Benetton son una buena opcin para diversificar una
cartera de inversiones, al encontrarse su cotizacin aislada de la
evolucin de los mercados internacionales.

Cuadro 20

Blg.

BEN.

Italia

1,00
0,04
0,65
0,53
0,58
0,11

Japn

0,17

Holanda

0,61
0,40
0,45

Blgica
BENETTON
Europa
Francia
Alemania

Espaa
Suecia
Suiza
UK
EEUU
Mundo

1,00
0,06
0,10
0,03
0,03
0,19
0,02
0,00
0,03
0,09
0,12

Euro.

Fran.

Alem.

Italia

Japn Holanda

1,00
0,82 1,00
0,80 0,60 1,00
0,07 0,06 0,03 1,00
0,28 0,14 0,33 0,02 1,00

0,32
0,15
0,15
0,06
0,02
0,40
0,15
0,07 0,15 0,15 0,00 0,03
0,03
0,06
0,35
0,66 0,49 0,54 0,05 0,73
0,05

0,86 0,70 0,71 0,02


0,69 0,67 0,45 0,10
0,67 0,53 0,47 0,08
0,01
0,22
0,02 0,00
0,81 0,65 0,45 0,08

Cuadro 20 (continuacin)
Suecia

Suiza

UK

EEUU

Mundo

Blgica
BENETTON
Europa
Francia
Alemania
Italia
Japn
Holanda
Espaa
Suiza

1,00
0,03

UK

0,48

EEUU

0,11

Mundo

0,42

Suecia

Espaa

1,00
1,00
0,03
0,29 1,00
0,07
0,55 0,49
0,07

1,00

1,00
0,56
0,56

1,00
0,54

0,00

0,01

0,63

0,56

0,11

0,29

0,62

0,52

CAPTULO VI. AJUSTE DE UNA RECTA

El coeficiente de correlacin mide la asociacin existente entre dos


variables continuas. Hemos insistido en que la asociacin entre dos variables no
implica causalidad entre ellas y que proponer una relacin causal supone aadir
una hiptesis adicional a la descripcin de las variables. Esta hiptesis puede
plantearse, especialmente, apoyndose en algn tipo de argumentacin terica.
Si disponemos de una hiptesis de causalidad, cuando escribimos la
relacin:

Yi = a + b X i

i =1,..., n

ya no slo se tratar de una manera de describir la forma de una nube de puntos.


Ahora, adems, deber entenderse que esa expresin matemtica tcitamente est
afirmando que cuando la variable X vara, ocasiona variaciones en la variable
Y, o, de manera ms breve, que X causa Y. La relacin Yi = a + b X i nos
definir a partir de ahora una relacin causal entre las variables X e Y.

Yi = a + b X i

X
Y

La variable Y se denomina variable endgena, variable explicada o


variable dependiente, mientras que la variable X se denomina variable exgena,
variable explicativa o variable independiente.
Si se dispone de n > 2 observaciones de X e Y es posible ajustar una recta
como la definida por Yi = a + bX i a esos puntos. Ajustar una recta supone
determinar de alguna manera los valores de a y b. La recta que se quiere ajustar
se conoce en estadstica como recta de regresin simple.
La idea de ajustar una recta lleva implcito el supuesto de que los
puntos no se encontrarn de una manera exacta sobre ella. Al aceptar la existencia
de una relacin causal entre dos variables debemos suponer que la situacin
normal ser que la relacin no sea exacta. Las observaciones se pueden llegar a
situar ms o menos sobre una recta, aunque difcilmente lo harn de manera
perfecta. Esto hace que en el modelo debamos distinguir entre los valores
observados de Yi y los valores que le correspondern en el ajuste: a + bX i , que

no tienen por qu coincidir. La diferencia entre el valor observado y el valor


ajustado define el error del ajuste:

ei = Yi a b X i

En funcin de este criterio de aproximacin (de ajuste) de la recta al


conjunto de los puntos, la relacin causal la podemos escribir con mayor sentido
de la realidad como:

Yi = a + bX i + ei
donde el ltimo trmino define la discrepancia entre el valor observado y la recta
ajustada.
En este marco de causalidad resulta necesario disponer no slo de una
medida del grado de asociacin (el coeficiente de correlacin lineal), sino adems
de los valores numricos de a y b. Estos parmetros tienen un inters especial en
las relaciones econmicas, especialmente el segundo. La pendiente de la recta, b,
mide el impacto que una variacin en una unidad de la variable X tiene sobre la
variable Y. Matemticamente podemos escribir:

Yi
=b .
Xi
En trminos discretos, se entiende que b, la pendiente de la recta, mide la
variacin que sufre Y, como consecuencia de la variacin en una unidad de X.
El valor de a no es ms que el valor que toma la variable Y cuando el
valor de X es cero. Se conoce como trmino independiente de la regresin.
En la grfica 1 se muestra, para una recta con pendiente positiva, cules
son las interpretaciones grficas de a y b. El trmino independiente es la distancia
desde el centro de coordenadas al punto de corte del eje de ordenadas. La
pendiente de la recta mide la importancia de los cambios de Y consecuencia de las
variaciones de X. En el caso de una asociacin negativa entre las dos variables, el
valor de b sera inferior a cero, para proporcionar una pendiente negativa. En este
caso, al aumentar en una unidad el valor de X, Y disminuira en una cantidad igual
a b. Si la pendiente de la regresin tomara un valor igual a cero, la relacin causal
no existira, puesto que variaciones de la variable exgena no afectaran a la
variable endgena y la recta adoptara una posicin horizontal.

Grfica 1

100
90
80
70
60

50
40
30
20
10

0
0

10

12

14

16

18

20

22

24

26

28

30

32

De la propuesta de causalidad a la recta de regresin. El ejemplo ms


utilizado en economa para ilustrar una relacin causal sencilla es la existente
entre consumo y renta. La teora del consumidor ms bsica propone una relacin
del tipo:

Consumoi = f ( Renta i ) ,

en la que se enuncia que, para un consumidor i, sus niveles del consumo


dependen de su nivel de renta. Esta relacin puede desear medirse. El primer paso
ser definir una forma funcional concreta. Si se visualizan los datos para distintas
observaciones puede comprobarse si una forma lineal resulta adecuada. En ese
caso (y slo en ese caso) la relacin entre las variables podr escribirse
empleando la recta de regresin:

Consumoi = a + b Rentai
El coeficiente b es, en este caso, la propensin marginal al consumo
(pmgc), que tendr el mismo valor para todas las observaciones:

pmgc =

consumoi
=b
renta i

Desde la perspectiva de la teora econmica, la pmgc de un bien normal


debe ser positiva, e inferior a la unidad. Con ello se afirma que al incrementar en
una unidad la renta, el consumo tambin aumentar, pero lo har en menos de una
unidad, es decir, que el incremento es menos que proporcional. Para un
economista, disponer de estimaciones de la pmgc (del clculo de b en una

muestra de observaciones) resultar interesante por diversas razones. Confirmar,


por ejemplo, si sus expectativas tericas sobre el valor del parmetro se cumplen.
Le permitir hacer predicciones sobre en cunto aumentar el consumo de un
bien si aumenta la renta. O le permitir clasificar los bienes en funcin del valor
calculado de b. Veamos otros ejemplos.
Un analista puede estar interesado en valorar cmo afectan a las ventas
de su empresa las fluctuaciones cclicas de la economa. La hiptesis de
causalidad que establece es que el ciclo econmico tiene un efecto directo en las
fluctuaciones de las ventas de su empresa. Esta relacin causal la puede
establecer relacionando las variaciones de las series del pib nacional y las tasas de
variacin de las ventas:

pibt pibt 1
ventast ventast 1

=f
ventast 1
pibt

De nuevo, una manera de valorar esta relacin causal puede ser la de


concretarla en una forma lineal:

ventast ventast 1
pibt pibt 1

=a +b

ventast 1
pibt

De manera que b definira el impacto, si es que efectivamente existe, de


las fluctuaciones de la economa en la evolucin de las ventas de la propia
empresa.
Otra relacin a la que los economistas prestan especial atencin es la
existente entre la cantidad consumida de un bien y el precio del mismo. La teora
establece que la relacin causal es la siguiente:

q dA = f ( p A )

en donde q dA indicara la cantidad demandada del bien A y p A el precio del


mismo. La relacin funcional es de tipo inverso: a mayor precio del bien, menor
ser la cantidad demandada del mismo. Normalmente, la representacin terica
de esta relacin es la de una curva como la de la grfica 2. Con ello se quiere
reflejar que las respuestas a variaciones en los precios no son uniformes. Si el
precio es muy bajo, las cantidades demandadas son altas y pequeos aumentos en
los precios producirn importantes disminuciones de la demanda. Por el
contrario, cuando el precio es muy alto, fuertes variaciones en el mismo
provocarn impactos relativamente poco importantes en las cantidades
demandadas. Desde el punto de vista de nuestro actual planteamiento estadstico,
deberamos conformarnos con ajustar una lnea recta a esta curva. Se trata de una
aproximacin incorrecta, pero que puede ser vlida en el tramo central de la
curva. Este intervalo ser probablemente para el que dispondremos de
observaciones muestrales reales.

Grfica 2

Puede ser aceptable, por tanto, ajustar en una muestra concreta de


observaciones la relacin lineal:

q dA = a + b p A
El parmetro b medir ahora el impacto que una variacin unitaria en el
precio tiene sobre la cantidad demandada. La medida de este efecto es importante
como informacin del comportamiento del propio mercado de una empresa, a la
vez que el ajuste puede permitir hacer predicciones de cul es la cantidad
demandada que uno puede esperar para un nivel determinado del precio.
Una empresa puede estar interesada en analizar la relacin existente
entre los costes en uno de sus inputs productivos y el volumen de produccin. En
general, los costes en un input pueden descomponerse en una parte fija, que no
depende del nivel de produccin, y de una parte variable, que dependera del
volumen de actividad:

costes = CF + CV

donde CF indicara los costes fijos y CV los costes variables. Esta ltima cantidad
podra, por tanto, expresarse como:

CV = f ( produccin )
Si la relacin entre costes variables y el volumen de produccin es
proporcional, es decir, si al aumentar la produccin los costes variables aumentan
proporcionalmente, se tendr:

CV =CVMe produccin ,

siendo CVMe un parmetro constante, que definira los costes variables medios
(los costes variables por unidad de producto, que seran constantes fuese cul
fuese la cantidad producida). Bajo esta hiptesis, podra calcularse la siguiente
regresin:

costes = a + b produccin

en donde a seran los costes fijos y b estimara los costes variables medios. Esta
informacin le facilitar (siempre que realmente los costes variables medios sean
constantes) el impacto que futuros aumentos en la produccin ocasionarn en los
costes variables asociados a cada uno de los inputs.

Obtencin de a y b por mnimos cuadrados ordinarios. Mnimos cuadrados


ordinarios (mco) es un criterio estadstico que permite obtener valores de a y b en
una muestra concreta. La idea de este criterio, en general, es que si se desea
calcular el valor de un parmetro, y se dispone nicamente de una muestra de
observaciones, se utilizar como una aproximacin a ese parmetro (una
estimacin del parmetro) aquel valor que, de alguna manera, minimice el error
global (el error al cuadrado o la suma de errores elevados al cuadrado) que se
comete. En este apartado explicaremos la aplicacin de esta criterio en el caso de
la regresin lineal simple.
Suponga que disponemos de una muestra con n=10 observaciones de las
variables X e Y, y que a partir de ella queremos averiguar los valores de a y b.
Para seguir nuestra argumentacin nos basaremos en las observaciones recogidas
en el cuadro 1. La nube de puntos que forman estas observaciones es la que se
muestra en la grfica 3.
Cuadro 1
X 17 20
Y 59 71

Grfica 3

23
72

24
79

24
77

25
81

25
79

26
89

28
95

30
93

100

90

80

70

60

50
16

18

20

22

24

26

28

30

32

Si calculamos el coeficiente de correlacin entre las dos variables X, Y el


resultado que se obtiene muestra la fuerte correlacin positiva, con un valor igual
a 0,9567. La forma de la nube y el alto coeficiente de correlacin sugieren que
sera apropiada una relacin lineal entre las dos variables. Supongamos que
establecemos la existencia de una relacin causal entre X e Y, en la que X causa
Y:

Yi = a + b X i

i =1 ,...,10

Cmo podemos calcular los valores de a y b? La manera de hacerlo es


establecer un criterio estadsticamente lgico para ajustar la recta y derivar a
partir de l las expresiones matemticas, que podrn aplicarse en cada muestra
concreta.
El criterio que se va a exponer aqu se conoce como mnimos cuadrados
ordinarios y aunque puede justificarse de manera ms o menos formal,
emplearemos aqu una argumentacin muy sencilla.
Si queremos ajustar una recta en la nube de puntos de la grfica 3
podramos imaginar por dnde debera pasar esa recta. De una manera visual, si
tuviramos que trazar una recta sobre los puntos, intentaramos que la recta se
asentara de manera equilibrada sobre ellos. En la grfica 4 se dibujan tres
posibles rectas. Resulta obvio que ni la recta 1 ni la 2 son alternativas atrayentes.
Ninguna de ellas es representativa de la nube de puntos, al contrario que la 3, que
parece ajustarse razonablemente bien a la nube.

Esta impresin visual puede formalizarse algo ms. Lo que hace que una
de las rectas resulte mejor que las otras es la impresin que uno recibe de que
pasa ms cerca de la mayora de los puntos. Si los puntos no estn alineados de
manera exacta sobre una recta, ningn ajuste conseguir pasar por todos ellos,
pero puede ajustarse una recta que pase lo ms cerca posible de todos los puntos.

Grfica 4
100

90

3
80

70

2
60

50
16

18

20

22

24

26

28

30

32

Para concretar esta idea de mxima proximidad de la recta al conjunto de


los puntos retomemos el concepto de error del ajuste. Para una observacin
concreta, el error del ajuste lo hemos definido como la distancia desde un punto a
la recta, en el sentido en que se representa en el grfico 5, en el que ei indicara el
error en el ajuste de la observacin i-sima.

Si para la observacin i-sima se observa el par

regresin asignara a esa observacin el par ( X i , a +b X i ) .

(X

, Yi ) , la recta de

El error del ajuste, ei , se define como la distancia entre el valor


observado de la variable endgena para un individuo, Yi , y el valor que la recta
asignara a ese individuo: a + b X i .

Grfica 5
100

ei
90

80

ei
70

60

50
16

18

20

22

24

26

28

30

32

Para las n observaciones se producir un error. Nuestro objetivo es que,


globalmente, el conjunto de los errores sea mnimo. Formalmente:
Una manera de reducir el error global de un ajuste es emplear los valores
de a y b que minimizan la siguiente expresin:

ei2 = (Yi a b X i )
n

i =1

i =1

Este es un problema que, matemticamente, no resulta difcil de resolver.


Se trata de obtener el mnimo de una funcin. Los parmetros a y b deben
elegirse para que se alcance el mnimo de la suma de cuadrados de los errores:
n

i =1

i =1

mnimo ei2 = (Yi ab X i )

a, b
Derivando la funcin con respecto a los parmetros a y b, igualando a
cero y resolviendo el sistema obtendremos los valores que minimizan la suma de
los errores elevados al cuadrado. Este principio se denomina de mnimos
cuadrados ordinarios (mco) y las frmulas para a y b se conocen, en un contexto
estadstico ms amplio que el que contemplamos ahora, como estimadores por
mnimos cuadrados ordinarios.

(Un parntesis para la recta de regresin poblacional. En la introduccin de este


libro hemos discutido brevemente la diferencia entre un parmetro y un
estadstico. Por parmetro, decamos, se entiende cualquier caracterstica
numrica de una poblacin que la determina en algn sentido: indicando su
posicin central, su dispersin, simetra, etc. Estas caractersticas numricas
pueden calcularse tambin en una muestra, en un conjunto de observaciones
representativas de la poblacin, calificndolas normalmente como estadsticos.
Estos estadsticos (por ejemplo la media o la varianza muestrales) pretenden ser
buenas aproximaciones a los valores de los parmetros, de manera que muchas
veces nos referimos a los estadsticos del anlisis muestral como estimadores de
los parmetros poblacionales. La media muestral sera un estimador de la media
poblacional, la varianza muestral lo sera de la varianza poblacional. De la misma
manera, la recta de regresin que ajustamos en un conjunto de observaciones
muestrales podra considerarse como una estimacin de una recta poblacional.
Dicho de otra manera, si dispusiramos de todas las observaciones de la
poblacin podramos establecer los valores de a y b vlidos para toda la
poblacin. Si slo disponemos de una muestra nos deberemos contentar con
estimar esos parmetros. En este sentido se ha empleado en el prrafo anterior la
palabra estimadores para referirnos a los valores de a y b que minimizan la suma
de cuadrados de los errores).

Derivacin de las expresiones de mco para a y b. Obtendremos ahora las


expresiones de a y b que verifican el objetivo de minimizar la suma de cuadrados
de los errores:
n

mnimo ei2 = (Yi ab X i )


i =1
i =1
a,b

La suma anterior se puede expresar como:


n

e = (Y a bX )
2
i

i =1

i =1

= ( Yi 2 + a 2 + b 2 X i2 2aYi 2bX i Yi + 2abX i ) =


i =1

= Yi + na + b
2

i =1

X
i =1

2
i

i =1

i =1

i =1

2a Yi 2b X i Yi + 2ab X i

Las condiciones de primer orden para un mnimo sern:


n

ei2
i =1

ei2

=0

i =1

=0

Que se concretan en el siguiente sistema:


n

ei2

n
n
i =1

= 2 n a 2 Yi + 2 b X i = 0
a

i =1
i =1
n
ei2
n
n
n
i =1
2
b = 2 b X i 2 X i Yi + 2a X i = 0
i =1
i =1
i =1

Este sistema se conoce como sistema de ecuaciones normales. A partir


de la primera ecuacin podemos obtener el valor de a en funcin del an
desconocido b:
n

2na 2 Yi + 2b X i = 0
i =1
n

i =1

na Yi + b X i = 0
i =1
n

Y
i =1

i =1
n

X
i =1

+b
=0
n
n
a y +b x =0
a = y b x

La solucin depende de un valor de b. Para obtenerlo sustituiremos la


anterior solucin en la segunda ecuacin:
n

i =1

i =1

2 b X 2 X i Yi + 2 a X i = 0
i =1

2
i

Dividiendo por dos:


n

i =1

i =1

i =1

b X i2 X i Yi + a X i = 0
Sustituyendo el valor de a = y b x :
n

i =1

i =1

b X X i Yi + ( y bx ) X i = 0
i =1

2
i

Reordenando trminos y sacando factor comn de b:


n

i =1

i =1

b X i2 X i Yi + y X i b x X i = 0
i =1

i =1

b X i2 x X i X i Yi + y X i = 0
i =1
i =1
i =1
i =1
n

n
n
n
n
b X i2 x X i = X i Yi y X i
i =1
i =1
i =1
i =1
n

Y teniendo en cuenta que

X
i =1

=n x :

n
n 2
2
b X i n x = X i Yi n y x
i =1
i =1

Se obtiene:
n

b=

X Y n y x
i =1
n

i i

X
i =1

2
i

n x2

Las expresiones mco de a y b son:


n

a = y b x ;

b=

X Y n y x
i =1
n

i i

X
=

2
i

n x2

Una expresin alternativa para b es la siguiente:

( X
n

i =1

b=

x )(Yi y )

(X

x)

i =1

Que se deriva inmediatamente a partir de las equivalencias de los


siguientes sumatorios:

( X i x )(Yi y ) = X i Yi n x y
n

i =1

i =1

( X
n

i =1

x ) = X i2 nx 2
2

i =1

Advierta que b puede tambin escribirse en relacin a dos estadsticos


conocidos, la covarianza entre las variables X e Y y la varianza de la variable X:

( X
n

b=

i =1

x )(Yi y ) n

(X
n

i =1

x)

covar ( X , Y )
var ( X )

s xy
s x2

(Para que efectivamente estemos obteniendo expresiones de a y b que


minimizan la suma de cuadrados de los errores, deberamos tambin demostrar
que efectivamente se trata de un mnimo, es decir, que las segundas derivadas son
mayores que cero. Este resultado queda como ejercicio para el lector interesado).

Ejemplos de clculo de la recta de regresin. Retomemos los datos del cuadro


1 para aplicar las frmulas que hemos obtenido de a y b. Fjese que tal como se
han definido las frmulas, primero ser preciso calcular b y, a partir de su valor,
aplicar la frmula para a. Con las observaciones originales precisaremos calcular
n

previamente: x , y ,

X i Yi ,
i =1

Cuadro 2

X
i =1

2
i

Xi

Yi

X i Yi

X i2

17
20
23
24
24
25
25
26
28
30

59
71
72
79
77
81
79
89
95
93

1003
1420
1656
1896
1848
2025
1975
2314
2660
2790

289
400
529
576
576
625
625
676
784
900

X Y X Y X
i

i =1

i =1

242

795

24,2

79,5

i =1

i i

19587

i =1

2
i

5980

Una vez obtenidos los sumatorios y valores medios, la aplicacin de las


expresiones es inmediata:
n

b=

s xy
s

2
x

X Y n x y
i =1
n

i i

X
i =1

2
i

nx2

19587 10 24,2 79,5


= 2,815534
5980 10 24,2 2

a = y b x = 79,5 2,815534 24,2 = 11,36408


En la grfica 6 se muestra el ajuste de la recta, manteniendo idntica
escala en los dos ejes.
El punto de corte de la recta con el eje de coordenadas es
aproximadamente igual a 11, siendo el valor de la pendiente de la recta alto,
cercano a tres. Una recta que definiera un ngulo de 45 describira una relacin
causal en la que el aumento de una unidad en la variable exgena supondra el
aumento de una unidad en la variable exgena. Un valor de 2,8, como el
calculado aqu, supone que la respuesta en la variable endgena ser
comparativamente ms fuerte. La mayor pendiente de la recta refleja esa reaccin
superior.
Grfica 6

Y
100
90
80
70
60
50
40
30
20
10
0
0

10

20

30

40

50

60

70

80

90

100

Para familiarizarnos con las expresiones de clculo de la recta de


regresin se presentan a continuacin un par de ejercicios numricos adicionales.

Nuestro primer ejemplo utiliza los datos del cuadro 3.


Cuadro 3
X 17 20 23 24 24 25 25 26 28 30
Y -21 -20 -23 -24 -30 -31 -25 -18 -27 -29

Es recomendable representar los datos, para valorar si es adecuado ajustar


una recta. En la grfica 7 se puede observar la representacin de los puntos. La
relacin entre las dos variables muestra una pendiente negativa, aunque el ajuste
de una recta no parece tan adecuado como en el anterior ejemplo. Los datos
necesarios para calcular a y b aparecen en el cuadro 4.
Grfica 7
-16
-18
-20
-22
-24
-26
-28
-30

-32
16

18

20

22

24

26

28

30

32

Cuadro 4

Xi

Yi

X i Yi

X i2

17
20
23
24
24
25
25
26
28
30

-21
-20
-23
-24
-30
-31
-25
-18
-27
-29

-357
-400
-529
-576
-720
-775
-625
-468
-756
-870

289
400
529
576
576
625
625
676
784
900

Xi

Yi

X i Yi

242

-248

-6076

24,2

-24,8

i =1

i =1

i =1

X
i =1

2
i

5980

A partir de los mismos:


n

b=

s xy
s

2
x

X Y nx y
i =1
n

i i

X
i =1

2
i

n x2

6076 10 24,2 ( 24,8)


= 0,60194
5980 10 24,2 2

a = y b x = 24,8 ( 0,60194) 24,2 = 10,233


El ajuste de la recta se visualiza en la grfica 8. La pendiente estimada es
negativa e inferior, en valor absoluto, a la unidad. Un incremento en una unidad
en la variable exgena disminuira en 0,6 unidades el valor de la variable
endgena. Sin embargo, como se intua al representar las observaciones, la
imagen final no presenta un ajuste lineal tan apropiado como en el caso anterior.

Grfica 8

- 10

Y - 20

- 30

- 40
0

10

20

30

40

El siguiente ajuste se realiza sobre los datos del cuadro 5, representados en


la grfica 9.
Cuadro 5
X 17 20
Y
2
6

23
6

24
2

24
7

25
5

25
3

26
4

28
6

30
6

Grfica 9
8

1
16

18

20

22

24

26

28

30

32

La nube de puntos hace poco apropiado el ajuste lineal. Las estimaciones


del modelo se obtienen a partir del cuadro 6:
n

b=

s xy
s

2
x

X Y n x y
i i

i =1
n

X
i =1

2
i

n x2

1160 10 24,2 4,7


= 0,182848
5980 10 24,2 2

a = y b x = 4,7 0,182848 24,2 = 0,275081

Cuadro 6

Xi

Yi

X i Yi

X i2

17
20
23
24
24
25
25
26
28
30

2
6
6
2
7
5
3
4
6
6

34
120
138
48
168
125
75
104
168
180

289
400
529
576
576
625
625
676
784
900

X Y X Y X
i =1

i =1

242

47

24,2

4,7

i =1

i i

1160

i =1

2
i

5980

La pendiente de la recta tiene un valor cercano a cero, indicando con ello


que las variaciones en la variable exgena no afectan de una manera importante a
la variable endgena. En la grfica 10 se muestra la imagen del ajuste.

Grfica 10
35
30
25
20
Y
15
10
5
0
0

10

15

20

25

30

35

Ajustes no lineales. A pesar de la insistencia en la forma lineal del modelo de


regresin, es posible ajustar relaciones no lineales utilizando este modelo lineal.
Esta aparente paradoja es sencilla de deshacer si pensamos en que las variables X,
Y del modelo pueden ser cualquier valor numrico. Si definimos X como la
inversa de una variable, por ejemplo Z:

X=

1
Z

la relacin lineal que calcularemos:

Yi = a + b X i

expresara tcitamente la siguiente:

1
Yi = a + b .
Zi
Una relacin de econmica de este tipo es la denominada curva de
Phillips, que relaciona las tasas de variacin de los salarios con las tasas de
poblacin en paro:

1
Tasa de variacin salarios t = a + b
Tasa de parot

, b < 0

La relacin indicara que a medida que crece la tasa de desempleo, la tasa


de variacin de los salarios disminuira (ya que se supone una pendiente
negativa), hasta alcanzar un valor mnimo, situado en a.
Otros ejemplos de relaciones no lineales, que pueden linealizarse de
manera inmediata son los siguientes:

Yi = a X ib

log ( Yi ) = log (a ) + b log ( X i )

Yi = e a + b X i

log ( Yi ) = a + b X i

log ( Yi ) = a + b

Yi = e

a + b

1
Xi

1
Xi

Siempre es posible un buen ajuste? Un buen ajuste responde a la idea de


conseguir una recta que genere un error global reducido. El criterio de mco
garantiza que el dibujo de la recta pasa lo ms cerca posible de todos los
puntos, pero, an as, el error que se comete puede ser importante. Es preciso
medir de alguna manera si el ajuste es correcto, es decir, si la recta ha conseguido
una descripcin suficiente de la nube de puntos. Antes de hacerlo, sin embargo,
resulta conveniente considerar algunas de las razones por las que no siempre se
consigue una descripcin adecuada:
(1) La existencia de una relacin no lineal. Antes de realizar el clculo de la
recta es necesario representar los datos para valorar si un ajuste lineal tiene
sentido. Si la relacin es no lineal (cuadrtica, cbica, etc.) no ser lgico ajustar
una recta.
(2) Elementos que perturban la relacin causal. Al iniciar el modelo de ajuste
lineal ya hemos aceptado que difcilmente encontraremos los puntos sobre una
recta y que, por ello, era preciso definir una forma de aproximarnos a ella. Las
observaciones se sitan de una manera ms o menos errtica con referencia a lo
que sera la relacin determinista definida por el ajuste. El error del ajuste (la
diferencia entre el valor observado y el valor ajustado) proviene de diversas
fuentes: el hecho de que la relacin entre las variables no es exacta, el trabajar
con una muestra y no con la poblacin, la aproximacin a la forma funcional, etc.
Como consecuencia de todo ello, el ajuste no es todo lo bueno que uno podra
desear.
(3) La existencia de otras variables exgenas. La regresin lineal que hemos
estudiado la hemos denominado regresin lineal simple. El calificativo pretende
incidir en que se supone que nicamente una variable es la causa de las
variaciones de la variable endgena. Es obvio que esto no ser cierto en muchas
ocasiones. El modelo ms general que uno puede encontrar definir diversas
variables causales. En un contexto de linealidad hablaramos de un modelo de
regresin mltiple en el que k variables influiran en la endgena:

Yi = a 0 + a1 X 1i + a 2 X 2i + ... + a k X ki

Y
X1 X2

Xk

Si la relacin causal es ms compleja de la que se disea en el modelo


simple, el ajuste resultar incompleto, ya que todas las variables causa no
contempladas pasaran a formar parte del ruido de la relacin, produciendo una
descripcin insuficiente de la asociacin causal.

Y
X1 X2

Xk

De las tres causas responsables de un mal ajuste, tanto la primera (la


forma funcional es no lineal) como la ltima (hay ms variables causales) seran
fruto de una equivocacin y, por tanto, deben eludirse. La forma de evitar el
primer error puede ser plantear algn ajuste no lineal entre las variables. Si el
problema es la existencia de mltiples causas, la alternativa debera ser el ajuste
de una regresin mltiple.
El modelo de regresin lineal simple supone la existencia de una relacin
causal de tipo lineal entre nicamente dos variables. Si la relacin causal incluye
ms variables o si la relacin no es lineal, el modelo est incorrectamente
especificado y, en consecuencia, las conclusiones que se extraigan del ajuste no
sern fiables.
Aceptando que los factores de ruido en el modelo son de carcter no
sistemtico y que por su propio contexto siempre van a estar presentes, se hace
precisa una medida de la bondad del ajuste, un estadstico que nos permita valorar
hasta qu punto la recta que dibujamos es aceptable en cuanto a la descripcin
que hace de los datos. Antes de centrarnos en esta medida destacaremos algunas
caractersticas del error del ajuste.

Algunas propiedades del error del ajuste. El error del ajuste se ha definido
como:

ei = Yi a bX i .
Si los valores de a y b se obtienen por mco, el error tiene dos
caractersticas especiales. La primera es que la media del error, para todas las
observaciones muestrales, es cero. La segunda, que la covarianza entre la variable
exgena y el error es tambin igual a cero. Las dos propiedades se deducen del
sistema de ecuaciones normales, a partir del cul se han obtenido las expresiones
de mco.
Las caractersticas del error del ajuste cuando a y b se calculan
basndonos en mco son:
(1) La media del error del ajuste es cero:
n

e=

i =1

=0.

(2) El error del ajuste tiene covarianza nula con la variable exgena:

(X
n

s xe =

i =1

x )(ei e )
n

=0.

Medida de bondad del ajuste: Coeficiente de determinacin R2


La medida ms comn de bondad del ajuste es el coeficiente de
determinacin o coeficiente de bondad del ajuste y se simboliza como R 2 . Este
estadstico mide hasta qu punto la variable exgena de la regresin determina la
evolucin de la variable endgena. Su definicin se basa en los conceptos de
variacin total, variacin explicada y variacin no explicada.

(Y y )
n

La variacin total ( VT ) se define como

i =1

, y es la variacin

total de la variable dependiente. Esta cantidad se puede descomponer en dos


partes: (1) la variacin explicada ( VE ), que es la parte de la variacin total que

el modelo de regresin es capaz de explicar; (2) la variacin no explicada ( VE ),


que es aquella parte de la variacin total que la relacin causal no es capaz de
explicar:

VT = VE + VE
La interpretacin de esta descomposicin es la siguiente. La variable
endgena presenta una variacin total (una dispersin respecto a su valor medio),
que se desea explicar mediante una relacin causal. El modelo supone que las
variaciones de la variable exgena explican las variaciones de la endgena. De
hecho, el modelo se puede escribir:

Yi = a + bX i + ei

y = a + bx

Yi y = b ( X i x ) + ei

Cuando X vara (respecto a su valor medio) se produce como efecto una


variacin en Y (tambin medida respecto a su media). El valor y signo del
impacto depender del valor y signo de b. Junto a esta variacin explicada por la
relacin causal, en ei existe una parte de la variacin total de Y que no puede
explicarse por las variaciones de X: es la variacin no explicada por el modelo.
En la grfica 11 se muestran los datos del cuadro 1. Las lneas de
referencia en el espacio de coordenadas se corresponden a la media de cada una
de las variables X e Y. La idea que subyace a la relacin causal es la de que
cuando una observacin se sita, por ejemplo, por encima de la media de la
variable exgena, la consecuencia de ello ser que la variable endgena se alejar
tambin de su valor medio. Si la asociacin entre las variables es positiva
(pendiente positiva), un valor por encima (por debajo) de la media en X se
acompaar de un valor por encima (por debajo) de la media en Y. Si la pendiente
es negativa, un valor por encima (por debajo) de la media de X se acompaar de
un valor por debajo (por encima) de la media de Y.

Grfica 11

100

Yi y

90

80

Xi x

70

60

x
50
16

18

20

22

24

26

28

30

32

El modelo de regresin estructura una relacin lineal sobre la nube de


puntos, pudindose distinguir entre la distancia vertical desde el punto a la recta
de ajuste y la distancia desde la recta al punto medio. La distancia desde el punto
al valor medio, Yi y , se vera as descompuesta, como se muestra en la grfica
12, en un componente de error, ei , y una parte de la variacin explicada por la
recta, b( X i x ) .
Grfica 12
100

ei

90

b( X i x )
80

70

60

50
16

18

20

22

24

26

28

30

32

El coeficiente de determinacin se define como la proporcin entre la


variacin explicada y la variacin total:

VE
VT

R2 =

O dicho de otra manera, como el porcentaje en que el ajuste de la recta


explica las variaciones de la endgena. As, por ejemplo, un valor del R 2 igual a
0,60, indicar que el ajuste explica el 60% de la variacin total de la variable
endgena.
El clculo de la variacin explicada y de la variacin no explicada se
basa en la siguiente igualdad (que no demostraremos aqu), que relaciona la VT ,
la VE y la VE .
n

(Y y )
i =1

= b 2 ( X i x ) + ei2
2

i =1

i =1

donde las variaciones explicada y no explicada son:

VE = b

( X
i =1

x)

VE = ei2

i =1

El coeficiente de bondad del ajuste puede calcularse, por tanto, como:

b2 ( Xi x)
n

R2 =

VE
=
VT

i =1
n

(Y y )
i =1

Tambin se expresa en funcin de la variacin no explicada:

R2 =

VE VT V E
VE
=
=1
VT
VT
VT

Lmites del coeficiente de determinacin. Por la propia definicin del


coeficiente de determinacin, ste tiene como lmites 0 y 1. Se trata de dos
situaciones extremas: el lmite inferior R 2 = 0 corresponde a un modelo en el que

la variacin explicada sera cero, mientras que el lmite superior R 2 = 1


correspondera a un modelo capaz de explicar toda la variacin de la endgena.

0 R 2 1
R 2 = 0 El modelo NO es EXPLICATIVO
R 2 =1 El modelo EXPLICA toda la variacin de Y
La interpretacin de estos lmites resulta clara si tenemos en cuenta la
definicin del coeficiente. Si la variable X no explica las variaciones de Y ser
porque el parmetro b es igual a cero:

Yi y = b ( X i x ) + ei
Yi y = 0 ( X i x ) + ei
Yi y = ei

De manera que toda la variacin respecto al valor medio quedara


definida como error del ajuste: la recta no tiene pendiente y las variaciones de X
no van acompaadas de variaciones de Y.
Si las variaciones de X explican completamente las variaciones de Y ser
porque no existe error del ajuste:

Yi y = b ( X i x )

Y, como consecuencia, la variacin total ser igual a la variacin


explicada:

(Y y )
n

i =1

=b

(X
n

i =1

x)

El siguiente cuadro resume estas conclusiones.

{ VE = 0 VT = V E }
{ V E = 0 VT =VE }

R2 =0
R 2 =1

La imagen de un ajuste que no explica nada es la de una recta plana,


con pendiente nula, en la que las variaciones de X no causaran variaciones en Y.

En las grficas 13 y 14 se muestran dos ajustes que presentaran una pendiente


nula y cuyo coeficiente de determinacin sera cero.

Grfica 13

Grfica 14

26

26

24

24

22

22

20

20

18

18

16

16

14
16

18

20

22

24

26

28

30

32

14
16

18

20

22

24

26

28

30

32

El coeficiente de determinacin igual a 1 se dar cuando los puntos estn


situados de manera exacta sobre una recta con pendiente distinta de cero. No
importa si la pendiente de la recta es positiva o negativa. Lo que es importante es
que se tratara de situaciones en las que de manera exacta se cumplira:

Yi = a + b X i ,

b0

siendo los errores de ajuste igual a cero, para todas las observaciones. Ya hemos
indicado que esta circunstancia de correlacin exacta es difcil encontrarla con
variables econmicas reales, aunque no es extrao encontrarse con variables que
mantienen una relacin casi perfecta.
De hecho es en los valores intermedios del intervalo 0 R 2 1 en donde
nos encontraremos normalmente el coeficiente de determinacin de nuestros
modelos. Cuanto ms cerca de cero se encuentre el valor del coeficiente, peor
consideraremos el ajuste realizado. Cuanto ms cerca se encuentre el R 2 de la
unidad, mejor ser el ajuste. Existe una cierta ambigedad con relacin al valor
del R 2 a partir del cul considerar que el modelo tiene un buen ajuste. Es
suficiente con que el modelo explique un 40% de la variacin total de Y, o es
necesario que como mnimo explique un 70%? Un porcentaje de variacin
explicada igual al 10%, debe interpretarse como que el modelo es inservible?
En principio, como para otros estadsticos, no se debe pretender que stos
puedan dar ms informacin que la que contienen. El porcentaje de variacin que
el analista puede considerar como suficiente (tanto para declarar que tiene un
buen ajuste, como para decidir que se trata de un mal ajuste) depende del
problema y de la muestra que se est analizando.

Anlisis grfico de los errores del ajuste. Si se est interesado en comprobar


que el ajuste de una recta ha sido adecuado, la representacin de los errores del
ajuste, con respecto a la variable exgena puede ayudar a ello. La idea es que si
una recta es una forma funcional adecuada, los errores del ajuste se comportarn
de una manera no sistemtica, mientras que si la forma funcional no es correcta o
si existen otras variables causales que se han omitido, el error del ajuste tendr un
comportamiento sistemtico.
En las grficas 15 a 18 se muestran varias grficas que relacionan los
errores con la variable exgena de diversas regresiones. Advierta que en las dos
ltimas se puede detectar un comportamiento sistemtico en la posicin de los
errores. La presencia de errores sistemticos debera ponernos en la pista de
algn error en los supuestos del modelo (bien en la forma funcional, bien en la
existencia de otras variables causales).

Grfica 15

Grfica 16

8
6

4
2
2
0

Errores del ajuste

Errores del ajuste

0
-2

-4

-6
16

18

20

22

24

26

28

30

-2
-4
-6

32

16

18

20

22

24

26

28

30

32

28

30

32

Grfica 17

Grfica 18

60

40

20

-20

-40
16

18

20

22

24

26

28

30

32

Errores del ajuste

Errores del ajuste

-2

-4

-6

-8
16

18

20

22

24

26

Existe alguna relacin entre el coeficiente de correlacin y el coeficiente de


determinacin? El coeficiente de determinacin mide la bondad del ajuste de
una recta a una nube de puntos. El coeficiente de correlacin lineal mide el grado
de asociacin lineal entre dos variables. Un coeficiente de correlacin lineal igual
a 1 o 1 indica que los puntos estn situados sobre una recta (con pendiente
positiva o negativa, respectivamente) y esta situacin se reflejara en el
coeficiente de determinacin con un valor igual a 1 (ajuste perfecto de la recta).
Si el coeficiente de correlacin lineal o el coeficiente de determinacin son
iguales a 0, no existir una relacin lineal entre las dos variables.
Se da, por lo tanto, una relacin entre rxy y R 2 , que formalmente es la
siguiente:

R 2 = rxy2

R 2 = rxy

Si no existe una relacin lineal entre X e Y : rxy = 0 y R 2 = 0 .


Si se da una relacin positiva exacta: rxy =1 y R 2 = 1 .
Si se trata de una relacin negativa exacta: rxy = 1 y R 2 = 1 .

Dos ejemplos numricos sobre el coeficiente de determinacin

En el cuadro 7 aparecen los datos sobre los que queremos ajustar la recta de
regresin.
Cuadro 7
X 17 20 23 24 24 25 25 26 28 30
Y 48 60 68 71 66 70 74 83 83 89

La imagen de las observaciones se muestra en la grfica 19. Dada su


posicin en el plano, la intencin de ajustar una recta a estos datos resulta
apropiada. Los datos necesarios para realizar el ajuste y obtener la medida del
coeficiente de determinacin se ofrecen en el cuadro 8.

Grfica 19

90

80

70

60

50

40
16

18

20

22

24

26

28

30

Cuadro 8

Xi

Yi

X i2

Yi 2

X i Yi

17
20
23
24
24
25
25
26
28
30

48
60
68
71
66
70
74
83
83
89

289
400
529
576
576
625
625
676
784
900

2304
3600
4624
5041
4356
4900
5476
6889
6889
7921

816
1200
1564
1704
1584
1750
1850
2158
2324
2670

X Y X
i =1

i =1

242

712

24,2

71,2

i =1

2
i

5980

Y
i =1

52000

X Y
i =1

i i

17620

32

El clculo de los parmetros de la recta ser:

( X
n

b=

i =1

x )(Yi y )

( X
n

i =1

x)

X Y n x y
i i

i =1
n

X
i =1

2
i

n x2

17620 10 24,2 71,2 389,6


=
= 3,1521
123,6
5980 10 24,2 2

a = y b x = 71,2 3,1521 24,2 = 5,0809

Empleando el valor de b puede obtenerse la variacin explicada y el


coeficiente de determinacin:
n
n

2
VE =b 2 ( X i x ) =b 2 X i2 n x 2 =3,15212 59801024,2 2 =1228,06
i =1
i =1

VT = (Yi y ) = Yi 2 n y 2 =520001071,2 2 =1305,6


2

i =1

i =1

R2 =

1228,06
= 0,9406
1305,6

El R 2 indica que la variacin explicada en el ajuste representa una


proporcin del 94,06% de la variacin total, por lo que debe concluirse que la
recta describe bien el comportamiento de la variable endgena. La pendiente de la
recta es positiva y mayor que uno: un aumento en una unidad en la variable
exgena ocasionar un incremento en algo ms de tres unidades en la endgena.
Para comprobar que no nos pasa desapercibida alguna irregularidad en la
regresin se han representado los errores del ajuste en la grfica 20, no
detectndose en ellos ningn comportamiento de tipo sistemtico.
Grfica 20
8

Errores del ajuste

-2

-4

-6
16

18

20

22

24

26

28

30

32

Realizaremos un nuevo clculo numrico con los datos del cuadro 9. La


representacin de las variables (en la grfica 21) ilustra una relacin negativa.
Dada la dispersin de los datos, el ajuste no deber ser especialmente correcto,
puesto que los puntos se alejan de la imagen ideal de la recta. En el cuadro 9 se
muestran tambin los valores precisos para realizar los clculos del modelo.
Cuadro 9

Xi

Yi

X i2

Yi 2

X i Yi

17
20
23
24
24
25
25
26
28
30

35
34
32
30
31
33
35
33
31
28

289
400
529
576
576
625
625
676
784
900

1225
1156
1024
900
961
1089
1225
1089
961
784

595
680
736
720
744
825
875
858
868
840

X Y X
i =1

i =1

242

322

24,2

32,2

i =1

2
i

i =1

5980

10414

X Y
i =1

i i

7741

Grfica 21
36

34

32

30

28

26
16

18

20

22

24

26

El clculo de los parmetros de la recta ser:

28

30

32

( X i x )(Yi y )
n

b=

i =1

( X
n

i =1

x)

X Y nx y
i i

i =1
n

X
i =1

2
i

n x2

7741 10 24,2 32,2 51,4


=
= 0,41586
123,6
5980 10 24,2 2

a = y b x = 32,2 + 0,41586 24,2 = 42,264

Y para obtener la variacin explicada, la variacin no explicada y el


coeficiente de determinacin:
n
n

2
2
VE =b 2 ( X i x ) =b 2 X i2 nx 2 =( 0,41586) 59801024,2 2 =21,3753
i =1
i =1

VT = (Yi y ) = Yi 2 n y 2 =104141032,2 2 =45,6


2

i =1

i =1

VE = VT VE = 45,6 21,3753 = 24,225


21,375
R2 =
= 0,4687
45,6
El modelo explica el 46,87 % de la variacin total de la endgena.
La representacin de los errores aparece en la grfica 22. La imagen
muestra una cierta componente sistemtica, al aparecer dos series de errores
continuas con el mismo signo (primero negativos y despus positivos). Esta
forma de los residuos podra sealar la omisin de alguna variable causal que no
se ha tenido en cuenta en el modelo simple.
Grfica 22
4

Errores del ajuste

-1

-2

-3
16

18

20

22

24

26

28

30

32

Ejemplo 1. En la grfica 23 se muestra la serie de turistas


alemanes que han visitado una determinada zona turstica durante los
ltimos once aos. En la grfica adems de la serie histrica se muestra
el ajuste de una recta por mco. La serie muestra una clara tendencia
lineal, que aunque no pueda extrapolarse hacia un futuro lejano, permite
realizar una prediccin para el ao siguiente. Para ello deben, en primer
lugar, calcularse los valores a y b de la recta de regresin. En el cuadro
10 aparece la informacin necesaria.
Grfica 23

Nmero de turistas alemanes (en miles)

5000

4000

3000

2000

1000
1

10

11

ao

Cuadro 10

Xi

Yi

X i Yi

X i2

Yi 2

1
2
3
4
5
6
7
8
9
10
11

1897,6
2054,3
2063,2
2231,2
2682,2
2868,3
3130,7
3339,4
3635,5
4008
3934,2

1897,6
4108,6
6189,6
8924,8
13411
17209,8
21914,9
26715,2
32719,5
40080
43276,2

1
4
9
16
25
36
49
64
81
100
121

3600885,76
4220148,49
4256794,24
4978253,44
7194196,84
8227144,89
9801282,49
11151592,4
13216860,3
16064064
15477929,6

X
i =1

i Yi

X
i =1

2
i

Y
i =1

2894,96

216447,2

506

98189152,4

Los coeficientes de la recta sern:


n

( X i x )(Yi y ) X iYi n x y

b= i =1

(X
i =1

x )

= i =1n

X
i =1

2
i

n x 2

216447,2 11 6 2894,96
=
506 11 6 2

25379,84
= 230,726
110

a = y b x =2894,96 230,726 6 = 1510,604


Y las variaciones explicada, total y el coeficiente de bondad del ajuste:
n
n

2
VE =b 2 ( X i x ) =b 2 X i2 n x 2 =
i =1
i =1

2
2
=(230,726) 506 11 6 = 5855793,6

VT = (Yi y ) = Yi 2 n y 2 =98189152,411 2894,96 2 = 6000424,983


i =1

i =1

R2 =

VE
5855793,6
=
= 0,976
VT 6000424,983

El alto valor del coeficiente de determinacin confirma el buen


ajuste de la tendencia lineal.
La prediccin para el ao siguiente, el ao 12, ser:

Y12prediccin = 1510,604 + 230,726 12 = 4279,316


Que el resultado de la prediccin sea correcto depender del
mantenimiento de la tendencia. Normalmente mtodos de prediccin de este tipo
pueden ser tiles si la prediccin es a corto plazo, pero no tendra sentido hacer
predicciones a medio o largo plazo con esta tcnica.

Ejemplo 2. En la grfica 24 se relaciona el nmero de turistas de


una nacionalidad llegados al Reino Unido con la evolucin del tipo de
cambio entre sus monedas. El ndice del tipo de cambio se ha definido
con base 100 en 1990, respecto al mismo, un valor de 90 indicara que la
libra est ms barata para los turistas, mientras que un valor de 110
correspondera a una libra ms cara. En la grfica se representa el ajuste
lineal, mostrando cmo cuando la libra se fortalece el nmero de turistas
disminuye.
Grfica 24
1200000

1100000

Nmero Turistas

1000000

900000

800000
90

100

110

120

130

ndice del tipo de cambio

Cuadro 11

Xi

Yi

X i Yi

X i2

Yi 2

100
95,12
92,68
97,56
109,76
124,39
129,27
126,83
114,63
109,76

1176
1117
1137
1058
1019
1039
901
862
862
823

117600,00
106249,04
105377,16
103218,48
111845,44
129241,21
116472,27
109327,46
98811,06
90332,48

10000,00
9047,81
8589,58
9517,95
12047,26
15472,87
16710,73
16085,85
13140,04
12047,26

1382976
1247689
1292769
1119364
1038361
1079521
811801
743044
743044
677329

X Y

X Y

1100 9994

1088474,60

i =1

i =1

i i

i =1

i =1

2
i

i =1

122659,356

10135898

110 999,4
Si se quiere cuantificar cul es el efecto de las variaciones del tipo
de cambio, podemos aproximar la relacin mediante un ajuste lineal y
discutir el valor de su pendiente. En el cuadro 11 se ofrecen los datos
necesarios y sus transformaciones (el nmero de turistas se presenta en
miles).
n

b=

(X
i =1

x )(Yi y )

(X
i =1

x )

X Y n x y
i =1
n

i i

X
i =1

2
i

n x

1088474,6 10 110 999,4 10865,4


=
= 6,54796
1659,356
122659,356 10 110 2

a = y b x =999,4 + 6,54796 110 = 1719,6756


VE =b 2

( X i x )2 =b 2 X i2 n x 2 =
i =1

i =1

=( 6 ,54796) (122659 ,356 10 110 ) = 71146 ,183


2

VT = (Yi y ) = Yi 2 n y 2 =1013589810 999,4 2 = 147894,4


i =1

i =1

R2 =

VE 71146,183
=
= 0,48
VT 147894,4

El incremento en una unidad del ndice del tipo de cambio supone


una disminucin de 6,55 en la variable endgena o, dado que el nmero
de turistas est medido en miles, de 6547 turistas de esa nacionalidad.

Ejemplo 3. Para valorar el servicio de restaurante de un hotel, se


ha realizado una pequea encuesta en la que se ha solicitado el nivel de
satisfaccin respecto al servicio de restaurante (1-nada satisfactorio, 10-

muy satisfactorio) y el nmero de veces que lo haban utilizado. Se desea


valorar si existe una relacin positiva entre el nivel de satisfaccin y el
grado de repeticin. En el cuadro 12, X es el nmero de veces que ha
usado el restaurante e Y el nivel de satisfaccin. Se propone realizar el
ajuste de una recta.

Cuadro 12

Xi

Yi

X i Yi

X i2

Yi 2

3
2
3
3
1
1
1
1
2

9
7
8
7
7
5
5
7
5

27
14
24
21
7
5
5
7
10

9
4
9
9
1
1
1
1
4

81
49
64
49
49
25
25
49
25

X Y X Y X
i

i =1

i =1

17

60

1,889

6,667

i =1

i i

120

i =1

2
i

39

Y
i =1

416

El clculo de los parmetros de la recta ser:


n

( X i x )(Yi y ) X iYi n x y

b= i =1

(X
i =1

x )

= i =1n

X
i =1

2
i

n x 2

1209 1,8896,667 6,6543


=
= 0,967
6,8851
399 1,889 2

a = y b x =6,667 0,9671,889=4,84

Aunque la regresin no puede interpretarse como una relacin causal


estricta, el valor de la pendiente permite una descripcin til de lo que ocurre en
la muestra. La pendiente indica que la relacin entre las dos variables es

positiva, puesto que el aumento en una unidad del nmero de visitas incrementa
en casi un punto el nivel de satisfaccin de la estancia.
La variacin explicada, variacin no explicada y el coeficiente de
determinacin sern:
n
n

2
2
VE =b 2 ( X i x ) =b 2 X i2 n x 2 =(0,967 ) 399 1,889 2 =6,438
i =1
i =1

VT = (Yi y ) = Yi 2 n y 2 =4169 6,667 2 =15,96


2

i =1

i =1

V E =VT VE =15,966,438= 9,522


R2 =

6,438
=0,403
15,96

El modelo explica el 40,3 % de la variacin total de la endgena,


sealando con ello que el grado de satisfaccin estara asociado al nivel de
repeticin, pero que sera preciso tener en cuenta otros factores explicativos.

Ejemplo 4. Anlisis de las caractersticas de los mercados


burstiles emergentes. Las distribuciones de los beneficios de los nuevos
mercados burstiles presentan formas ms asimtricas y con mayor
curtosis que las de los mercados consolidados. Bekaert et al. (1998), con
informacin de distintos mercados (vase el cuadro 13), plantean la
relacin entre el coeficiente de asimetra y dos variables que pueden
explicar su evolucin: el crecimiento de la economa del pas (medido por
el PIB, 1987:04-1997:03) y el valor de su mercado de capitales (millones
de $ USA, 1987:03).

Cuadro 13
Pas
Argentina
Brasil
Chile
Colombia
Grecia
India
Jordania
Malaisia

Tasa de
Coeficiente de
Crecimiento
Asimetra
PIB
3,30
0,30
0,20
3,70
0,30
3,40
1,60
4,10
1,80
1,90
0,70
4,50
0,20
6,90
-0,90
5,50

Mercado
Capitales
1,214
6,555
2,219
0,677
0,824
5,373
1,240
11,969

-1,00
3,70
5,611
Mxico
1,50
-0,60
0,576
Nigeria
1,20
6,50
0,643
Paquistn
0,70
1,80
1,495
Filipinas
2,40
2,80
1,591
Portugal
0,60
7,70
6,490
Corea sur
0,60
8,60
7,267
Taiwan
-0,20
6,40
2,004
Tailandia
1,00
4,10
0,487
Turqua
0,20
0,70
1,298
Venezuela
0,00
3,00
0,200
Zimbabwe
Para describir las relaciones se utiliza el modelo de regresin
simple. En las grficas 25 y 26 se muestran las nubes de puntos y la lnea
ajustada por mco.

Grfica 25
4
argentina
3
portugal
2

grecia
colombia

nigeria
1

filipinas

corea sur taiwan

chile
brasil
zimbabwe

venezuela
0

asimetra

paquistn

turquia
india

jordania
tailandia

mxico

-1

malaysia

-2
-2

crecimiento pib

Grfica 26

10

4
argentina
3
portugal
2

grecia
colombia
nigeria
paquistn
turquia
1
f ilipinas

india

corea surtaiwan

asimetra

venezuela
jordania chile
babwe
0
tailandia

brasil

malasia

mxico

-1

-2
0

10

12

14

mercado de capitales

Los valores de la pendiente de las regresiones simples y los coeficientes


de determinacin se derivan empleando las cantidades del cuadro 14.

Cuadro 14
Coeficiente
Mercado
PIB
asimetra
Capitales

Yi
3,3
0,2
0,3
1,6
1,8
0,7
0,2
-0,9
-1
1,5
1,2
0,7
2,4
0,6
0,6
-0,2

Xi

0,3
3,7
3,4
4,1
1,9
4,5
6,9
5,5
3,7
-0,6
6,5
1,8
2,8
7,7
8,6
6,4

Zi
1,214
6,555
2,219
0,677
0,824
5,373
1,240
11,969
5,611
0,576
0,643
1,495
1,591
6,490
7,267
2,004

X i Yi

X i2

0,99
0,74
1,02
6,56
3,42
3,15
1,38
-4,95
-3,7
-0,9
7,8
1,26
6,72
4,62
5,16
-1,28

0,09
13,69
11,56
16,81
3,61
20,25
47,61
30,25
13,69
0,36
42,25
3,24
7,84
59,29
73,96
40,96

Z i Yi

Zi2

Yi 2

4,006
1,474 10,89
1,311
42,968 0,04
0,666
4,924
0,09
1,083
0,458
2,56
1,483
0,679
3,24
3,761
28,869 0,49
0,248
1,538
0,04
-10,772 143,257 0,81
-5,611 31,483
1
0,864
0,332
2,25
0,772
0,413
1,44
1,046
2,235
0,49
3,818
2,531
5,76
3,894
42,120 0,36
4,360
52,809 0,36
-0,401
4,016
0,04

1
0,2
0

4,1
0,7
3

0,487
1,298
0,2

4,1
0,14
0

i =1

0,74737

3,94737

3,0386

16,81
0,49
9

Yi

36,23

X
i =1

0,487
0,260
0

0,237
1,685
0,04
n

2
i

411,76

Z Y Z
i =1

11,275

i =1

1
0,04
0
n

2
i

362,068

Y
i =1

30,9

Los clculos correspondientes a las respectivas pendientes sern:


n

bx =

X Y nx y
i i

i =1
n

X
i =1

2
i

n x2

36,23 10 3,94737 0,74737


= 0,1713
411,76 19 3,94737 2

bz =

Z Y nz y
i i

i =1
n

Z
i =1

2
i

nz2

11,275 10 3,0386 0,74737


= 0,17077
362,068 19 3,0386 2

Y los de los coeficientes de determinacin:

b 2 X i2 n x 2
2
2
VE
= ( 0,1713) (411,76193,94737 )= 3,396 =0,16739
R x2 = = ni =1
20,287
VT
30,9190,74737 2
Yi 2 n y 2
i =1

VE
=
R =
VT
2
z

n
b 2 Z i2 n z 2

i =1
n

Y
i =1

n y2

( 0,17077) 2 ( 362,068 19 3,0386 2 )


30,9 19 0,74737 2

5,4428
= 0,2683
20,287

Como conclusin, parece que, efectivamente, la caracterstica de


asimetra de los rendimientos es especfica de un tipo de mercado. Al
aumentar el grado de desarrollo del pas y/o aumentar la importancia del
mercado de capitales, la asimetra de la distribucin se corrige,
aproximndose a coeficientes de asimetra cercanos a cero o incluso
negativos. Una informacin que ofrecen los autores es que en el perodo
1971-1977, la media del coeficiente de asimetra en todos los mercados
mundiales era igual a 0,23. La tendencia de los mercados emergentes
debera ser, por tanto, hacia esta ligera asimetra negativa. Esta tendencia

estara marcada, entre otros, por factores como el crecimiento econmico


del pas y del propio mercado de capitales.

Ejemplo 5. Estructura del paro femenino: empleo a tiempo parcial.


El aumento del nmero de trabajadores con dedicacin parcial puede
haber tenido un efecto positivo en la reduccin del paro en la Unin
Europea (UE). Esta hiptesis puede ser cierta especialmente en el caso
de las mujeres, las principales demandantes de este tipo de empleo. Las
diferentes regulaciones del empleo a tiempo parcial (sobre todo en cuanto
a su nivel de proteccin frente al despido) no permiten, a priori, asegurar
la validez de esta hiptesis. Molt y Uriel (1997) analizan la relacin entre
la tasa de paro y la tasa de empleo a tiempo parcial, en ambos casos
para la poblacin femenina, empleando informacin del perodo 19871995. La relacin entre las dos variables y el ajuste por mco se muestra
en la grfica 27.

Grfica 27
30
Espaa

20
Italia

Irlanda
Francia
Blgica

tasa paro femenino

Grecia

Holanda
10

Dinamarca
Alemania
Reino Unido

Portugal

0
0

10

20

30

tasa empleo tiempo parcial

La recta ajustada es la siguiente:

40

50

60

70

(Tasa Paro Femenino) = 16,66 0,1513 (Tasa empleo femenino a tiempo parcial )
El valor del coeficiente de determinacin es igual a 0,20, es decir, que las
variaciones de las tasas de paro femenino vendran explicadas en un 20% por
las variaciones en la tasa de empleo con dedicacin parcial. Una conclusin que
parece desprenderse del anterior anlisis es la de que un aumento de la
flexibilidad del mercado laboral, favoreciendo el empleo a tiempo parcial, tendra
un impacto positivo, al reducir la tasa de paro femenina.

Ejemplo 6. Relacin entre el crecimiento del PIB de las Comunidades


Autnomas y el crecimiento espaol y comunitario. Raymond (1994) analiza la
evolucin del PIB de las Comunidades Autnomas espaolas (CCAA) con
relacin al crecimiento del PIB nacional y europeo. Una de las cuestiones que
plantea en su trabajo es hasta qu punto la evolucin de las CCAA es ms
sensible a lo que sucede en la Unin Europea, que a lo que ocurre en el conjunto
nacional. Su hiptesis inicial es que debera darse un esquema causal en el que
los shocks de crecimiento en el mbito europeo se trasladaran a la economa
espaola de una manera global. En una segunda etapa, la definicin de una
poltica coyuntural espaola afectara a las diecisiete autonomas. Su propuesta
para valorar esta hiptesis es la de realizar dos regresiones simples para cada
autonoma. En cada regresin, la variable endgena sera el crecimiento del PIB
(a precios constantes) de cada comunidad y, como variable explicativa,
apareceran bien el crecimiento del PIB nacional, bien el europeo (tambin a
precios constantes). En el caso de que su hiptesis sea cierta, el crecimiento de
las CCAA estara mejor explicado por el crecimiento espaol que por el europeo.
Los resultados que obtiene se reproducen en el Cuadro 15.

Cuadro 15

Crecimiento PIB CCAA


CCAA
Andaluca
Aragn
Asturias
Baleares
Canarias
Cantabria
Castilla-La Mancha
Castilla-Len
Catalunya

f (Crecimiento PIB espaol )

Pendiente
0,92
0,96
0,83
1,24
0,98
0,70
0,99
0,81
1,21

Correlacin
0,92
0,89
0,91
0,74
0,66
0,79
0,90
0,79
0,98

f (Crecimiento PIB europeo )

Pendiente
1.36
1,43
1,18
2,34
2,11
1,13
1,45
1,03
1,72

Correlacin
0,79
0,77
0,75
0,82
0,84
0,75
0,77
0,58
0,81

C. Valenciana
Extremadura
Galicia
Madrid
Murcia
Navarra
Pas Vasco
La Rioja

0,82
0,55
0,74
1,23
0,95
1,04
1,18
0,67

0,81
0,49
0,92
0,92
0,86
0,90
0,88
0,73

1,41
0,91
1,13
1,66
1,56
1,46
1,44
1,16

0,83
0,48
0,82
0,73
0,82
0,74
0,62
0,74

Como principales conclusiones Raymond (1994) apunta las siguientes:


Las CCAA, en general, presentan un alto grado de dependencia, tanto del
PIB nacional como europeo.
Las correlaciones entre el crecimiento del PIB de las CCAA y el crecimiento
del PIB espaol son superiores a las mantenidas con respecto a la Unin
Europea.
Baleares y Canarias son las nicas excepciones claras. Su dependencia del
turismo justificara este efecto especfico.
Entre las regresiones sobre el PIB espaol, las de Baleares, Catalunya,
Madrid, Navarra y el Pas Vasco presentan un coeficiente b superior a la unidad.
Esto debe interpretarse como que el efecto del crecimiento nacional tiene en
estas comunidades un impacto an mayor. Raymond (1994, pg. 56) sugiere
que para cada una de estas comunidades existe una explicacin individualizada.
As, en el caso del Pas Vasco puede ser la existencia de un fuerte sector
industrial ligado a la industria pesada; en Catalunya, la importancia de un sector
industrial muy sensible a la coyuntura econmica; en el caso de Madrid, la
existencia de un sector servicios dependiente de la evolucin del sector
industrial.

En consecuencia, puede afirmarse que las CCAA son altamente


dependientes de las fluctuaciones econmicas a escala nacional y europea. Al
ser las correlaciones con Espaa superiores, debe interpretarse que este es el
efecto principal, aunque ello no implica que el crecimiento europeo no deba ser
tambin una referencia en la evolucin de las CCAA.

Ejemplo 7. El crecimiento de los pases de la OCDE. Con datos de los


pases de la OCDE en el perodo 1960-1990, en este ejemplo se analiza si existe
alguna relacin entre el crecimiento del PIB y la posicin inicial de riqueza de la

que se parte. Aunque en este perodo se ha dado un proceso de convergencia


en los niveles de riqueza, no todos los pases han crecido con igual intensidad.
Son precisamente algunos de los pases que partan de posiciones no
especialmente buenas en el ndice PIB pc del ao 1960, los que han conseguido
las mejores tasas de crecimiento.
En el cuadro 16 se recoge un ndice del PIB per cpita del ao 1960 y las
tasas de crecimiento de esta variable entre 1960 y 1990. El ndice del PIB per
capita toma como referencia a EEUU, siendo el resultado de dividir el PIB per
capita de cada pas por el correspondiente a EEUU (ambos en dlares).
Para valorar la relacin entre la posicin relativa de riqueza y el
crecimiento econmico, se ajusta la siguiente regresin simple:

Tasa PIB pc = a + b PIB pc


Los datos necesarios para el clculo se presentan en el cuadro 17.

Cuadro 16

pas
Alemania
Australia
Austria
Blgica
Canad
Dinamarca
Espaa
Finlandia
Francia
Grecia
Holanda
Irlanda
Islandia
Italia
Japn
Luxemburgo

PIB per capita


1960
(USA=100)
67,73
67,25
52,03
53,27
66,59
63,17
31,76
48,57
58,81
18,97
63,50
31,22
50,05
47,23
29,91
75,18

Tasa
crecimiento
PIB per capita
1960-1990
2,65
2,22
3,21
3,08
2,84
2,56
3,75
3,45
2,94
3,96
2,40
3,49
3,44
3,44
5,39
2,62

75,13
50,10
20,77
67,85
67,26
97,20
17,43
100

N. Zelanda
Noruega
Portugal
Reino Unido
Suecia
Suiza
Turqua
EEUU

1,31
3,23
4,08
2,16
2,40
1,89
2,96
1,94

Cuadro 17
n

X i2

i =1

55,041

2,975

Yi 2
i =1

84019,975 229,493

X
i =1

Yi

3581,841

Los coeficientes del ajuste sern:


n

(X

b = i =1

x ) (Yi y )

(X
i =1

x)

X Y n x y
i

= i =1n

X
i =1

2
i

n x 2

3581,841 24 55,041 2,975 348,086


=
= 0,0307
84019,975 24 55,0412 11311,695

a = y b x =2,975 + 0,0307 55,041 = 4,665


Y el coeficiente de determinacin:

n
n

2
2
VE =b 2 ( X i x ) =b 2 X i2 n x 2 =( 0,0307 ) (84019,97524 55,0412 )=10,661
i =1
i =1

VT = (Yi y ) = Yi 2 n y 2 =229,49324 2,975 2 =17,078


i =1

i =1

10,661
R2 =
=0,624
17,078
En la grfica 28 se representa el ajuste de la tasa de crecimiento del PIB
per capita respecto al ndice de 1960. La posicin de partida describe, por tanto,
bastante bien cul es la tasa de crecimiento que los pases han alcanzado en el
perodo. Cuanto mejor situado estaba el pas en 1960, menor ha sido su tasa de
crecimiento en los siguientes aos. Resulta llamativo observar que de los seis
pases en peor posicin en 1960 (Espaa, Irlanda, Japn, Portugal, Grecia y
Turqua) cinco de ellos se encuentran entre los primeros en su tasa de

crecimiento (Japn, 1; Portugal, 2; Grecia, 3; Espaa, 4; Irlanda, 5).


Curiosamente, es EEUU, el pas con mayor nivel de riqueza, el que presenta una
de las menores tasas de crecimiento en el perodo.
Grfica 28
6

tasa crecimiento PIB per capita

1
0

20

40

60

80

100

120

PIB per capita, 1960 (USA=100)

Ejemplo 8. Convergencia econmica. Barro (1991) para valorar


empricamente la existencia de convergencia en los niveles de renta de
distintos pases, propuso realizar una regresin entre sus tasas de
crecimiento y los niveles de renta de los que partan:

(Tasa de crecimiento de la renta )

= + ( Nivel de renta )i

para i = 1,,n regiones.


Si el coeficiente es negativo (y normalmente inferior en valor
absoluto a uno) se podr interpretar que cuanto mayor es el nivel de renta
de un pas, menor ser su tasa de crecimiento. Dicho de otra manera, las
regiones ms pobres creceran ms que las ms ricas, obtenindose como
resultado final una convergencia en sus niveles de renta. Por el contrario,
si es mayor que la unidad, cuanto mayor fueran los niveles de variable,
mayores seran sus tasas de crecimiento. Para diversos pases y distintos
perodos de tiempo se han calculado unas tasas de convergencia bastante
parecidas (Sala-i-Martin, 1994), de alrededor del 2% anual (coeficiente
igual a -0,02).
Para cualquier variable, el concepto de -convergencia se puede definir
sobre un modelo como el siguiente:

log( yit ) log( yit 1 ) = a + b log( y t 1 ) + eit

La hiptesis de -convergencia estara de acuerdo con un valor de


la pendiente negativo. Indicando que la tasa de crecimiento de la variable

(el incremento de la variable en logaritmos) depende negativamente de


su nivel en el momento inicial del tiempo. Cuanto mayor sea el valor de la
pendiente (en trminos absolutos) mayor ser la tendencia hacia la
convergencia.
Friedman (1992) sugiere que la evolucin de la renta de un
conjunto de pases puede seguirse mejor analizando las
transformaciones del coeficiente de variacin a lo largo del tiempo. El
coeficiente de variacin es una medida de dispersin. Si se calcula para
un conjunto de pases en distintos momentos del tiempo y se detecta que
su valor disminuye, se tendr un indicador de convergencia en sus
niveles de renta. Sala-i-Martin (1994) denomina a este tipo de
convergencia -convergencia, mostrando cmo ambos conceptos estn
relacionados.
La relacin entre -convergencia y -convergencia se puede establecer, en primer
lugar, modificando el modelo de regresin de la siguiente manera:

log( yit ) log( yit 1 ) = a + b log( y t 1 )

log( yit ) = a + b log( y t 1 ) + log( y t 1 )


log( yit ) = a + ( b + 1) log( y t 1 )

En segundo lugar, definiremos la varianza sobre la variable


transformada en logaritmos:

1 n
s = log( yit ) log( y t )
n i =1
2
t

Sustituyendo en ella la expresin del logaritmo de la variable (y de su


valor medio), tendremos:

st2 =

1 n
log( yit ) log( y t )
n i =1

)=
2

(
)=
1
= (a + ( b + 1) log( y ) a ( b + 1) log( y ) ) =
n
1
= ((b + 1) (log( y ) log( y ) )) =
n
=

1 n
a + (b + 1) log( yit 1 ) a (b + 1) log( yt 1 )
n i =1

it 1

i =1

t 1

i =1

it 1

t 1

1 n
= (b + 1) log( yit 1 ) log( y t 1 )
n i =1
2

= (b + 1) st21
2

Es decir que la varianza en un momento del tiempo t se puede


expresar en funcin de la varianza en el momento t-1. La pendiente b,
que define la convergencia en la regresin aparece tambin en la
relacin. Puede comprobarse que cuanto ms prximo este b a 1, ms
rpida ser la convergencia, puesto que menor ser la dispersin de la
variable en el tiempo. Si b fuese positiva no se dara -convergencia y
tampoco convergeran las varianzas, pues cada vez sera mayor la
dispersin de la variable en el tiempo.

Ejemplo 9. Anlisis del cambio en el salario medio industrial de las


regiones espaolas: 1978-1990. En este ejemplo reproduciremos parte
del trabajo de Prez Domnguez (1995) que analiza la convergencia de
los salarios en las comunidades autnomas espaolas. En el cuadro 18
se muestra un ndice de los salarios industriales medios del ao 1978
para las comunidades espaolas (media nacional igual a 100). Se
dispone tambin de la tasa de variacin de esta variable, para el perodo
1978-1990 y se desea comprobar si ha existido en esta etapa un proceso
de convergencia.
El ajuste por mco del modelo que nos permitir verificar si se ha
producido la convergencia en los salarios industriales ser el siguiente:

(Tasa variacion salario)

= a + b Salarioi

Los resultados necesarios para el clculo de a y b y el


correspondiente coeficiente de determinacin se ofrecen en el cuadro 19.
Cuadro 18

CCAA

Asturias

Pas Vasco

Salario
industrial
medio 1978
(media
nacional
igual a 100)
127,97
123,31

Tasa de
variacin
1978-1990
2,827
2,966

Madrid
Cantabria
Catalunya
Navarra
Aragn
Castilla-Len
Andaluca
Canarias
Galicia
Valencia
La Rioja
Murcia
Baleares
Castilla La Mancha
Extremadura
Fuente: Prez Domnguez
Encuesta Industrial del INE.

111,74
3,119
106,11
2,869
103,86
2,979
103,22
2,858
96,46
3,104
94,05
3,136
89,87
2,870
88,91
2,732
88,59
2,824
85,37
2,693
82,32
2,688
76,05
2,590
74,28
2,962
73,15
2,740
62,70
2,873
(1995), empleando la

Cuadro 19
n

X
i =1

i Yi

i =1

4578,949

2
i

153395,785

Y
i =1

140,657

93,409

2,872

Los valores de b y a sern:


n

b=

X
i =1
n

X
i =1

Yi n x y
2
i

nx2

4578,949 17 93,409 2,872


= 0,0036
153395,785 17 93,409 2

a = y b x = 2,872 0,0036 93,409 = 2,5357

Y el coeficiente de determinacin ser:

VE
=
R =
VT
2

b 2 X i2 n x 2
i =1

Y
i =1

n y

0,0036 2 (153395,785 17 93,409 2 )


140,657 17 2,872 2

= 0,15

El ajuste explica un 15% de la variacin total, con un parmetro b


positivo. En la grfica 29 se representan las observaciones y la recta

ajustada. La conclusin que se deriva del anlisis es la de que, durante


este perodo, no se ha producido en las comunidades autnomas una
convergencia en los salarios de la industria.

Grfica 29
3,2
Cast.-Len
Aragn

Madrid

3,1

Crecimiento salario medio (1978-1990)

3,0

Catalunya

Baleares

2,9

Extremadura

Andaluca

Pas Vasco

Cantabria
Navarra
Asturias

Galicia
2,8
Cast.-Mancha

Canarias
Valencia
La Rioja

2,7

Murcia

2,6

2,5
50

60

70

80

90

100

110

120

130

140

Salario medio (1978)

Ejemplo 10. Esperanza de vida en la OCDE. En el cuadro 20 se


dispone de la informacin de la esperanza media de vida en los distintos
pases de la OCDE (calculada en el ao 1989). La intensidad de la
inversin sanitaria en cada pas puede ser un factor explicativo de las
diferentes esperanzas de vida. Como variables cercana a ese concepto,
en el cuadro 20 aparece el nmero de camas por mil habitantes. Se
plantea explicar la esperanza de vida en funcin del nmero de camas.
En el cuadro 21 se muestran los valores necesarios para realizar el
ajuste, que finalmente se representa en la grfica 30.
Cuadro 20
Camas por
Esperanza
mil
Pas
de vida
habitantes
76,70
9,90
Australia
75,60
10,70
Austria
74,80
8,30
Blgica
76,80
6,90
Canad
75,10
6,10
Dinamarca

74,90
77,10
75,90
76,20
77,20
74,40
76,00
78,70
74,60
77,10
74,50
76,20
74,10
76,40
77,20
77,60
75,40
75,90
75,00

Finlandia
Francia
Alemania
Grecia
Islandia
Irlanda
Italia
Japn
Luxemburgo
Holanda
Nueva Zelanda
Noruega
Portugal
Espaa
Suecia
Suiza
Turqua
UK
EEUU

13,50
10,20
10,90
5,20
14,80
6,40
7,50
15,60
12,50
11,70
9,00
15,30
4,70
4,40
13,30
9,90
2,10
6,50
5,10

Cuadro 21
n

X
i =1

9,1875

75,975

2
i

i =1

2355,21

138564,7

X
i =1

Yi

16799,23

Los valores de b y a sern:


n

X Y n x y

b= i =1n

X
i =1

2
i

n x 2

16799,23 24 9,1875 75,975 46,7425


=
=
= 0,142
329,366
2355,2124 9,1875 2

a = y b x =75,975 0,142 9,1875 = 74,67

Y el coeficiente de determinacin:

b 2 X i2 n x 2
0,142 2 2355,21 24 9,1875 2
i =1

2 VE
=
= 0,21
R = =
n
VT
138564,7 24 75,975 2
2
2
Yi n y

i =1

Grfica 30
79

Japn

78
Suiza
Holanda

Francia
77

Canad

Suecia

Australia

Espaa
Grecia

Esperanza de vida

Noruega
Italia

UK

76

Islandia

Alemania
Austria

Turqua
EEUUDinamarca

75

Finlandia

Blgica

Luxemburgo

N. Zelanda

Irlanda
Portugal
74
1

11

13

15

17

Camas (por mil habitantes)

Segn este anlisis descriptivo, el aumento del nmero de camas


por cada mil habitantes estara asociado a una mayor esperanza de vida.
Como conclusin del anlisis deberamos extraer que, efectivamente,
parece existir una relacin positiva entre la esperanza de vida y la
inversin del pas en sanidad si se mide sta mediante el nmero de
camas por mil habitantes. Incrementar en 10 las camas por cada mil
habitantes tendra como consecuencia el aumento de 1,42 aos en la
esperanza de vida.

BIBLIOGRAFA
Akdogan, H., 1997, International security selection under segmentation: Theory
and application, The Journal of Portfolio Management, vol. 24, n. 1, pgs. 8292.
Barro, R.J., 1991, Economic growth in a cross section of countries, Quaterly
Journal of Economics, n. vol. 106, n. 2, pgs. 407-443.
Bekaert, G., C.B. Erb, C.R. Harvey y T.E. Viskanta, 1998, Distributional
Characteristics of Emerging Market Returns and Asset Allocation, The Journal
of Portfolio Management, vol. 24 n. 2, Winter, pgs. 102-116.
Boyle, G.E. y T.G. McCarthy, 1997, A simple measure of -convergence,
Oxford Bulletin of Economics and Statistics, vol. 59, n. 2, pgs.257-264.
Camino, D., 1997, Efectos intrada y da de la semana en la Bolsa de Madrid.
Informacin y Volumen de contratacin, Revista Espaola de Financiacin y
Contabilidad, vol. XXVI, n 90, pgs. 51-75.
Domnech, R., M. Fernndez y D. Taguas, 1997, La fiscalidad sobre el trabajo y
el desempleo en la OCDE, Papeles de Economa Espaola, n. 72, pgs. 178191.
Ferruz, L. y J.L. Sarto, 1997, Revisin crtica de las medidas clsicas de
performance de carteras y propuesta de ndices alternativos. Aplicacin a fondos
de inversin espaoles (1990-1995), Boletn de Estudios Econmicos, vol. LII,
n. 162, Diciembre, pgs. 549-573.
Friedman, M., 1992, Do old fallacies ever die?, Journal of Economic
Literature, vol. 30, pgs. 2129-2132.
Govern Balear, 1991, El gasto turstico 1990, Direcci General dEconomia,
Palma de Mallorca.
Johnson, P. y G. Stears, 1998, Why are older pensioners poorer?, Oxford
Bulletin of Economics and Statistics, vol. 60, n 3, pgs. 271-290.
Juhn, C. y K.M. Murphy, 1996, Wage inequality and family labor supply,
Working Paper 5450, NBER Working Paper Series, Cambridge, MA.

Layard, R., S. Nickell y R. Jackman, 1996, Combating unemployment: is


flexible enough?, CEP Working Paper, 293, London School of Economics.
Martnez Abascal, E. y C. Cabezas, 1997, Correlacin entre Bolsas Mundiales.
A quin sigue el IBEX?, Anlisis Financiero, n. 73, 3er cuatrimestre, pgs. 3442.
Michaud, R.O., G.L. Bergstrom, R.D. Frashure y B.K. Wolahan, 1996, Twenty
years of International Equity Investing, The Journal of Portfolio Management,
vol. 23, n. 1, pgs. 9-22.
Molt, M.L. y E. Uriel, 1997, El problema del paro en la Unin Europea por
sexos, Papeles de Economa Espaola, n. 72, pgs. 122 a 136.
Norusis, M.J., 1991, The SPSS Guide to Data Analysis for SPSS/PC+, 2nd
Edition, SPSS Inc., Chicago.
Pena, B., J. Callealta, J.M. Casas, A. Merediz y J. Nuez, 1996, Distribucin de
la Renta en Espaa, Ediciones Pirmide, Madrid.
Prez Domnguez, C., 1995, Cambios en el salario industrial medio de las
regiones espaolas: Un anlisis para el perodo 1978-1990, Boletn de Estudios
Econmicos, Vol. L, n. 155, agosto, pgs. 239-262.
Raymond, J.L., 1994, Condicionantes externos de la evolucin de la economa
espaola, Documentos de Trabajo n. 104/1994, Fundacin FIES.
Rute, A., 1997, Workers or employers: Who is shaping wage inequality?,
Oxford Bulletin of Economics and Statistics, vol. 59, n 4, pgs. 523-547.
Sala-i-Martin, X., 1994, Apuntes de Crecimiento Econmico, Antoni Bosch,
editor, Barcelona.

También podría gustarte