Está en la página 1de 7

11 ELENA MARTINEZ

28/3/05

18:00

Pgina 315

Anuario Jurdico y Econmico Escurialense, XXXVIII (2005) 315-332 / I S S N: 1133-3677

Errores frecuentes en la interpretacin del


coeficiente de determinacin lineal

Elena MARTNEZ RODRGUEZ

Real Centro Universitario


Escorial-Mara Cristina
San Lorenzo del Escorial

Resumen: El objetivo de este trabajo es evidenciar, de forma sencilla a


travs de ejemplos numricos, algunos de los graves errores que se cometen
en el anlisis de regresin, al abusar de la interpretacin del coeficiente de
determinacin como nica medida de la bondad del ajuste del modelo lineal estimado a un conjunto de datos.
Abstract: The aim of this project is to show, in an easy way and using
numerical examples, some of the important mistakes committed in the
interpretation of the regression analysis, due to the overuse of the determination coefficient as the one an only tool to measure the goodness fit of
linear model estimated for a set of data values.
Palabras clave: Coeficiente de determinacin lineal, Regresin, Bondad del ajuste, Error de Interpretacin.
Keywords: linear determination coefficient, linear, Regression, Measure the goodness, Misunderstanding errors.

Sumario:
I. Introduccin.
II. Coeficiente de determinacin: definicin e interpretacin.
III. Estructura de la informacin muestral.
IV. Grados de libertad del modelo.
V. Maximizacin del valor de R2.
VI. Conclusiones.

11 ELENA MARTINEZ

28/3/05

18:00

Pgina 317

I. INTRODUCCIN
Una de las caractersticas de la realidad, sobre todo de la econmica, es la relacin que existe entre las distintas magnitudes que la
definen. El anlisis de la covariacin entre variables, una Y, variable
dependiente o endgena, y una o varias variables X, independientes
o exgenas, supone obtener, en el caso de la regresin lineal, una
ecuacin lineal (o conjunto de ecuaciones lineales) que exprese la
relacin entre la variable endgena Y y las variables exgenas X. Se
trata de encontrar la lnea media que resuma o sintetice la dependencia entre la variable Y y las X, con la doble finalidad prctica de
explicacin o descripcin causal de la variable dependiente y previsin de los valores futuros de Y para valores dados de X. Como lnea
media o medida de posicin, debe acompaarse siempre de alguna
medida de dispersin, que demuestre el grado en el que el promedio
puede sustituir a las observaciones individuales de las que se obtuvo,
esto es, que permita medir la bondad del ajuste realizado.
El desarrollo de la informtica, la accesibilidad a ordenadores de
gran potencia y a programas estadsticos y economtricos que facilitan los clculos complejos han propiciado la generalizacin de los
estudios de correlacin y de regresin, incluso fuera del propio
mbito de la economa. De hecho, podemos encontrar Tesis Doctorales en las que el doctorando propone modelos de regresin para avalar las conclusiones de sus investigaciones, trabajos en los que los
autores se valen de modelos de regresin para expresar la preferencia de los votantes o estudios clnicos en los que se intenta explicar la
variacin en la calidad de vida de los pacientes en funcin de las
dosis tomadas de ciertos medicamentos.
El inconveniente de este uso generalizado lo encontramos cuando
el investigador hace (generalmente por falta de un conocimiento ms
profundo) un mal uso de las medidas y tcnicas de regresin. En este
artculo pretendo poner de manifiesto de una manera sencilla, a travs
de ejemplos numricos, algunos de los errores graves en el anlisis de
regresin a los que conduce la sola consideracin del coeficiente de

11 ELENA MARTINEZ

28/3/05

18:00

Pgina 318

318

ELENA MARTNEZ RODRGUEZ

determinacin, denominado R2, como medida del grado de fiabilidad o


bondad del ajuste del modelo ajustado a un conjunto de datos.
En el captulo segundo se har una breve presentacin de este
coeficiente y de cul es su interpretacin. En los captulos siguientes
se abordan distintas situaciones en las que claramente una inadecuada interpretacin de R2 puede llevarnos a situaciones como mnimo
paradjicas. En concreto, en el captulo 3 se analizan los efectos que
estructuras determinadas del conjunto de observaciones, no detectadas por R2, pueden tener sobre las aplicaciones empricas de las tcnicas de regresin. El captulo 4 recoge la importancia que tiene trabajar con un nmero adecuado de grados de libertad del modelo
ajustado, separando los problemas derivados del tamao muestral de
los derivados del nmero de variables exgenas incluidas en el
modelo. El objetivo del captulo 5 es poner de manifiesto la inconsistencia de una prctica cada vez ms generalizada: buscar modelos
de regresin con valores de R2 elevados. Por ltimo, el captulo 6 se
dedica a conclusiones.
II. COEFICIENTE DE DETERMINACIN: DEFINICIN
E INTERPRETACIN

Si establecemos la hiptesis de que la mejor forma de describir la


relacin entre X e Y es mediante una lnea recta, esto es:

el problema inmediato que surge es el obtener los valores numricos


de los parmetros b1 y b2, que determinan la ecuacin lineal concreta que expresa la relacin de Y con X:

Para ello acudimos a mtodos de ajuste, bsicamente el mtodo


de mnimos cuadrados 1, obteniendo un sistema de dos ecuaciones

1. NOVALES, A., Econometra, Mc Graw-Hill, Madrid 1998.

11 ELENA MARTINEZ

28/3/05

18:00

Pgina 319

ERRORES FRECUENTES EN LA INTERPRETACIN DEL COEFICIENTE...

319

que permiten estimar los parmetros de la relacin.


Ahora bien, el carcter de lnea media, que discurre entre las
observaciones y que trata de sintetizarlas, que adquiere esta ecuacin
de regresin, obliga a que se acompae, como cualquier promedio,
de medidas de dispersin que permitan conocer el grado en que la
misma puede sustituir a las observaciones de las que se obtuvo.
As, podemos definir una primera medida de la dispersin de
las Yi observadas respecto a las medias Yi calculada como la suma
media de desviaciones cuadrticas entre ambas variables:

expresin que recibe el nombre de varianza residual, ya que la diferencia


mide el error (ei) que cometemos al sustituir el valor observado
por el valor estimado o ajustado mediante la regresin. A este error
se le denomina tambin residuo.
Valores elevados de esta varianza indican que los residuos son grandes, lo que significa que la lnea de regresin estimada se aleja mucho
de los valores observados y, por tanto, la ecuacin es poco representativa. Cuando es pequea, dicha representatividad es elevada.
Por definicin, se trata de una cantidad positiva (como cualquier
varianza) acotada superiormente por el valor de la varianza de la
variable observada Y, esto es:
La cota superior es fcil de demostrar 2, ya que en el modelo de
regresin lineal con ordenada se verifica la siguiente relacin entre
varianzas:

2. LPEZ URQUA, J., y CASA ARUTA, E., Estadstica intermedia, Vicens-Vives,


Madrid 1969.

11 ELENA MARTINEZ

28/3/05

320

18:00

Pgina 320

ELENA MARTNEZ RODRGUEZ

siendo SR2 la varianza explicada por la regresin, y cuya expresin


matemtica es:

A partir de esta varianza podemos definir una medida de dispersin relativa para la ecuacin de regresin, comparando la misma
con la varianza total de Y. As lo que conocemos como coeficiente de
determinacin lineal se define por la expresin:

Tambin podemos definir las relaciones anteriores mediante


sumas de cuadrados, de forma que

representa la variacin total de los valores reales de Y respecto de su


media muestral, recibiendo el nombre de suma total de cuadrados.

es la variacin de los valores estimados de Y alrededor de su media,


que se denomina suma de cuadrados debida a la regresin o explicada por la regresin. Y, por ltimo,

es la variacin residual o no explicada de los valores de Y alrededor


de la recta de regresin, y que se conoce como suma de residuos al
cuadrado. As el coeficiente R2 se puede definir como

Cualquiera de estas dos expresiones permiten interpretar el coeficiente de determinacin como la proporcin o porcentaje de variacin total en Y respecto a su media, que es explicada por el modelo
de regresin. Es usual expresar esta medida en tanto por ciento, multiplicndola por cien.

11 ELENA MARTINEZ

28/3/05

18:00

Pgina 321

ERRORES FRECUENTES EN LA INTERPRETACIN DEL COEFICIENTE...

321

Por su definicin, es una medida acotada, siendo sus lmites


0 R2 1
Un R2 igual a 1 significa un ajuste lineal perfecto, ya que
STC=SEC, esto es, la variacin total de la variable Y es explicada por
el modelo de regresin. El valor cero indica la no representatividad
del modelo lineal, ya que SEC = 0, lo que supone que el modelo no
explica nada de la variacin total de la variable Y.
De las dos medidas de la bondad del ajuste del modelo lineal presentadas, la varianza residual y el coeficiente de determinacin, es
preferible este coeficiente. ya que la primera es una medida de carcter absoluto, por lo que su cuanta depende de la propia magnitud de
la variable endgena. En cambio, R2 es una medida adimensional, de
fcil clculo e interpretacin, debido a su recorrido acotado entre
cero y uno, lo que conduce a una profusa utilizacin de la misma,
con interpretaciones abusivas en unos casos y errneas en otros. Sin
tratar de mermar la importancia de este coeficiente, R2 debe tomarse,
como veremos a lo largo de este artculo, como una primera medida,
a completar con otras, para evaluar el modelo lineal de regresin
ajustado y obtener conclusiones vlidas sobre su grado de ajuste al
conjunto de observaciones. Su exclusiva consideracin puede, en
muchas ocasiones, conducirnos a errores importantes en los anlisis
de regresin.
III. ESTRUCTURA DE LOS DATOS
Supongamos que deseamos conocer la relacin que existe entre
dos variables X e Y, que creemos es lineal, basndonos en la informacin proporcionada por una muestra de once observaciones conjuntas. Pero en lugar de trabajar con una nica muestra, vamos a realizar, para valores prefijados de la variable exgena X, tres mediciones de la respuesta de la variable endgena Y, es decir, vamos a
generar tres muestras diferentes 3. La tabla I muestra los valores prefijados de X, as como los valores obtenidos de Y, en cada muestra.

3. Ejemplo basado en un ejemplo propuesto por Anscombe.

11 ELENA MARTINEZ

28/3/05

18:00

Pgina 322

322

Dato

ELENA MARTNEZ RODRGUEZ

Variable X
Variable Y
(valor prefijado) (muestra 1)

Variable Y
(muestra 2)

Variable Y
(muestra 3)

4,84

3,96

5,28

5,99

5,21

5,73

6,67

6,28

6,19

5,92

7,21

6,68

7,88

7,93

7,17

6,84

8,55

7,67

10

8,26

9,03

8,17

11

8,95

9,39

8,62

12

10,71

9,62

9,11

10

13

9,83

9,73

11,9

11

14

10,52

9,76

10,13

TABLA I

Realizando el ajuste lineal por el mtodo de los mnimos cuadrados, para cada una de las tres muestras obtenemos la misma ecuacin
y el mismo valor para el coeficiente de determinacin:

A la vista del resultado analtica podemos afirmar que el ajuste


del modelo es bueno, ya que el valor de R2 = 0,8998 es cercano a 1,
en concreto, el 89,98% de la variabilidad de la variable Y a su promedio es explicado por el modelo de regresin ajustado. Podemos
concluir que el modelo lineal es adecuado para describir la relacin
que existe entre estas variables.
Sin embargo, si aadimos a esta informacin cuantitativa sobre la
que basamos nuestro anlisis, la representacin grfica de los datos y
la recta de regresin estimada para cada muestra veremos que la realidad es bien distinta.

También podría gustarte