Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Errores Frecuentes en La Interpretación Del Coeficiente de Determinación Lineal
Errores Frecuentes en La Interpretación Del Coeficiente de Determinación Lineal
28/3/05
18:00
Pgina 315
Sumario:
I. Introduccin.
II. Coeficiente de determinacin: definicin e interpretacin.
III. Estructura de la informacin muestral.
IV. Grados de libertad del modelo.
V. Maximizacin del valor de R2.
VI. Conclusiones.
11 ELENA MARTINEZ
28/3/05
18:00
Pgina 317
I. INTRODUCCIN
Una de las caractersticas de la realidad, sobre todo de la econmica, es la relacin que existe entre las distintas magnitudes que la
definen. El anlisis de la covariacin entre variables, una Y, variable
dependiente o endgena, y una o varias variables X, independientes
o exgenas, supone obtener, en el caso de la regresin lineal, una
ecuacin lineal (o conjunto de ecuaciones lineales) que exprese la
relacin entre la variable endgena Y y las variables exgenas X. Se
trata de encontrar la lnea media que resuma o sintetice la dependencia entre la variable Y y las X, con la doble finalidad prctica de
explicacin o descripcin causal de la variable dependiente y previsin de los valores futuros de Y para valores dados de X. Como lnea
media o medida de posicin, debe acompaarse siempre de alguna
medida de dispersin, que demuestre el grado en el que el promedio
puede sustituir a las observaciones individuales de las que se obtuvo,
esto es, que permita medir la bondad del ajuste realizado.
El desarrollo de la informtica, la accesibilidad a ordenadores de
gran potencia y a programas estadsticos y economtricos que facilitan los clculos complejos han propiciado la generalizacin de los
estudios de correlacin y de regresin, incluso fuera del propio
mbito de la economa. De hecho, podemos encontrar Tesis Doctorales en las que el doctorando propone modelos de regresin para avalar las conclusiones de sus investigaciones, trabajos en los que los
autores se valen de modelos de regresin para expresar la preferencia de los votantes o estudios clnicos en los que se intenta explicar la
variacin en la calidad de vida de los pacientes en funcin de las
dosis tomadas de ciertos medicamentos.
El inconveniente de este uso generalizado lo encontramos cuando
el investigador hace (generalmente por falta de un conocimiento ms
profundo) un mal uso de las medidas y tcnicas de regresin. En este
artculo pretendo poner de manifiesto de una manera sencilla, a travs
de ejemplos numricos, algunos de los errores graves en el anlisis de
regresin a los que conduce la sola consideracin del coeficiente de
11 ELENA MARTINEZ
28/3/05
18:00
Pgina 318
318
11 ELENA MARTINEZ
28/3/05
18:00
Pgina 319
319
11 ELENA MARTINEZ
28/3/05
320
18:00
Pgina 320
A partir de esta varianza podemos definir una medida de dispersin relativa para la ecuacin de regresin, comparando la misma
con la varianza total de Y. As lo que conocemos como coeficiente de
determinacin lineal se define por la expresin:
Cualquiera de estas dos expresiones permiten interpretar el coeficiente de determinacin como la proporcin o porcentaje de variacin total en Y respecto a su media, que es explicada por el modelo
de regresin. Es usual expresar esta medida en tanto por ciento, multiplicndola por cien.
11 ELENA MARTINEZ
28/3/05
18:00
Pgina 321
321
11 ELENA MARTINEZ
28/3/05
18:00
Pgina 322
322
Dato
Variable X
Variable Y
(valor prefijado) (muestra 1)
Variable Y
(muestra 2)
Variable Y
(muestra 3)
4,84
3,96
5,28
5,99
5,21
5,73
6,67
6,28
6,19
5,92
7,21
6,68
7,88
7,93
7,17
6,84
8,55
7,67
10
8,26
9,03
8,17
11
8,95
9,39
8,62
12
10,71
9,62
9,11
10
13
9,83
9,73
11,9
11
14
10,52
9,76
10,13
TABLA I
Realizando el ajuste lineal por el mtodo de los mnimos cuadrados, para cada una de las tres muestras obtenemos la misma ecuacin
y el mismo valor para el coeficiente de determinacin:
11 ELENA MARTINEZ
28/3/05
18:00
Pgina 323
323
FIGURA I
FIGURA II
11 ELENA MARTINEZ
28/3/05
18:00
Pgina 324
324
FIGURA III
11 ELENA MARTINEZ
28/3/05
18:00
Pgina 325
Dato
Variable X
Variable Y
1
2
40
50
12
25,5
3
4
60
70
47,8
64,8
5
6
80
90
80,0
90,5
7
8
100
110
99,1
106,2
120
111,4
10
11
130
140
116,5
119,3
12
13
150
160
121,5
121,9
14
15
170
180
119,5
114,9
325
TABLA II
FIGURA IV
11 ELENA MARTINEZ
28/3/05
18:00
Pgina 326
326
FIGURA V
Por ltimo, repetimos el trabajo para las 15 observaciones muestrales. Slo en este caso (fig. VI) el valor de R2, que empieza a alejarse de 1 y la grfica, nos permite dudar que el ajuste lineal sea adecuado.
FIGURA VI
11 ELENA MARTINEZ
28/3/05
18:00
Pgina 327
327
Observemos que para k > 1, R2< R2, lo cual implica que a medida
que el nmero de variables exgenas aumenta, R2 ajustado aumenta
menos que R2 no ajustado. Observemos que, en este caso, (k > 1), si
11 ELENA MARTINEZ
28/3/05
18:00
Pgina 328
328
Ahora bien, debemos tener en cuenta que la utilizacin de cualquiera de los coeficientes alternativos propuestos, R2 ajustado o R2
corregido tiene problemas propios de interpretacin y no resuelve
siempre las deficiencias de R2.
V. MAXIMIZACIN DE R2
En ocasiones los investigadores tratan de maximizar R2, es decir,
escogen el modelo para el cual la R2 es ms elevada. Pero esto puede
ser peligroso por varios motivos. En primer lugar, en el anlisis de
regresin el objetivo no es obtener un valor elevado de R2, sino obtener estimadores precisos de los verdaderos coeficientes de regresin
poblacional. En el anlisis emprico no es raro encontrarnos con
valores altos de R2, pero tampoco que encontremos que alguno de los
coeficientes de regresin no son estadsticamente significativos o
muestran signos contrarios a los esperados a priori. El investigador
4. THEIL, H., Introduction to Econometrics, Prentice-Hall, Englewood Cliff s ,
New York 1978.
5. GOLDBERGER, A. S., A Course in Econometrics.Harvard , University Press,
Cambridge 1991.
11 ELENA MARTINEZ
28/3/05
18:00
Pgina 329
329
11 ELENA MARTINEZ
28/3/05
18:00
Pgina 330
330
11 ELENA MARTINEZ
28/3/05
18:00
Pgina 331
331
que recoge cmo en trminos generales la recta de regresin ajustada resume o describe los datos.
Los problemas de interpretacin surgen cuando intentamos que el
coeficiente de determinacin avale la dependencia entre variables y,
a partir de ella, predecir o extrapolar, en el tiempo o en el espacio, la
recta de regresin. En este sentido, si R2 es alto se considera que el
ajuste es vlido y que la ecuacin obtenida representa adecuadamente la relacin cuantitativa entre las variables, pudiendo, por tanto,
aplicarse para determinar los valores de una de ellas, conocidas las
dems.
Este razonamiento es el que desvirta el uso y la interpretacin
del coeficiente de determinacin lineal. Medida que, a pesar de las
deficiencias que presenta, no debe ser desechada como medida de
evaluacin complementaria. Por otra parte, siempre que su interpretacin se ajuste a su definicin, su utilizacin ser correcta.
VI. BIBLIOGRAFA
ACHEN, C. H., Interpreting and Using Regression., Dage Publicaciones,
California 1982, pp. 56-67.
ASCOMBE, T. W., Graphs in Statistical Analisys, en The American Statis tician, 27 (1973) 17-21.
GOLDBERGER, A. S., A Course in Econometrics. Harvard, University Press,
Cambridge 1991.
GRANGER, C., y NEWBOLD, P., R2 and the Transformation of the Regression
Variables, en Journal of Econometrics, vol. 4 (1976) 205-210.
GUJARATI, D. N., Econometra, Mc Graw-Hill, Mxico 2003.
HERNNDEZ ALONSO, J., Uso y abuso del coeficiente de determinacin,
en ESIC Market, 79 (1993) 77-92.
LPEZ URQUA, J., y CASA ARUTA , E., Estadstica Intermedia, VicensVives, Madrid 1969.
NOVALES, A., Econometra, Mc Graw-Hill, Madrid 1998.
Estadstica y Econometra, Mc Graw-Hill. Madrid. 1996.
RAYMOND, J. L.; ANGULO, J., y REPILADO, A., Relaciones de causalidad en
economa y criterios estadsticos para detectar su existencia, Instituto
de Estudios Fiscales, 16 (1982).
THEIL, H., Introduction to Econometrics, Prentice-Hall, Englewood Cliffs,
New York 1978.