Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Hipótesis
Estimación de los parámetros
Propiedades de los estimadores
Análisis de la bondad del ajuste
El modelo clásico sin ordenada en el origen
Podemos escribir la ecuación del modelo para cada una de las observaciones de la siguiente manera:
𝑦𝑦 = β0 + β1 x11 + β2 x21 + ⋯ . . +βk xk1 + ε1
⎧ 1
⎪ 2 = β0 + β1 x12 + β2 x22 + ⋯ . . +βk xk2 + ε2
𝑦𝑦
⋮
⎨ ⋮
⎪
𝑦𝑦
⎩ T = β0 + β x
1 1T + β2 2T + ⋯ . . +βk xkT + ε 𝑇𝑇
x
𝑌𝑌 = 𝑋𝑋𝑋𝑋 + 𝜀𝜀
Donde: 𝑌𝑌𝑇𝑇×1 = 𝑋𝑋𝑇𝑇×(𝑘𝑘+1) 𝛽𝛽(𝑘𝑘+1)×1 + 𝜀𝜀𝑇𝑇×1
𝑦𝑦1 1 𝑥𝑥11 𝑥𝑥21 … 𝑥𝑥𝑘𝑘1 𝜀𝜀1
𝛽𝛽0
𝑦𝑦 𝑥𝑥12 𝑥𝑥22 … 𝑥𝑥𝑘𝑘2 ⎞ 𝜀𝜀
⎛ ⎞ ⎛1
2
𝛽𝛽 ⎛ 2⎞
⎜ ⋮ ⎟ = ⎜⋮ ⋮ ⋮ ⋮ ⋮ ⎟ � 1� + ⎜ ⋮ ⎟
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
⋮
𝑦𝑦 𝑥𝑥1𝑇𝑇 𝑥𝑥2𝑇𝑇 … 𝑥𝑥𝑘𝑘𝑘𝑘 ⎠ 𝛽𝛽
⎝𝜀𝜀𝑇𝑇 ⎠
1 𝑘𝑘
⎝ ⎠ ⎝
𝑇𝑇
En resumen, en el MRLC se establecen las siguientes hipótesis: no existe error de especificación ni de medida,
el término de perturbación aleatoria es un ruido blanco, los regresores no son variables aleatorias y entre
ellos no existen relaciones lineales exactas y el tamaño de la muestra es mayor que el número de parámetros,
cuyos valores son desconocidos, pero se mantienen constantes.
Al establecer las hipótesis se deriva que el regresando en el MRLC es una variable aleatoria y sus
características dependerán solo de las características de la perturbación, que por hipótesis es un ruido
blando. Es decir:
𝑦𝑦𝑡𝑡 → 𝑣𝑣. 𝑎𝑎. 𝑡𝑡 = 1, 2, … . . , 𝑇𝑇
𝐸𝐸(𝑦𝑦t ) = β0 + β1 x1t + β2 x2t + ⋯ . . +βk xkt
𝑉𝑉(𝑦𝑦t ) = E (𝑦𝑦t − 𝐸𝐸𝑦𝑦𝑡𝑡 )2 = 𝐸𝐸( 𝑦𝑦𝑡𝑡 − β0 − β1 x1t − β2 x2t − ⋯ . . −βk xkt )2 = 𝐸𝐸(𝜀𝜀𝑡𝑡2 ) = 𝜎𝜎 2 ∀𝑡𝑡
𝑐𝑐𝑐𝑐𝑐𝑐(𝑦𝑦t , 𝑦𝑦𝑠𝑠 ) = E[ (𝑦𝑦t − 𝐸𝐸𝑦𝑦𝑡𝑡 )(𝑦𝑦s − 𝐸𝐸𝑦𝑦𝑠𝑠 )] = 𝐸𝐸(𝜀𝜀𝑡𝑡 ∙ 𝜀𝜀𝑠𝑠 ) = 0 ∀𝑡𝑡 ≠ 𝑠𝑠
Si denominamos errores a la diferencia entre los valores observados y estimados del regresando:
𝑒𝑒𝑡𝑡 = 𝑦𝑦𝑡𝑡 − 𝑦𝑦�𝑡𝑡 𝑡𝑡 = 1, … … , 𝑇𝑇
Grado en Economía. Econometría I. Tema 1 -3-
El método de estimación MCO trata de obtener los estimadores de tal forma que se minimice la suma de los
cuadrados de los errores. De esta forma cuanto más pequeño sea el error mejor será la estimación.
𝑇𝑇 𝑇𝑇 𝑇𝑇
El vector que minimiza la SCE y, por tanto, el vector de los parámetros estimados por MCO es:
𝑏𝑏0
𝑏𝑏
⎛ 1⎞
𝑏𝑏
⎜ 2 ⎟ = 𝑏𝑏 = (𝑋𝑋´𝑋𝑋)−1 𝑋𝑋´𝑌𝑌
⎜⋮⎟
⋮
⎝𝑏𝑏𝑘𝑘 ⎠
Donde:
�(𝑥𝑥𝑖𝑖𝑖𝑖 − 𝑥𝑥̅𝑖𝑖 )(𝑒𝑒𝑡𝑡 − 𝑒𝑒̅ ) = �(𝑥𝑥𝑖𝑖𝑖𝑖 − 𝑥𝑥̅𝑖𝑖 )𝑒𝑒𝑡𝑡 = � 𝑥𝑥𝑖𝑖𝑖𝑖 𝑒𝑒𝑡𝑡 − 𝑥𝑥̅𝑖𝑖 � 𝑒𝑒𝑡𝑡 = 0
𝑡𝑡=1 𝑡𝑡=1 𝑡𝑡=1 𝑡𝑡=1
d) Entre los errores y los valores estimados del regresando no existe correlación muestral:
𝐶𝐶𝐶𝐶𝐶𝐶(𝑦𝑦�; 𝑒𝑒) → 𝑆𝑆𝑦𝑦�;𝑒𝑒 = 0 → 𝑟𝑟𝑦𝑦�;𝑒𝑒 = 0
𝑇𝑇 𝑇𝑇 𝑇𝑇 𝑇𝑇
�(b0 + b1 x1t + b2 x2t + ⋯ . . +bk xkt )𝑒𝑒𝑡𝑡 = b0 � 𝑒𝑒𝑡𝑡 + 𝑏𝑏1 � x1t 𝑒𝑒𝑡𝑡 + ⋯ + 𝑏𝑏𝑘𝑘 � xkt 𝑒𝑒𝑡𝑡 = 0
𝑡𝑡=1 𝑡𝑡=1 𝑖𝑖=1 𝑖𝑖=1
Si se efectúa un ajuste distinto al MCO o el modelo no tiene ordenada en el origen no todas estas propiedades
se cumplen.
2
∑𝑇𝑇𝑡𝑡=1(𝑒𝑒𝑡𝑡 − 𝑒𝑒̅ )2 ∑𝑇𝑇𝑡𝑡=1 𝑒𝑒𝑡𝑡2 𝑆𝑆𝑆𝑆𝑆𝑆
𝜎𝜎� = = =
𝑇𝑇 𝑇𝑇 𝑇𝑇
Pero cuando calculamos SCE, de los T datos iniciales se han usado k+1 para obtener las estimaciones de los
parámetros β, de manera que observaciones libres o grados de libertad solo tenemos T-(k+1). Por eso, para
estimar la varianza de la perturbación no se usa la varianza muestral del error si no:
Para calcular la SCE se pueden utilizar los errores pero el proceso es tedioso, así que resulta más cómodo
utilizar la expresión matricial de la SCE:
𝑇𝑇
𝑆𝑆𝑆𝑆𝑆𝑆 = � 𝑒𝑒𝑡𝑡2 = 𝑒𝑒´𝑒𝑒 = �𝑌𝑌 − 𝑌𝑌��´ �𝑌𝑌 − 𝑌𝑌�� = (𝑌𝑌 − 𝑋𝑋𝑋𝑋)´(𝑌𝑌 − 𝑋𝑋𝑋𝑋) =
𝑇𝑇=1
(𝑌𝑌´ − 𝑏𝑏´𝑋𝑋´) (𝑌𝑌 − 𝑋𝑋𝑋𝑋) = 𝑌𝑌´𝑌𝑌 − 𝑌𝑌´𝑋𝑋𝑋𝑋 − 𝑏𝑏´𝑋𝑋´𝑌𝑌 + 𝑏𝑏´𝑋𝑋´𝑋𝑋𝑋𝑋 = 𝑌𝑌´𝑌𝑌 − 2 𝑏𝑏´𝑋𝑋´𝑌𝑌 + 𝑏𝑏´𝑋𝑋´𝑋𝑋𝑋𝑋 =
𝑌𝑌´𝑌𝑌 − 2 𝑏𝑏´𝑋𝑋´𝑌𝑌 + 𝑏𝑏´𝑋𝑋´𝑋𝑋(𝑋𝑋´𝑋𝑋)−1 𝑋𝑋´𝑌𝑌 = 𝑌𝑌´𝑌𝑌 − 2 𝑏𝑏´𝑋𝑋´𝑌𝑌 + 𝑏𝑏´𝑋𝑋´𝑌𝑌 = 𝑌𝑌´𝑌𝑌 − 𝑏𝑏´𝑋𝑋´𝑌𝑌
𝑦𝑦t = β0 + β1 t t + ε𝑡𝑡
𝑦𝑦� t = 𝑏𝑏0 + 𝑏𝑏1 t t
b0 indica el valor estimado de la variable Y cuando se anula la variable explicativa t=0, es decir, en el período
de referencia.
b1 indica la variación estimada de la variable y cuando la variable explicativa experimenta una variación de
una unidad, es decir, cuando transcurre un periodo de tiempo (un año, si los datos son anuales; o un mes, si
son mensuales, etc).
ln 𝑦𝑦t = β0 + β1 t t + ε𝑡𝑡
�𝑦𝑦t = 𝑏𝑏0 + 𝑏𝑏1 t t
ln
∂ 𝑦𝑦�t
∂ ln�𝑦𝑦t 𝑦𝑦
𝑏𝑏1 = = t
𝜕𝜕t t 𝜕𝜕 t t
b0 indica el valor estimado del logaritmo neperiano de la variable y cuando se anula la variable explicativa, es
decir, en el periodo de referencia se estima para la variable y un valor igual a 𝑒𝑒 𝑏𝑏0 .
b1 indica la variación estimada del logaritmo neperiano de la variable y cuando se produce un incremento
unitario en la variable xi, es decir, representa la tasa de variación estimada de la variable y cuando transcurre
un periodo de tiempo (un año, si los datos son anuales; o un mes, si son mensuales, etc).
Las propiedades deseables de los estimadores se refieren a la bondad de las estimaciones que se realizan
con él. Solo se puede garantizar una buena estimación, si los valores más probables del estimador se
encuentran cerca del verdadero valor del parámetro. La distancia entre el estimador y el parámetro a estimar
puede medirse mediante lo que se denomina error cuadrático medio (ECM), que se define como el valor
esperado de la diferencia entre el estimador y el verdadero valor del parámetro. 𝑬𝑬𝑬𝑬𝑬𝑬(𝒃𝒃𝒊𝒊 ) = 𝑬𝑬(𝒃𝒃𝒊𝒊 − 𝜷𝜷𝒊𝒊 )𝟐𝟐 =
𝑽𝑽𝑽𝑽𝑽𝑽(𝒃𝒃𝒊𝒊 ) + [𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔(𝒃𝒃𝒊𝒊 )]𝟐𝟐 . Parece sensato pedirle a un estimador que tenga un ECM pequeño o lo que es lo
mismo que tanto su sesgo como su varianza sean pequeñas.
• Insesgado: un estimador es insesgado si por término medio, proporciona una estimación exacta del
parámetro, es decir, si su esperanza matemática coincide con el parámetro.
𝑏𝑏 = (𝑋𝑋´𝑋𝑋)−1 𝑋𝑋´𝑌𝑌=(𝑋𝑋´𝑋𝑋)−1 𝑋𝑋´(𝑋𝑋𝑋𝑋 + 𝜀𝜀) = (𝑋𝑋´𝑋𝑋)−1 𝑋𝑋´𝑋𝑋𝑋𝑋 + (𝑋𝑋´𝑋𝑋)−1 𝑋𝑋´𝜀𝜀 = 𝛽𝛽 + (𝑋𝑋´𝑋𝑋)−1 𝑋𝑋´𝜀𝜀
𝐸𝐸(𝑏𝑏) = 𝐸𝐸(𝛽𝛽 + (𝑋𝑋´𝑋𝑋)−1 𝑋𝑋´𝜀𝜀) = 𝐸𝐸(𝛽𝛽) + 𝐸𝐸[(𝑋𝑋´𝑋𝑋)−1 𝑋𝑋´𝜀𝜀] = 𝛽𝛽 + (𝑋𝑋´𝑋𝑋)−1 𝑋𝑋´𝐸𝐸(𝜀𝜀) = 𝛽𝛽
Hipótesis necesarias: X es no estocástica, β es el vector de parámetros
constante, por tanto, la esperanza solo se aplica a la perturbación
que es la única variable aleatoria que tiene E(ε)=0
• Óptimo: un estimador es óptimo si es el que tiene menor varianza entre los de su clase. Entre los
estimadores lineales e insesgados el óptimo es el de varianza mínima.
Por lo tanto, V(b) es la matriz de varianzas y covarianzas del vector b. En esta matriz, cuadrada y
simétrica, en cada elemento de la diagonal principal aparece la varianza de cada elemento bi
mientras que las covarianzas entre cada par de elementos se encuentran fuera de la diagonal
principal. Específicamente, la varianza de bi es igual a σ2 multiplicada por el elemento
correspondiente de la diagonal principal de la matriz (𝑋𝑋´𝑋𝑋)−1
𝑉𝑉(𝑏𝑏) = 𝜎𝜎 2 (𝑋𝑋´𝑋𝑋)−1
𝑉𝑉𝑉𝑉𝑉𝑉(𝑏𝑏0 ) 𝐶𝐶𝐶𝐶𝐶𝐶(𝑏𝑏0 , 𝑏𝑏1 ) 𝐶𝐶𝐶𝐶𝐶𝐶(𝑏𝑏0 , 𝑏𝑏2 ) ⋯ ⋯ 𝐶𝐶𝐶𝐶𝐶𝐶(𝑏𝑏0 , 𝑏𝑏𝑘𝑘 ) 𝑥𝑥 00 𝑥𝑥 01 𝑥𝑥 02 ⋯ ⋯ 𝑥𝑥 0𝑘𝑘
⎛ 𝑉𝑉𝑉𝑉𝑉𝑉(𝑏𝑏1 ) 𝐶𝐶𝐶𝐶𝐶𝐶(𝑏𝑏1 , 𝑏𝑏2 ) ⋯ ⋯ 𝐶𝐶𝐶𝐶𝐶𝐶(𝑏𝑏1 , 𝑏𝑏𝑘𝑘 )⎞ 𝑥𝑥 11 𝑥𝑥 12 ⋯ ⋯ 𝑥𝑥 1𝑘𝑘 ⎞
⎛
⎜ ⋯ … 𝑉𝑉𝑉𝑉𝑉𝑉(𝑏𝑏2 ) ⋯ ⋯ 𝐶𝐶𝐶𝐶𝐶𝐶(𝑏𝑏2 , 𝑏𝑏𝑘𝑘 )⎟ = 𝜎𝜎 2 ⎜ ⋯ … 𝑥𝑥 22 ⋯ ⋯ 𝑥𝑥 2𝑘𝑘 ⎟
⎜ ⋯ ⋯ ⋯ ⎟ ⎜ ⋯ ⋯ ⋯⎟
… ⋯ … ⋯
⎝ 𝑉𝑉𝑉𝑉𝑉𝑉(𝑏𝑏𝑘𝑘 ) ⎠ ⎝ 𝑥𝑥 𝑘𝑘𝑘𝑘 ⎠
El teorema de Gauss-Markov demuestra que la varianza de los estimadores MCO es la más pequeña
de todos los estimadores lineales e insesgados de β. (*** ***)
Como V(b) depende del parámetro desconocido σ2 es necesario sustituirlo por su estimador 𝜎𝜎� 2 y
utilizaremos como estimador 𝑆𝑆 2 por ser un estimador insesgado.
Para resumir: como desconocemos las varianzas teóricas de los estimadores 𝑉𝑉(𝑏𝑏) = 𝜎𝜎 2 (𝑋𝑋´𝑋𝑋)−1 → 𝜎𝜎𝑏𝑏20 ,
𝜎𝜎𝑏𝑏21 , … … , 𝜎𝜎𝑏𝑏2𝑘𝑘 debemos estimarlas y lo hacemos utilizando un estimador insesgado de 𝜎𝜎 2 que sabemos que
� = 𝑆𝑆 2 (𝑋𝑋´𝑋𝑋)−1 → 𝑆𝑆𝑏𝑏2 , 𝑆𝑆𝑏𝑏2 , … … . , 𝑆𝑆𝑏𝑏2 . Si las varianzas
es 𝑆𝑆 2 . Las varianzas estimadas de los estimadores 𝑉𝑉(𝑏𝑏) 0 1 𝑘𝑘
Para analizar con más facilidad los factores que influyen en la varianza estimada de los estimadores, podemos
utilizar la siguiente expresión:
𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆 2
𝑆𝑆𝑏𝑏2𝑖𝑖 = 𝑖𝑖𝑖𝑖
𝑥𝑥 = (∗∗∗∗) = 2
𝑇𝑇 − 𝑘𝑘 − 1 𝑇𝑇𝑆𝑆𝑖𝑖 (1 − 𝑅𝑅𝑖𝑖2 )
Cuanto mayor sea S2 mayor es la varianza estimada del estimador. Cuanto más “ruido” exista en
la ecuación es más difícil estimar con precisión el efecto parcial de cualquier regresor sobre Y.
• Eficiente en términos relativos: el estimador más eficiente en términos relativos es aquel que tiene
menor error cuadrático medio (ECM). Sabemos que el 𝐸𝐸𝐸𝐸𝐸𝐸(𝑏𝑏𝑖𝑖 ) = 𝑉𝑉(𝑏𝑏𝑖𝑖 ) + (𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠(𝑏𝑏𝑖𝑖 ))2 , como el
estimador MCO es lineal e insesgado, entonces → 𝐸𝐸𝐸𝐸𝐸𝐸(𝑏𝑏𝑖𝑖 ) = 𝑉𝑉(𝑏𝑏𝑖𝑖 ) y su varianza es mínima, por tanto,
es el estimador más eficiente dentro de los lineales e insesgados.
asintoticamente insesgado → 𝑙𝑙𝑙𝑙𝑙𝑙 [𝐸𝐸(𝑏𝑏𝑖𝑖 ) − 𝛽𝛽𝑖𝑖 ] = 0 → 𝑙𝑙𝑙𝑙𝑙𝑙 𝐸𝐸(𝑏𝑏𝑖𝑖 ) = 𝛽𝛽𝑖𝑖 → 𝑙𝑙𝑙𝑙𝑙𝑙 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠(𝑏𝑏𝑖𝑖 ) = 0
𝑇𝑇→∞ 𝑇𝑇→∞ 𝑇𝑇→∞
ó� 𝜎𝜎 2 1 𝜎𝜎 2 1
lim 𝑉𝑉(𝑏𝑏) = lim 𝜎𝜎 2 (𝑋𝑋´𝑋𝑋)−1 = lim ( 𝑋𝑋´𝑋𝑋)−1 = lim lim ( 𝑋𝑋´𝑋𝑋)−1 = 0 (∗∗∗)
𝑇𝑇→∞ 𝑇𝑇→∞ 𝑇𝑇→∞ 𝑇𝑇 𝑇𝑇 𝑇𝑇→∞ 𝑇𝑇 𝑇𝑇→∞ 𝑇𝑇
Pero, en muestras grandes, este estimador es asintóticamente insegado; por tanto, su sesgo tiende a cero o
su esperanza tiende al verdadero valor del parámetro:
(𝑘𝑘 + 1) 2
𝑙𝑙𝑙𝑙𝑙𝑙 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠(𝜎𝜎� 2 ) = 𝑙𝑙𝑙𝑙𝑙𝑙 − 𝜎𝜎 = 0
𝑇𝑇→∞ 𝑇𝑇→∞ 𝑇𝑇
(𝑇𝑇 − 𝑘𝑘 − 1) 2
𝑙𝑙𝑙𝑙𝑙𝑙 𝐸𝐸(𝜎𝜎� 2 ) = 𝑙𝑙𝑙𝑙𝑙𝑙 𝜎𝜎 = 𝜎𝜎 2
𝑇𝑇→∞ 𝑇𝑇→∞ 𝑇𝑇
Resumen: bajo las hipótesis del MRLC, los estimadores MCO (bi) son estimadores óptimos de los parámetros
βi en el sentido de que son los de varianza mínima entre los lineales e insesgados, además en esta clase de
estimadores son los más eficientes y también son consistentes. S2 es un estimador insesgado de la varianza
de la perturbación σ 2, mientras que 𝜎𝜎� 2 es un estimador sesgado.
Donde:
• SCT = Suma de los Cuadrados Totales: desviaciones del regresando respecto de su media muestral,
𝑆𝑆𝑆𝑆𝑆𝑆 = ∑𝑇𝑇𝑡𝑡=1(𝑦𝑦𝑡𝑡 − 𝑦𝑦�)2
Grado en Economía. Econometría I. Tema 1 -12-
• SCR = Suma de Cuadrados de la Regresión: desviaciones del regresando estimado respecto a su media
muestral, 𝑆𝑆𝑆𝑆𝑆𝑆 = ∑𝑇𝑇𝑡𝑡=1(𝑦𝑦�𝑡𝑡 − 𝑦𝑦��)2
• SCE = Suma de Cuadrados de los Errores, 𝑆𝑆𝑆𝑆𝑆𝑆 = ∑𝑇𝑇𝑡𝑡=1(𝑦𝑦𝑡𝑡 − 𝑦𝑦�𝑡𝑡 )2 = ∑𝑇𝑇𝑡𝑡=1 𝑒𝑒𝑡𝑡2
Por lo tanto:
𝑇𝑇 𝑇𝑇 𝑇𝑇
2
�(𝑦𝑦𝑡𝑡 − 𝑦𝑦�) = ��𝑦𝑦�𝑡𝑡 − 𝑦𝑦��� + � 𝑒𝑒𝑡𝑡2
2
Valores: Los valores extremos del coeficiente de determinación son: 0, cuando la varianza explicada
en la regresión es cero y por tanto el ajuste es nulo; y 1, cuando la varianza de los errores es cero y
por tanto el ajuste es perfecto. Un ajuste es bueno cuando el 𝑅𝑅 2es próximo a 1, pero si el 𝑅𝑅 2 tiene
un valor pequeño, probablemente se haya cometido un error en la especificación del modelo o bien
en la forma funcional o bien en la selección de los regresores. En la práctica un ajuste es bueno si
𝑅𝑅 2 > 0.95
𝑆𝑆𝑆𝑆𝑆𝑆 = � 𝑒𝑒𝑡𝑡2 = 𝑒𝑒´𝑒𝑒 = �𝑌𝑌 − 𝑌𝑌��´�𝑌𝑌 − 𝑌𝑌�� = (𝑌𝑌 − 𝑋𝑋𝑋𝑋)´(𝑌𝑌 − 𝑋𝑋𝑋𝑋) = 𝑌𝑌´𝑌𝑌 − 𝑌𝑌´𝑋𝑋𝑋𝑋 − 𝑏𝑏´𝑋𝑋´𝑌𝑌 + 𝑏𝑏´𝑋𝑋´𝑋𝑋𝑋𝑋 =
𝑡𝑡=1
Es conveniente para analizar la bondad de ajuste calcular tanto 𝑅𝑅 2 (lo dan los programas informáticos) como
%RECM (no lo dan los programas informáticos) ya que pueden proporcionar información contradictoria, pues
son medidas relativas (cocientes) que no dependen únicamente de la SCE.
Si SCT es muy muy grande (es decir, si 𝑦𝑦𝑡𝑡 presenta mucha variabilidad) y aunque la SCE sea grande:
𝑆𝑆𝑆𝑆𝑆𝑆
�
𝑇𝑇
o sin embargo, 𝑦𝑦� no es representativa, %𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 = 𝑦𝑦�
∗ 100 es grande → mal ajuste.
Si SCT es muy muy pequeño (es decir, si 𝑦𝑦𝑡𝑡 presenta poca variabilidad) y aunque la SCE sea pequeña:
𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆
o el cociente puede ser grande, 𝑅𝑅 2 = 1 − puede ser próximo a 0→ mal ajuste.
𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆
𝑆𝑆𝑆𝑆𝑆𝑆
�
𝑇𝑇
o sin embargo, la 𝑦𝑦� es representativa, %𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 = 𝑦𝑦�
∗ 100 es pequeño→ buen ajuste.
Conclusión:
• Si SCT es muy elevada, ninguna de las medidas es fiable y hay que analizar los errores relativos para
cada observación.
• Si la SCT es pequeña, es más fiable el %RECM pues la media es muy representativa.
1.4.3.- Coeficientes para comparar modelos cuando se introducen variables explicativas adicionales.
Las dos medidas anteriores no son válidas para comparar modelos cuando se introducen variables
explicativas adicionales ya que el 𝑅𝑅 2 aumenta y el %𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 disminuye. En este caso debemos utilizar los
siguientes coeficientes:
� 𝟐𝟐 .
El coeficiente de determinación ajustado, 𝑹𝑹
𝑆𝑆𝑆𝑆𝑆𝑆�
𝑅𝑅� 2 = 1 − 𝑇𝑇 − 𝑘𝑘 − 1 = 1 − 𝑇𝑇 − 1 𝑆𝑆𝑆𝑆𝑆𝑆 = 1 − 𝑇𝑇 − 1 (1 − 𝑅𝑅 2 )
𝑆𝑆𝑆𝑆𝑆𝑆� 𝑇𝑇 − 𝑘𝑘 − 1 𝑆𝑆𝑆𝑆𝑆𝑆 𝑇𝑇 − 𝑘𝑘 − 1
𝑇𝑇 − 1
• Su gran ventaja es que penaliza la inclusión de variables explicativas no relevantes. Si se añade
una nueva variable al modelo, la SCE disminuye o, en el peor de los casos queda igual, (T-k-1)
siempre disminuyen y por tanto el 𝑅𝑅� 2 puede aumentar o disminuir, ello dependerá de si la
variable incluida mejora o no el modelo.
• 𝑅𝑅� 2 tiene como mucho el valor 1 pero no tiene cota inferior, incluso puede tomar valores
negativos, aunque cercanos a cero.
• 𝑅𝑅� 2 < 𝑅𝑅 2
𝐸𝐸𝐸𝐸 𝑆𝑆𝑆𝑆𝑆𝑆
%𝐸𝐸𝐸𝐸 = ∗ 100 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 𝐸𝐸𝐸𝐸 = �𝑆𝑆 2 = �
𝑦𝑦� 𝑇𝑇 − 𝑘𝑘 − 1
• Su gran ventaja es que penaliza la inclusión de variables explicativas no relevantes, pues el %ES
no siempre disminuye cuando se incluyen nuevos regresores.
• %𝐸𝐸𝐸𝐸 > %𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅
Es decir: 𝑋𝑋´𝑒𝑒 = 𝑋𝑋´�𝑌𝑌 − 𝑌𝑌�� = 𝑋𝑋´(𝑌𝑌 − 𝑋𝑋𝑋𝑋) = 𝑋𝑋´(𝑌𝑌 − 𝑋𝑋(𝑋𝑋´𝑋𝑋)−1 𝑋𝑋´𝑌𝑌) = 𝑋𝑋´𝑌𝑌 − 𝑋𝑋´𝑌𝑌 = 0
Al no ser nula la suma de los errores, no se cumplen algunas de las consecuencias o implicaciones de la
estimación MCO. La media muestral de los errores no es nula, las sumas y las medias muestrales del
regresando y del regresando estimado no coinciden, no es nula la covarianza muestral de los regresores y los
errores, no es nula tampoco la covarianza muestral del regresando estimado y los errores; y el hiperplano de
regresión no pasa por el centro de gravedad de la nube de puntos. Sin embargo ∑𝑇𝑇𝑡𝑡=1 𝑦𝑦�𝑡𝑡 𝑒𝑒𝑡𝑡 = 0.
Por otro lado, las propiedades de los estimadores MCO se han demostrado bajo las hipótesis del modelo
clásico tenga ordenada en el origen o no, por tanto, estas propiedades se mantienen. El estimador 𝑏𝑏 =
(𝑋𝑋´𝑋𝑋)−1 𝑋𝑋´𝑌𝑌 es ELIO (lineal, insesgado, óptimo), el más eficiente de los ELIO y consistente.
A la hora de calcular el estimador insesgado de la varianza de la perturbación se debe tener en cuenta que
los grados de libertad de este tipo de modelos son T-k porque ahora el número de regresores coincide con el
número de variables explicativas:
𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆
𝑆𝑆 2 = → 𝑆𝑆 = �
𝑇𝑇−𝑘𝑘 𝑇𝑇−𝑘𝑘
siendo:
𝑆𝑆𝑆𝑆𝑆𝑆 = 𝑌𝑌´𝑌𝑌 − 𝑏𝑏´𝑋𝑋´𝑌𝑌 = ∑ 𝑦𝑦𝑡𝑡2 − 𝑏𝑏1 ∑ 𝑥𝑥1𝑡𝑡 𝑦𝑦𝑡𝑡 − 𝑏𝑏2 ∑ 𝑥𝑥2𝑡𝑡 𝑦𝑦𝑡𝑡 − ⋯ − 𝑏𝑏𝑘𝑘 ∑ 𝑥𝑥𝑘𝑘𝑘𝑘 𝑦𝑦𝑡𝑡
Por tanto, son insesgados los estimadores de las varianzas de los estimadores que se obtienen siguiendo la
expresión:
2
𝑆𝑆𝑏𝑏𝑏𝑏 = 𝑆𝑆 2 𝑥𝑥 𝑖𝑖𝑖𝑖 ∀𝑖𝑖 = 1,2, … , 𝑘𝑘
Como hemos visto, en el modelo sin ordenada en el origen la suma de los errores no es nula, y por
consiguiente, no se puede descomponer la varianza como: 𝑆𝑆𝑆𝑆𝑆𝑆 = 𝑆𝑆𝑆𝑆𝑆𝑆 + 𝑆𝑆𝑆𝑆𝑆𝑆.
Por tanto:
𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆
𝑅𝑅 2 = 1 − ≠
𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆
Interpretación: al no ser esta medida igual a SCR/SCT, 𝑅𝑅 2 % no puede interpretarse como el porcentaje
de variaciones del regresando explicado por la regresión, ni (1- R2) x100 como el porcentaje de
variaciones no explicadas.
Valores: puede ser negativo, porque si no se puede descomponer la varianza, puede ser SCE> SCT. Por
tanto, en los modelos sin ordenada en el origen esta medida de bondad del ajuste pierde una de sus
Grado en Economía. Econometría I. Tema 1 -17-
ventajas, sigue siendo 1 el límite superior (ajuste perfecto), pero carece de límite inferior, pudiendo
incluso tomar valores negativos.
Con respecto al porcentaje de la raíz del error cuadrático medio, se define e interpreta igual que en el modelo
con ordenada en el origen.
𝑦𝑦t = β0 + β1 𝑙𝑙𝑙𝑙x1t + ε𝑡𝑡 𝑦𝑦�t = b0 + b1 lnx1t ∂ 𝑦𝑦�t ∂ 𝑦𝑦�t si x ↑ un 1%, entonces 𝑦𝑦�t
𝑏𝑏1 = = 𝑏𝑏
𝜕𝜕ln x1t 𝜕𝜕 x1t ↑ó ↓en � 1�100�
x1t
unidades
2 ∑𝑇𝑇 �)2
𝑡𝑡=1(𝑦𝑦𝑡𝑡 −𝑦𝑦
𝑆𝑆𝑦𝑦𝑦𝑦 = 𝑇𝑇−1
cuasivarianza muestral del regresando
2
2 ∑𝑇𝑇 �𝑡𝑡 −𝑦𝑦�� �
𝑡𝑡=1�𝑦𝑦
𝑆𝑆𝑆𝑆𝑆𝑆 = ∑𝑇𝑇𝑡𝑡=1�𝑦𝑦�𝑡𝑡 − 𝑦𝑦��� → (K) 𝑆𝑆𝑦𝑦2� = varianza muestral del regresando estimado
𝑇𝑇
∑𝑇𝑇 2
𝑡𝑡=1 𝑒𝑒𝑡𝑡
𝑆𝑆𝑆𝑆𝑆𝑆 = ∑𝑇𝑇𝑡𝑡=1(𝑦𝑦𝑡𝑡 − 𝑦𝑦�𝑡𝑡 )2 = ∑𝑇𝑇𝑡𝑡=1 𝑒𝑒𝑡𝑡2 → (T-k-1) 𝑆𝑆𝑒𝑒2 = 𝑇𝑇
varianza muestral del error
∑𝑇𝑇 2
𝑡𝑡=1 𝑒𝑒𝑡𝑡
𝑆𝑆 2 =
𝑇𝑇−𝑘𝑘−1
Siempre que los estimadores sean los MCO y el modelo tenga ordenada en el origen:
𝑆𝑆𝑆𝑆𝑆𝑆 = 𝑆𝑆𝑆𝑆𝑆𝑆 + 𝑆𝑆𝑆𝑆𝑆𝑆
R2 es un indicador del grado de corrección en la especificación del modelo, si está próximo a cero una parte
importante de las variaciones del regresando quedan sin explicar (existe algún error en la especificación,
bien por la forma funcional del modelo o bien porque la selección de los regresores); si está próximo a la
unidad, no se tiene certeza de que la especificación sea la correcta.
Porcentaje de la raíz del error %𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 ≥ 0
cuadrático medio, %RECM.
indica, cual es, por término medio, el
𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 porcentaje de error que se comete al
%𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 = ∗ 100
𝑦𝑦� estimar los valores del regresando
utilizando el modelo.
�𝑆𝑆𝑆𝑆𝑆𝑆
𝑇𝑇
= ∗ 100
𝑦𝑦� El ajuste es bueno si es menor al 5%.
Adimensional.
Siempre debes usar las dos medidas. Pero ¿pueden ser contradictorias? Si la variabilidad del regresando
es o muy grande o muy pequeña, pueden dar resultados contradictorios, entonces debes analizar los
𝑒𝑒 𝑒𝑒
errores, relativos ��𝑦𝑦𝑡𝑡 � < 0.05 ó �𝑦𝑦𝑡𝑡 � ∗ 100 < 5%�.
𝑡𝑡 𝑡𝑡