Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1 Introducción .......................................................................................................................... 3
7 Resumen ............................................................................................................................... 14
8 Bibliografía........................................................................................................................... 14
1 Introducción
El uso de variables ficticias (en inglés, dummy), es un modo de incorporar
“El uso de variables ficticias es un modo
información de tipo cualitativo en el modelo de regresión lineal. En este tema
de incorporar información de tipo definiremos qué son y cómo se utilizan en el modelo este tipo de variables.
cualitativo”
0 si el individuo es varón.
Figura 4. 1
Y obtenemos:
̂ 𝑀 = 10,64 − 2,51 ⋅ 𝑀𝑢𝑗𝑒𝑟
𝑆𝑎𝑙𝑎𝑟𝑖𝑜
Los coeficientes son diferentes, pero en cualquier caso vemos que el salario
medio de los varones es 2,51 unidades superior al de las mujeres.
Por otro lado, de la primera ecuación vemos que el salario medio de los varones
(que son en ese caso la categoría de referencia), es de 10,64. La segunda
ecuación nos dice lo mismo pero de otra forma: el salario de los varones es de
8,13 + 2,51 = 10,64. Se puede operar recíprocamente para el caso de las mujeres.
Lo que hemos comprobado es que al seleccionar una de las variables dummy para
excluirla del modelo, no estamos eliminando información del mismo.
Simplemente, el coeficiente de la variable dummy incluida está medido en
relación al caso base. Por esto es irrelevante cuál de las categorías se deje fuera
de la regresión.
Nuestra muestra de datos del salario de los trabajadores incluye las variables
Salario, Mujer y Educ (medida en años de estudios completados).
De la regresión del Salario sobre la variable dummy Mujer, teníamos:
̂ = 10,64 − 2,51 𝑀𝑢𝑗𝑒𝑟
𝑆𝑎𝑙𝑎𝑟𝑖𝑜
Lo que nos dice que el salario medio de las mujeres es 2,51 menor que el de los
varones. Esta diferencia puede ser debida a la discriminación contra las mujeres
trabajadoras, pero también puede ser debida a la influencia de otros factores no
identificados hasta ahora. Para mejorar nuestro análisis, incorporamos más
información en un nuevo modelo:
Y obtenemos:
̂ = 1,29 + 0,75 ⋅ 𝐸𝑑𝑢𝑐 − 2,71 ⋅ 𝑀𝑢𝑗𝑒𝑟
𝑆𝑎𝑙𝑎𝑟𝑖𝑜
Figura 4. 2
Al comparar las dos líneas, vemos que el uso de la variable ficticia tiene el efecto
de desplazar el valor de la ordenada al origen, en esas 2,71 unidades.
Hemos incorporado información cualitativa sobre el género en nuestro modelo.
Sin embargo, la estimación puede ser demasiado simple, ya que el incremento en
un año de educación produce el mismo aumento en el salario en las dos
categorías, mujeres y varones (0,75 €), como refleja gráficamente el que las dos
líneas son paralelas.
La relación entre género, educación y salario puede ser más compleja. ¿Podría ser
que según se incrementa el nivel educativo, la diferencia salarial entre hombres y
mujeres aumente, o al revés? Nuestras líneas paralelas del modelo anterior no
pueden dar cuenta de este comportamiento. Una simple variable dummy no puede
capturar información de esta complejidad.
Podemos resolver esta dificultad añadiendo al modelo un término de
interacción, que es una nueva variable definida así:
Con el resultado:
̂ = 4,70 + 0,47 ⋅ 𝐸𝑑𝑢𝑐 − 7,40 ⋅ 𝑀𝑢𝑗𝑒𝑟 + 0,37𝑀𝑢𝑗𝑒𝑟 ⋅ 𝐸𝑑𝑢𝑐
𝑆𝑎𝑙𝑎𝑟𝑖𝑜
Para predecir el salario de un varón con 10 años de educación, al ser la variable
Mujer = 0 en este caso:
̂ 𝑉 = 4,70 + 0,47 ⋅ 𝐸𝑑𝑢𝑐 = 4,70 + 0,47 ⋅ 10 = 9,4 €
𝑆𝑎𝑙𝑎𝑟𝑖𝑜
En el caso de Mujer = 1 con los mismos 10 años de educación:
̂ 𝑀 = 4,70 + 0,47 ⋅ 10 − 7,40 ⋅ 1 + 0,37(1 ⋅ 10) = 5,7
𝑆𝑎𝑙𝑎𝑟𝑖𝑜
Figura 4. 3
Figura 4. 4
Esto significaría un cambio de estructura, con lo que dos regresiones separadas
(una para el intervalo de edad 18-45 y otra para el intervalo 45-65) representarían
mejor la realidad que una única para todos los trabajadores.
Donde:
• 𝑆𝐶𝑅𝑒𝑠𝑇 es la suma cuadrática de los residuos del modelo global con todas
las (n) observaciones.
• 𝑆𝐶𝑅𝑒𝑠1 es la suma cuadrática de los residuos del modelo estimado con la
primera submuestra de tamaño 𝑛1 , y 𝑆𝐶𝑅𝑒𝑠2 la de la submuestra de tamaño
𝑛2 .
El numerador de la expresión compara los residuos obtenidos en el modelo único
(𝑆𝐶𝑅𝑒𝑠𝑇 ) frente a los residuos obtenidos en las dos estimaciones parciales
(𝑆𝐶𝑅𝑒𝑠1) y (𝑆𝐶𝑅𝑒𝑠2). Es decir, se están comparando dos estrategias distintas de
estimar el modelo: una estrategia en la que la muestra se utiliza al completo
(porque se entiende que no hay cambio estructural) con otra estrategia en la que,
en lugar de un único modelo, se estiman dos modelos, porque se entiende que
hay dos estructuras diferentes en la muestra.
En definitiva, el test trata de expresar si la estimación única genera residuos
“El test trata de expresar si la estimación mayores que una estimación partida. Si fuera claramente así, debe entenderse
única genera residuos mayores que una que existe cambio estructural. Si los residuos producidos con la utilización del
estimación partida” único modelo son similares a la suma de los obtenidos con dos modelos
parciales, no podemos confirmar que la muestra contiene un cambio estructural.
Una vez computada la diferencia de residuos, se corrige, como en todo contraste,
numerador y denominador por los grados de libertad utilizados en cada expresión
(los del numerador provienen de la combinación de los grados de libertad del
modelo total (𝑛 − 𝑘) y los parciales (𝑛1 − 𝑘 y 𝑛2 − 𝑘). Así tenemos: (𝑛 − 𝑘) −
((𝑛1 − 𝑘) − (𝑛2 − 𝑘)) = 𝑘).
Matemáticamente, aunque no existiera cambio estructural la suma de residuos del
modelo único será siempre mayor a la suma de los parciales. Como este término
tiene una distribución “F” de Snedecor, podemos determinar si esa ganancia es
lo suficientemente grande como para sospechar que existe un cambio estructural
relevante, comparando si el 𝐹0 calculado supera al valor de tablas de una
distribución “F” con 𝑘 grados de libertad en el numerador y (𝑛1 + 𝑛2 − 2𝑘) en el
18 0 0 12 1 12 4,25 0 0
19 0 0 11 0 0 5,50 0 1
19 0 0 12 1 12 4,68 0 0
19 0 0 13 0 0 4,68 0 1
19 0 0 12 1 12 3,40 0 0
20 1 20 12 0 0 5,50 0 1
20 0 0 9 1 9 3,70 0 0
21 0 0 13 1 13 7,23 0 0
21 1 21 9 1 9 4,17 0 0
21 0 0 13 1 13 7,65 0 0
22 1 22 12 0 0 6,60 0 1
22 0 0 13 0 0 6,60 0 1
23 0 0 13 0 0 4,95 0 1
23 0 0 16 1 16 5,31 0 0
25 1 25 16 1 16 6,80 0 0
26 0 0 12 1 12 8,50 0 0
26 0 0 16 1 16 6,13 0 0
26 0 0 12 1 12 8,50 0 0
27 1 27 16 1 16 11,05 0 0
28 0 0 16 1 16 15,09 0 0
29 0 0 12 1 12 10,63 0 0
30 0 0 13 1 13 9,77 0 0
30 1 30 12 1 12 5,53 0 0
31 0 0 12 1 12 6,94 0 0
33 0 0 15 0 0 12,10 0 1
35 0 0 13 1 13 5,95 0 0
36 1 36 12 0 0 13,20 0 1
36 1 36 14 0 0 8,25 0 1
39 0 0 16 1 16 22,95 0 0
43 1 43 13 0 0 16,50 0 1
46 0 0 12 1 12 5,95 1 0
46 0 0 13 1 13 13,86 1 0
46 0 0 12 1 12 8,08 1 0
47 1 47 14 0 0 23,10 1 1
51 0 0 10 0 0 6,00 1 1
52 0 0 8 0 0 15,40 1 1
57 0 0 13 1 13 5,10 1 0
59 1 59 8 1 8 7,65 1 0
60 0 0 13 0 0 21,45 1 1
62 1 62 12 1 12 12,38 1 0
7 Resumen
• Las variables ficticias o “dummy variables” (también llamadas binarias,
discretas o categóricas), nos dicen simplemente si una observación
individual pertenece a una determinada categoría.
• El valor medio de una variable ficticia nos dice qué proporción de las
observaciones que componen la muestra, tiene la característica indicada
por la variable.
• La variable ficticia solo puede valer 0 ò 1, que son los únicos valores que
podemos utilizar al predecir o estimar.
• Un cambio estructural existe cuando hay un cambio brusco en el
comportamiento de los datos observados. En estos casos, un único modelo
de regresión para explicar el fenómeno puede llevar a grandes errores de
predicción.
8 Bibliografía
• Carter, R.; Griffiths, W.; Judge, G.: Using Excel for Undergraduate
Econometrics, John Wiley and Sons, 2000.
• Chow, Gregory C.: “Tests of Equality Between Sets of Coefficients in Two
Linear Regressions”. Econometrica 28 (3), (1960).
• Goldberger, A.S.: Introducción a la econometría, Barcelona, Ariel, 2001.
• Wooldridge, F.M: Introducción a la econometría: un enfoque moderno,
Madrid : Thomson, 2006.