Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Índice
1 Introducción ............................................................................................................................................................ 3
2 Definición de las Variables Ficticias.......................................................................................................... 3
3 Uso de Variables Ficticias en la Regresión .......................................................................................... 4
4 Modelos con Variables Ficticias ................................................................................................................. 5
4.1 Propiedades de las Variables Ficticias ...................................................................................... 5
4.1.1 Interpretación del Valor de la Variable Ficticia ....................................................... 5
4.1.2 Interpretación del Coeficiente de la Variable Ficticia ......................................... 5
4.1.3 Elección del Caso Base ....................................................................................................... 6
4.2 La Variable Ficticia: Desplazamiento de la Ordenada al Origen ................................. 7
4.3 Términos de Interacción con Variables Ficticias ................................................................ 8
5 Cambio de Estructura ...................................................................................................................................... 9
5.1 Test de Chow ......................................................................................................................................... 10
6 Anexo: Muestra de Datos Utilizada ......................................................................................................... 12
7 Resumen ................................................................................................................................................................. 14
8 Bibliografía ............................................................................................................................................................. 14
Objetivos:
Comprender la técnica de variables ficticias para tratar información de tipo cualitativo
en el modelo econométrico de regresión lineal.
1 Introducción
El uso de variables ficticias (en inglés, dummy), es un modo de incorporar información
“El uso de variables ficticias es un modo
de tipo cualitativo en el modelo de regresión lineal. En este tema definiremos qué son y
de incorporar información de tipo
cualitativo” cómo se utilizan en el modelo este tipo de variables.
Así pues, una variable ficticia indica si una observación posee una característica
determinada. Si la observación tiene la característica en cuestión, el valor de la variable
será 1, y será 0 en caso contrario.
Ejemplo:
Podemos definir una variable para incorporar información sobre el sexo de los
individuos de la muestra estudiada, de la siguiente forma:
0 si el individuo es varón.
Las variables ficticias solo toman los valores 0 o 1. Por eso reciben el nombre de
“ficticias”, ya que los valores por sí no tienen significado. En vez de un valor cuantitativo,
expresan la presencia o ausencia de una cierta característica. A veces se usa el nombre
de “variables cualitativas”, aunque es inexacto, en el sentido de que el término
“cualitativo” es más general.
Ejemplo:
2 si es verdura
3 si es fruta
Cereal = 1 si Alimento = 1
0 si Alimento <> 1
Verdura = 1 si Alimento = 2
0 si Alimento <> 2
Fruta = 1 si Alimento = 3
0 si Alimento <> 3
Proteina = 1 si Alimento = 4
0 si Alimento <> 4
Por ejemplo, en este caso tenemos que 𝑉𝑎𝑟𝑜𝑛 = 1 − 𝑀𝑢𝑗𝑒𝑟, y esa es una colinealidad
perfecta.
Para resolver esta cuestión, lo que haremos simplemente es eliminar una de las
categorías e incluir las restantes en la regresión. La variable correspondiente a la
categoría omitida se llama el caso base.
En nuestro ejemplo de los grupos de alimentos, hemos definido 4 variables, una para
indicar la pertenencia del alimento a cada grupo. Podemos decidir que nuestro caso
base será el grupo de las proteínas, y entonces incluimos en la regresión las variables
Cereal , Verdura y Fruta. Si los coeficientes de estas tres variables toman el valor cero,
sabemos que estamos tratando con una observación del grupo de Proteínas.
El valor medio de una variable ficticia nos dice qué proporción de las observaciones que
“El valor medio de una variable ficticia
indica la proporción de las observaciones
componen la muestra, tiene la característica indicada por la variable.
de la muestra que tienen la característica Ejemplo:
indicada por la variable”
Supongamos que tenemos una muestra de datos de 500 adultos, en la que 210 son
Varones. Entonces, si hemos definido la variable dummy Varón, habrá 210
observaciones con Varón = 1 y 290 con Varón = 0.
El coeficiente 𝛽̂1 nos da la diferencia que tenemos en el valor medio de 𝑌̂ entre las
observaciones en las que la 𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝐷𝑢𝑚𝑚𝑦 = 1 y aquellas en las que la
𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝐷𝑢𝑚𝑚𝑦 = 0. Veámoslo con más detalle.
Podemos ver la regresión con una variable dummy como una partición de los datos
verticalmente, en dos columnas. En nuestra muestra tenemos datos de 42 trabajadores,
de los cuales 26 son mujeres y 16 varones. Si queremos comparar el salario medio de
las mujeres con el de los varones, podemos calcular directamente el promedio de cada
Pero también podemos realizar la regresión del Salario utilizando la variable ficticia
Mujer. Esta variable nos dice a qué conjunto pertenece cada trabajador.
Realizamos la regresión:
̂ 𝑀 = 𝛽̂0 + 𝛽̂1 𝑀𝑢𝑗𝑒𝑟
𝑆𝑎𝑙𝑎𝑟𝑖𝑜
Figura 4. 1
Y obtenemos:
̂ 𝑀 = 10,64 − 2,51 ⋅ 𝑀𝑢𝑗𝑒𝑟
𝑆𝑎𝑙𝑎𝑟𝑖𝑜
El coeficiente 𝛽̂1 es -2,51, la diferencia entre las medias, que no es sino la pendiente de
la recta (10,64 – 8,12), en el recorrido de 0 a 1.
Supongamos que tenemos dos regresiones realizadas con los mismos datos, con la
única diferencia de que en el primer caso utilizamos como variable Mujer , y en la otra la
variable Varón. Las líneas son:
Los coeficientes son diferentes, pero en cualquier caso vemos que el salario medio de
los varones es 2,51 unidades superior al de las mujeres.
Por otro lado, de la primera ecuación vemos que el salario medio de los varones (que
son en ese caso la categoría de referencia), es de 10,64. La segunda ecuación nos dice
lo mismo pero de otra forma: el salario de los varones es de 8,13 + 2,51 = 10,64. Se puede
operar recíprocamente para el caso de las mujeres.
Lo que hemos comprobado es que al seleccionar una de las variables dummy para
excluirla del modelo, no estamos eliminando información del mismo. Simplemente, el
coeficiente de la variable dummy incluida está medido en relación al caso base. Por
esto es irrelevante cuál de las categorías se deje fuera de la regresión.
Nuestra muestra de datos del salario de los trabajadores incluye las variables Salario ,
Mujer y Educ (medida en años de estudios completados).
De la regresión del Salario sobre la variable dummy Mujer , teníamos:
̂ = 10,64 − 2,51 𝑀𝑢𝑗𝑒𝑟
𝑆𝑎𝑙𝑎𝑟𝑖𝑜
Lo que nos dice que el salario medio de las mujeres es 2,51 menor que el de los
varones. Esta diferencia puede ser debida a la discriminación contra las mujeres
trabajadoras, pero también puede ser debida a la influencia de otros factores no
identificados hasta ahora. Para mejorar nuestro análisis, incorporamos más información
en un nuevo modelo:
Y obtenemos:
̂ = 1,29 + 0,75 ⋅ 𝐸𝑑𝑢𝑐 − 2,71 ⋅ 𝑀𝑢𝑗𝑒𝑟
𝑆𝑎𝑙𝑎𝑟𝑖𝑜
Para el caso de los varones, el coeficiente 𝛽̂2 = 0, así que la ecuación para esta
categoría es:
̂ 𝑉 = 1,29 + 0,75 ⋅ 𝐸𝑑𝑢𝑐
𝑆𝑎𝑙𝑎𝑟𝑖𝑜
Que para el caso de los 10 años de educación resulta 6,08 €. La diferencia con los
varones es de 2,71 €.
Figura 4. 2
Al comparar las dos líneas, vemos que el uso de la variable ficticia tiene el efecto de
desplazar el valor de la ordenada al origen, en esas 2,71 unidades.
La relación entre género, educación y salario puede ser más compleja. ¿Podría ser que
según se incrementa el nivel educativo, la diferencia salarial entre hombres y mujeres
aumente, o al revés? Nuestras líneas paralelas del modelo anterior no pueden dar
cuenta de este comportamiento. Una simple variable dummy no puede capturar
información de esta complejidad.
Con el resultado:
̂ = 4,70 + 0,47 ⋅ 𝐸𝑑𝑢𝑐 − 7,40 ⋅ 𝑀𝑢𝑗𝑒𝑟 + 0,37𝑀𝑢𝑗𝑒𝑟 ⋅ 𝐸𝑑𝑢𝑐
𝑆𝑎𝑙𝑎𝑟𝑖𝑜
Para predecir el salario de un varón con 10 años de educación, al ser la variable Mujer =
0 en este caso:
̂ 𝑉 = 4,70 + 0,47 ⋅ 𝐸𝑑𝑢𝑐 = 4,70 + 0,47 ⋅ 10 = 9,4 €
𝑆𝑎𝑙𝑎𝑟𝑖𝑜
Con Mujer = 1, tanto la ordenada al origen como los términos de la pendiente de la recta
cambian. La variable dummy actúa desplazando la ordenada al origen, mientras el
término de interacción produce el cambio de pendiente: El coeficiente 𝛽3 se interpreta
como el cambio de pendiente producida por la variación de Educ debida al hecho de
ser mujer.
Figura 4. 3
5 Cambio de Estructura
Un cambio estructural existe cuando hay un cambio brusco en el comportamiento de
“Un cambio estructural se produce cuando
los datos observados. En estos casos, un único modelo de regresión para explicar el
hay un cambio brusco en el comportamiento
fenómeno puede llevar a grandes errores de predicción.
de los datos observados”
Figura 4. 4
Esto significaría un cambio de estructura, con lo que dos regresiones separadas (una
para el intervalo de edad 18-45 y otra para el intervalo 45-65) representarían mejor la
realidad que una única para todos los trabajadores.
Una vez dadas estas condiciones de partida, la forma de operar para realizar el
contraste de la hipótesis de que existe un cambio de estructura (válida para el caso de
un único punto de cambio estructural) es:
Donde:
𝑆𝐶𝑅𝑒𝑠𝑇 es la suma cuadrática de los residuos del modelo global con todas las ( n)
observaciones.
𝑆𝐶𝑅𝑒𝑠1 es la suma cuadrática de los residuos del modelo estimado con la primera
submuestra de tamaño 𝑛1 , y 𝑆𝐶𝑅𝑒𝑠2 la de la submuestra de tamaño 𝑛2 .
18 0 0 12 1 12 4,25 0 0
19 0 0 11 0 0 5,50 0 1
19 0 0 12 1 12 4,68 0 0
19 0 0 13 0 0 4,68 0 1
19 0 0 12 1 12 3,40 0 0
20 1 20 12 0 0 5,50 0 1
20 0 0 9 1 9 3,70 0 0
21 0 0 13 1 13 7,23 0 0
21 1 21 9 1 9 4,17 0 0
21 0 0 13 1 13 7,65 0 0
22 1 22 12 0 0 6,60 0 1
22 0 0 13 0 0 6,60 0 1
23 0 0 13 0 0 4,95 0 1
23 0 0 16 1 16 5,31 0 0
25 0 0 13 0 0 8,80 0 1
25 1 25 16 1 16 6,80 0 0
26 0 0 12 1 12 8,50 0 0
26 0 0 16 1 16 6,13 0 0
26 0 0 12 1 12 8,50 0 0
27 1 27 16 1 16 11,05 0 0
28 0 0 16 1 16 15,09 0 0
29 0 0 12 1 12 10,63 0 0
30 0 0 13 1 13 9,77 0 0
30 1 30 12 1 12 5,53 0 0
31 0 0 12 1 12 6,94 0 0
33 0 0 15 0 0 12,10 0 1
35 0 0 13 1 13 5,95 0 0
36 1 36 12 0 0 13,20 0 1
36 1 36 14 0 0 8,25 0 1
39 0 0 16 1 16 22,95 0 0
43 1 43 13 0 0 16,50 0 1
46 0 0 12 1 12 5,95 1 0
46 0 0 13 1 13 13,86 1 0
46 0 0 12 1 12 8,08 1 0
47 1 47 14 0 0 23,10 1 1
51 0 0 10 0 0 6,00 1 1
52 0 0 8 0 0 15,40 1 1
55 0 0 14 0 0 11,55 1 1
57 0 0 13 1 13 5,10 1 0
59 1 59 8 1 8 7,65 1 0
60 0 0 13 0 0 21,45 1 1
62 1 62 12 1 12 12,38 1 0
7 Resumen
Las variables ficticias o “dummy variables” (también llamadas binarias, discretas o
categóricas), nos dicen simplemente si una observación individual pertenece a una
determinada categoría.
El valor medio de una variable ficticia nos dice qué proporción de las observaciones
que componen la muestra, tiene la característica indicada por la variable.
La variable ficticia solo puede valer 0 ò 1, que son los únicos valores que podemos
utilizar al predecir o estimar.
8 Bibliografía
Carter, R.; Griffiths, W.; Judge, G.: Using Excel for Undergraduate Econometrics ,
John Wiley and Sons, 2000.
Chow, Gregory C.: “Tests of Equality Between Sets of Coefficients in Two Linear
Regressions”. Econometrica 28 (3), (1960).