Modelos Con Variables Cualitativas o Ficticias


Modelos con Variables

Cualitativas o Ficticias
—
1 © Ast urias Corporación Universitaria

Modelos con Variables Cualitativas o Ficticias
Índice
1 Introducción ............................................................................................................................................................ 3
2 Definición de las Variables Ficticias.......................................................................................................... 3
3 Uso de Variables Ficticias en la Regresión .......................................................................................... 4
4 Modelos con Variables Ficticias ................................................................................................................. 5
4.1 Propiedades de las Variables Ficticias ...................................................................................... 5
4.1.1 Interpretación del Valor de la Variable Ficticia ....................................................... 5
4.1.2 Interpretación del Coeficiente de la Variable Ficticia ......................................... 5
4.1.3 Elección del Caso Base ....................................................................................................... 6
4.2 La Variable Ficticia: Desplazamiento de la Ordenada al Origen ................................. 7
4.3 Términos de Interacción con Variables Ficticias ................................................................ 8
5 Cambio de Estructura ...................................................................................................................................... 9
5.1 Test de Chow ......................................................................................................................................... 10
6 Anexo: Muestra de Datos Utilizada ......................................................................................................... 12
7 Resumen ................................................................................................................................................................. 14
8 Bibliografía ............................................................................................................................................................. 14
02 ASTURIAS CORPORACIÓN UNIVERSITARIA®

Not a Técnica preparada por Ast urias Corporación Universit aria. Su dif usión, reproducción o uso t ot al
o parcial para cual quier ot ro propósit o queda prohibida. Todos l os derechos reservados.
Objetivos:
 Comprender la técnica de variables ficticias para tratar información de tipo cualitativo
en el modelo econométrico de regresión lineal.
 Ser capaz de interpretar los coeficientes de la regresión en presencia de variables

ficticias, y comprender su uso en la construcción de modelos complejos.
1 Introducción
El uso de variables ficticias (en inglés, dummy), es un modo de incorporar información
“El uso de variables ficticias es un modo
de tipo cualitativo en el modelo de regresión lineal. En este tema definiremos qué son y
de incorporar información de tipo
cualitativo” cómo se utilizan en el modelo este tipo de variables.
2 Definición de las Variables Ficticias

Las variables ficticias o “dummy variables” (también llamadas binarias, discretas o
categóricas), nos dicen simplemente si una observación individual pertenece a una
determinada categoría. Hay muchos ejemplos en que son de utilidad. Por ejemplo,
cualquier análisis de regresión en el que se incorpore información sobre raza, estado
civil, grupo de edad, etc., utilizará variables dummy .
Así pues, una variable ficticia indica si una observación posee una característica
determinada. Si la observación tiene la característica en cuestión, el valor de la variable
será 1, y será 0 en caso contrario.
Ejemplo:
Podemos definir una variable para incorporar información sobre el sexo de los
individuos de la muestra estudiada, de la siguiente forma:
Mujer = 1 si el individuo es mujer
0 si el individuo es varón.
En este ejemplo, la unidad de observación será la persona, y las otras variables de la

muestra contendrán otros tipos de información sobre cada individuo.
En algunos casos, se construyen variables dummy a partir de información de tipo

continuo. Por ejemplo, podemos definir la variable:
Granciudad = 1 si la ciudad tiene población mayor de 1.000.000 hab.
0 si la población es menor de 1.000.000.
En otros casos, como en el de la variable Mujer , no hay información de tipo continuo

subyacente.
En ocasiones encontramos que se designan las variables con el nombre de la

característica de la que se trata:

Genero = 1 si el individuo es mujer

0 si el individuo es varón.
Aunque en general se considera más informativo utilizar el nombre específico ( Mujer ,

en este ejemplo) asociado al valor 1 de la variable.
Las variables ficticias solo toman los valores 0 o 1. Por eso reciben el nombre de
“ficticias”, ya que los valores por sí no tienen significado. En vez de un valor cuantitativo,
expresan la presencia o ausencia de una cierta característica. A veces se usa el nombre
de “variables cualitativas”, aunque es inexacto, en el sentido de que el término
“cualitativo” es más general.
Ejemplo:
La siguiente es una variable cualitativa:
Alimento = 1 si es pan o cereales
2 si es verdura
3 si es fruta
4 si es proteína (carne o legumbre)
Pero no es una variable dummy o ficticia. Podemos definir fácilmente un conjunto de 4

variables ficticias (una por cada categoría) equivalente:
Cereal = 1 si Alimento = 1
0 si Alimento <> 1
Verdura = 1 si Alimento = 2
0 si Alimento <> 2
Fruta = 1 si Alimento = 3
0 si Alimento <> 3
Proteina = 1 si Alimento = 4
0 si Alimento <> 4
3 Uso de Variables Ficticias en la Regresión

Una vez que se han definido las variables ficticias, no podemos simplemente
incorporarlas sin más a la ecuación de regresión.
El motivo por el que no podemos hacerlo, es que si en nuestro modelo de regresión

tenemos un término independiente 𝛽0 , e incluimos las dos variables Mujer y Varón ,
introduciremos una multicolinealidad perfecta en la regresión.
Por ejemplo, en este caso tenemos que 𝑉𝑎𝑟𝑜𝑛 = 1 − 𝑀𝑢𝑗𝑒𝑟, y esa es una colinealidad
perfecta.

Cuando hay colinealidad perfecta, y el modelo tiene un término independiente,

entonces no hay una única solución determinada a las ecuaciones de mínimos
cuadrados, y no podremos hallar los valores estimados de los parámetros.
Para resolver esta cuestión, lo que haremos simplemente es eliminar una de las
categorías e incluir las restantes en la regresión. La variable correspondiente a la
categoría omitida se llama el caso base.
En nuestro ejemplo de los grupos de alimentos, hemos definido 4 variables, una para
indicar la pertenencia del alimento a cada grupo. Podemos decidir que nuestro caso
base será el grupo de las proteínas, y entonces incluimos en la regresión las variables
Cereal , Verdura y Fruta. Si los coeficientes de estas tres variables toman el valor cero,
sabemos que estamos tratando con una observación del grupo de Proteínas.
4 Modelos con Variables Ficticias
4.1 Propiedades de las Variables Ficticias
4.1.1 Interpretación del Valor de la Variable Ficticia
El valor medio de una variable ficticia nos dice qué proporción de las observaciones que
“El valor medio de una variable ficticia
indica la proporción de las observaciones
componen la muestra, tiene la característica indicada por la variable.
de la muestra que tienen la característica Ejemplo:
indicada por la variable”
Supongamos que tenemos una muestra de datos de 500 adultos, en la que 210 son
Varones. Entonces, si hemos definido la variable dummy Varón, habrá 210
observaciones con Varón = 1 y 290 con Varón = 0.
La suma de valores de la variable será 210 × 1 + 290 × 0 = 210.
La media es 210⁄500 = 0,42, o lo que es lo mismo, el 42 %, que corresponde

exactamente con el cálculo de la proporción de varones en la muestra.
4.1.2 Interpretación del Coeficiente de la Variable Ficticia
En un modelo de regresión dado por:
𝑌̂ = 𝛽̂0 + 𝛽̂1 𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝐷𝑢𝑚𝑚𝑦 (4. 1)
El coeficiente 𝛽̂1 nos da la diferencia que tenemos en el valor medio de 𝑌̂ entre las
observaciones en las que la 𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝐷𝑢𝑚𝑚𝑦 = 1 y aquellas en las que la
𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝐷𝑢𝑚𝑚𝑦 = 0. Veámoslo con más detalle.
Podemos ver la regresión con una variable dummy como una partición de los datos
verticalmente, en dos columnas. En nuestra muestra tenemos datos de 42 trabajadores,
de los cuales 26 son mujeres y 16 varones. Si queremos comparar el salario medio de
las mujeres con el de los varones, podemos calcular directamente el promedio de cada

grupo, y tendremos que el salario medio de las mujeres es de 8,12 € y el de los

hombres 10,64 €.
Pero también podemos realizar la regresión del Salario utilizando la variable ficticia
Mujer. Esta variable nos dice a qué conjunto pertenece cada trabajador.
Realizamos la regresión:
̂ 𝑀 = 𝛽̂0 + 𝛽̂1 𝑀𝑢𝑗𝑒𝑟
𝑆𝑎𝑙𝑎𝑟𝑖𝑜
Figura 4. 1
Y obtenemos:
̂ 𝑀 = 10,64 − 2,51 ⋅ 𝑀𝑢𝑗𝑒𝑟
En la figura vemos el diagrama de dispersión y la línea de regresión resultante:
 En el eje Y representamos el salario.
 En el eje X la variable dummy , que solo puede tener dos valores.
La línea de regresión conecta los puntos de la media de cada columna de datos:

Cuando Mujer = 0, la línea se sitúa en 10,64, que es el salario medio de los varones.
Cuando Mujer = 1, la línea se sitúa en 8,12, que es el salario medio de las mujeres.
El coeficiente 𝛽̂1 es -2,51, la diferencia entre las medias, que no es sino la pendiente de
la recta (10,64 – 8,12), en el recorrido de 0 a 1.
Naturalmente, aunque se puede trazar la línea de regresión de 0 a 1, no tiene sentido

estimar el Salario para el valor Mujer = 0,5. La variable ficticia solo puede valer 0 ò 1, que
son los únicos valores que podemos utilizar al predecir o estimar.
4.1.3 Elección del Caso Base
No importa cuál sea la categoría de referencia seleccionada. Los coeficientes estimados

“La variable ficticia supone distinguir dos que resultan serán diferentes, pero la interpretación de los datos es la misma. Hay que
categorías, y no pertenecer a una implica recordar que la variable ficticia quiere decir que tenemos dos categorías, y que no
necesariamente pertenecer a la otra”
pertenecer a una implica necesariamente pertenecer a la otra.

Supongamos que tenemos dos regresiones realizadas con los mismos datos, con la
única diferencia de que en el primer caso utilizamos como variable Mujer , y en la otra la
variable Varón. Las líneas son:
𝑆𝑎𝑙𝑎𝑟𝑖𝑜 = 10,64 − 2,51 𝑀𝑢𝑗𝑒𝑟
𝑆𝑎𝑙𝑎𝑟𝑖𝑜 = 8,13 + 2,51 𝑉𝑎𝑟𝑜𝑛
Los coeficientes son diferentes, pero en cualquier caso vemos que el salario medio de
los varones es 2,51 unidades superior al de las mujeres.
Por otro lado, de la primera ecuación vemos que el salario medio de los varones (que
son en ese caso la categoría de referencia), es de 10,64. La segunda ecuación nos dice
lo mismo pero de otra forma: el salario de los varones es de 8,13 + 2,51 = 10,64. Se puede
operar recíprocamente para el caso de las mujeres.
Lo que hemos comprobado es que al seleccionar una de las variables dummy para
excluirla del modelo, no estamos eliminando información del mismo. Simplemente, el
coeficiente de la variable dummy incluida está medido en relación al caso base. Por
esto es irrelevante cuál de las categorías se deje fuera de la regresión.
4.2 La Variable Ficticia: Desplazamiento de la Ordenada al Origen
Nuestra muestra de datos del salario de los trabajadores incluye las variables Salario ,
Mujer y Educ (medida en años de estudios completados).
De la regresión del Salario sobre la variable dummy Mujer , teníamos:
̂ = 10,64 − 2,51 𝑀𝑢𝑗𝑒𝑟
Lo que nos dice que el salario medio de las mujeres es 2,51 menor que el de los
varones. Esta diferencia puede ser debida a la discriminación contra las mujeres
trabajadoras, pero también puede ser debida a la influencia de otros factores no
identificados hasta ahora. Para mejorar nuestro análisis, incorporamos más información
en un nuevo modelo:
̂ = 𝛽̂0 + 𝛽̂1 𝐸𝑑𝑢𝑐 + 𝛽̂2 𝑀𝑢𝑗𝑒𝑟

𝑆𝑎𝑙𝑎𝑟𝑖𝑜 (4. 2)
Y obtenemos:
̂ = 1,29 + 0,75 ⋅ 𝐸𝑑𝑢𝑐 − 2,71 ⋅ 𝑀𝑢𝑗𝑒𝑟
Para el caso de los varones, el coeficiente 𝛽̂2 = 0, así que la ecuación para esta
categoría es:
̂ 𝑉 = 1,29 + 0,75 ⋅ 𝐸𝑑𝑢𝑐
Así que, en el caso de un varón con 10 años de estudios completados, el salario

predicho es:
1,29 + 0,75 ⋅ 10 = 8,79 €
En el caso de las mujeres:

̂ 𝑀 = 1,29 + 0,75 ⋅ 𝐸𝑑𝑢𝑐 − 2,71 = −1,42 + 0,75 ⋅ 𝐸𝑑𝑢𝑐

Que para el caso de los 10 años de educación resulta 6,08 €. La diferencia con los
varones es de 2,71 €.
Figura 4. 2
Al comparar las dos líneas, vemos que el uso de la variable ficticia tiene el efecto de
desplazar el valor de la ordenada al origen, en esas 2,71 unidades.
Hemos incorporado información cualitativa sobre el género en nuestro modelo. Sin

embargo, la estimación puede ser demasiado simple, ya que el incremento en un año
de educación produce el mismo aumento en el salario en las dos categorías, mujeres y
varones (0,75 €), como refleja gráficamente el que las dos líneas son paralelas.
4.3 Términos de Interacción con Variables Ficticias
La relación entre género, educación y salario puede ser más compleja. ¿Podría ser que
según se incrementa el nivel educativo, la diferencia salarial entre hombres y mujeres
aumente, o al revés? Nuestras líneas paralelas del modelo anterior no pueden dar
cuenta de este comportamiento. Una simple variable dummy no puede capturar
información de esta complejidad.
Podemos resolver esta dificultad añadiendo al modelo un término de interacción, que

es una nueva variable definida así:
0 si la persona es Varón
𝑀𝑢𝑗𝑒𝑟 ⋅ 𝐸𝑑𝑢𝑐 = {
𝐸𝑑𝑢𝑐 si la persona es Mujer
El término de interacción es una nueva variable que es el producto del valor de la

variable dummy Mujer, y los años de educación. El nuevo modelo es:
̂ = 𝛽0 + 𝛽1 𝐸𝑑𝑢𝑐 + 𝛽2 𝑀𝑢𝑗𝑒𝑟 + 𝛽3 𝑀𝑢𝑗𝑒𝑟 ⋅ 𝐸𝑑𝑢𝑐

𝑆𝑎𝑙𝑎𝑟𝑖𝑜 (4. 3)
Con el resultado:
̂ = 4,70 + 0,47 ⋅ 𝐸𝑑𝑢𝑐 − 7,40 ⋅ 𝑀𝑢𝑗𝑒𝑟 + 0,37𝑀𝑢𝑗𝑒𝑟 ⋅ 𝐸𝑑𝑢𝑐

Para predecir el salario de un varón con 10 años de educación, al ser la variable Mujer =
0 en este caso:
̂ 𝑉 = 4,70 + 0,47 ⋅ 𝐸𝑑𝑢𝑐 = 4,70 + 0,47 ⋅ 10 = 9,4 €
En el caso de Mujer = 1 con los mismos 10 años de educación:

̂ 𝑀 = 4,70 + 0,47 ⋅ 10 − 7,40 ⋅ 1 + 0,37(1 ⋅ 10) = 5,7
Con Mujer = 1, tanto la ordenada al origen como los términos de la pendiente de la recta
cambian. La variable dummy actúa desplazando la ordenada al origen, mientras el
término de interacción produce el cambio de pendiente: El coeficiente 𝛽3 se interpreta
como el cambio de pendiente producida por la variación de Educ debida al hecho de
ser mujer.
En nuestro estudio, vemos que un año adicional de educación produce un mayor

aumento salarial en el caso de las mujeres que en el de los varones:
Figura 4. 3
5 Cambio de Estructura
Un cambio estructural existe cuando hay un cambio brusco en el comportamiento de
“Un cambio estructural se produce cuando
los datos observados. En estos casos, un único modelo de regresión para explicar el
hay un cambio brusco en el comportamiento
fenómeno puede llevar a grandes errores de predicción.
de los datos observados”
En nuestra muestra de datos de la estructura salarial, tenemos también la variable

Edad, que nos da información sobre el nivel de experiencia de los trabajadores.
Observando los datos, tenemos la sospecha de que la relación entre el salario y la
experiencia de los trabajadores cambia significativamente cuando tienen más de 45
años. En los primeros años, el salario crece claramente de forma lineal con la edad,
pero a partir de un punto de cambio que situamos en los 45 años, no es tan claro que
una mayor experiencia se relacione con la evolución del salario.

Figura 4. 4
Esto significaría un cambio de estructura, con lo que dos regresiones separadas (una
para el intervalo de edad 18-45 y otra para el intervalo 45-65) representarían mejor la
realidad que una única para todos los trabajadores.
5.1 Test de Chow
El test de Chow no “busca” cambios estructurales en la muestra, sino que confirma o

desmiente nuestra sospecha previa de cambio estructural. Es decir, debe conocerse el
punto del cambio que sospechamos.
Una vez dadas estas condiciones de partida, la forma de operar para realizar el
contraste de la hipótesis de que existe un cambio de estructura (válida para el caso de
un único punto de cambio estructural) es:
 Se divide la muestra total de tamaño 𝑛 en las dos submuestras que determina el

punto de corte de tamaños 𝑛1 y 𝑛2 respectivamente.
 Además del modelo inicial para el total de la muestra, se realiza la estimación de

dos modelos más, uno en cada una de las dos submuestras identificadas. De
cada regresión se obtendrán unos coeficientes y sumas de cuadrados diferentes.
 Utilizando los residuos de la regresión original y de las dos parciales, se elabora

un contraste de hipótesis, cuya hipótesis nula (H 0) será que los dos conjuntos de
parámetros (los de los sub-modelos correspondientes a las dos sub-muestras)
son iguales, con lo que no hay cambio estructural. Calculamos el estadístico de
contraste F 0.
(𝑆𝐶𝑅𝑒𝑠𝑇 − (𝑆𝐶𝑅𝑒𝑠1 + 𝑆𝐶𝑅𝑒𝑠2 ))

𝐹0 = 𝑘
(𝑆𝐶𝑅𝑒𝑠1 + 𝑆𝐶𝑅𝑒𝑠2 ) (4. 4)
(𝑛1 + 𝑛2 − 2𝑘)
Donde:

 𝑆𝐶𝑅𝑒𝑠𝑇 es la suma cuadrática de los residuos del modelo global con todas las ( n)
observaciones.
 𝑆𝐶𝑅𝑒𝑠1 es la suma cuadrática de los residuos del modelo estimado con la primera
submuestra de tamaño 𝑛1 , y 𝑆𝐶𝑅𝑒𝑠2 la de la submuestra de tamaño 𝑛2 .
El numerador de la expresión compara los residuos obtenidos en el modelo único

(𝑆𝐶𝑅𝑒𝑠𝑇 ) frente a los residuos obtenidos en las dos estimaciones parciales (𝑆𝐶𝑅𝑒𝑠1) y
(𝑆𝐶𝑅𝑒𝑠2). Es decir, se están comparando dos estrategias distintas de estimar el modelo:
una estrategia en la que la muestra se utiliza al completo (porque se entiende que no
hay cambio estructural) con otra estrategia en la que, en lugar de un único mo delo, se
estiman dos modelos, porque se entiende que hay dos estructuras diferentes en la
muestra.
En definitiva, el test trata de expresar si la estimación única genera residuos mayores

“El test trata de expresar si la estimación que una estimación partida. Si fuera claramente así, debe entenderse que existe cambio
única genera residuos mayores que una
estructural. Si los residuos producidos con la utilización del único modelo son similares
estimación partida”
a la suma de los obtenidos con dos modelos parciales, no podemos confirmar que la
muestra contiene un cambio estructural.
Una vez computada la diferencia de residuos, se corrige, como en todo contraste,

numerador y denominador por los grados de libertad utilizados en cada expresión (los
del numerador provienen de la combinación de los grados de libertad del modelo total
(𝑛 − 𝑘) y los parciales (𝑛1 − 𝑘 y 𝑛2 − 𝑘). Así tenemos: (𝑛 − 𝑘) − ((𝑛1 − 𝑘) − (𝑛2 − 𝑘)) = 𝑘).
Matemáticamente, aunque no existiera cambio estructural la suma de residuos del

modelo único será siempre mayor a la suma de los parciales. Como este término tiene
una distribución “F” de Snedecor, podemos determinar si esa ganancia es lo
suficientemente grande como para sospechar que existe un cambio estructural
relevante, comparando si el 𝐹0 calculado supera al valor de tablas de una distribución
“F” con 𝑘 grados de libertad en el numerador y (𝑛1 + 𝑛2 − 2𝑘) en el denominador, para
un valor de significancia dado (típicamente 0,05, es decir, el 95% de confianza):
 Si el valor calculado de 𝐹0 es inferior o igual al de tablas, no hay diferencia

significativa en las sumas cuadráticas de residuos, con lo que aceptamos la
hipótesis nula y descartamos la presencia de un cambio estructural.
 En caso contrario, si el valor calculado de 𝐹0 es superior al de tablas, debe

considerarse que hay un cambio de estructura.

6 Anexo: Muestra de Datos Utilizada

Los datos utilizados en los ejemplos de este tema se recogen en la siguiente tabla:
EDAD Afiliado Edad*Afiliado Educacion Mujer Mujer*Educacion Salario Experimentado Varon
18 0 0 12 1 12 4,25 0 0
19 0 0 11 0 0 5,50 0 1
19 0 0 12 1 12 4,68 0 0
19 0 0 13 0 0 4,68 0 1
19 0 0 12 1 12 3,40 0 0
20 1 20 12 0 0 5,50 0 1
20 0 0 9 1 9 3,70 0 0
21 0 0 13 1 13 7,23 0 0
21 1 21 9 1 9 4,17 0 0
21 0 0 13 1 13 7,65 0 0
22 1 22 12 0 0 6,60 0 1
22 0 0 13 0 0 6,60 0 1
23 0 0 13 0 0 4,95 0 1
23 0 0 16 1 16 5,31 0 0
25 0 0 13 0 0 8,80 0 1
25 1 25 16 1 16 6,80 0 0
26 0 0 12 1 12 8,50 0 0
26 0 0 16 1 16 6,13 0 0
26 0 0 12 1 12 8,50 0 0
27 1 27 16 1 16 11,05 0 0

28 0 0 16 1 16 15,09 0 0
29 0 0 12 1 12 10,63 0 0
30 0 0 13 1 13 9,77 0 0
30 1 30 12 1 12 5,53 0 0
31 0 0 12 1 12 6,94 0 0
33 0 0 15 0 0 12,10 0 1
35 0 0 13 1 13 5,95 0 0
36 1 36 12 0 0 13,20 0 1
36 1 36 14 0 0 8,25 0 1
39 0 0 16 1 16 22,95 0 0
43 1 43 13 0 0 16,50 0 1
46 0 0 12 1 12 5,95 1 0
46 0 0 13 1 13 13,86 1 0
46 0 0 12 1 12 8,08 1 0
47 1 47 14 0 0 23,10 1 1
51 0 0 10 0 0 6,00 1 1
52 0 0 8 0 0 15,40 1 1
55 0 0 14 0 0 11,55 1 1
57 0 0 13 1 13 5,10 1 0
59 1 59 8 1 8 7,65 1 0
60 0 0 13 0 0 21,45 1 1
62 1 62 12 1 12 12,38 1 0

7 Resumen
 Las variables ficticias o “dummy variables” (también llamadas binarias, discretas o
categóricas), nos dicen simplemente si una observación individual pertenece a una
determinada categoría.
 El valor medio de una variable ficticia nos dice qué proporción de las observaciones
que componen la muestra, tiene la característica indicada por la variable.
 La variable ficticia solo puede valer 0 ò 1, que son los únicos valores que podemos
utilizar al predecir o estimar.
 Un cambio estructural existe cuando hay un cambio brusco en el comportamiento

de los datos observados. En estos casos, un único modelo de regresión para explicar
el fenómeno puede llevar a grandes errores de predicción.
8 Bibliografía
 Carter, R.; Griffiths, W.; Judge, G.: Using Excel for Undergraduate Econometrics ,
John Wiley and Sons, 2000.
 Chow, Gregory C.: “Tests of Equality Between Sets of Coefficients in Two Linear
Regressions”. Econometrica 28 (3), (1960).
 Goldberger, A.S.: Introducción a la econometría , Barcelona, Ariel, 2001.
 Wooldridge, F.M: Introducción a la econometría: un enfoque moderno , Madrid :

Thomson, 2006.


Modelos Con Variables Cualitativas o Ficticias

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Modelos Con Variables Cualitativas o Ficticias

Cargado por

Copyright:

Formatos disponibles



Modelos con Variables

1 © Ast urias Corporación Universitaria

02 ASTURIAS CORPORACIÓN UNIVERSITARIA®

 Ser capaz de interpretar los coeficientes de la regresión en presencia de variables

2 Definición de las Variables Ficticias

Mujer = 1 si el individuo es mujer

En este ejemplo, la unidad de observación será la persona, y las otras variables de la

En algunos casos, se construyen variables dummy a partir de información de tipo

Granciudad = 1 si la ciudad tiene población mayor de 1.000.000 hab.

0 si la población es menor de 1.000.000.

En otros casos, como en el de la variable Mujer , no hay información de tipo continuo

En ocasiones encontramos que se designan las variables con el nombre de la

03 ASTURIAS CORPORACIÓN UNIVERSITARIA®

Genero = 1 si el individuo es mujer

Aunque en general se considera más informativo utilizar el nombre específico ( Mujer ,

La siguiente es una variable cualitativa:

Alimento = 1 si es pan o cereales

4 si es proteína (carne o legumbre)

Pero no es una variable dummy o ficticia. Podemos definir fácilmente un conjunto de 4

3 Uso de Variables Ficticias en la Regresión

El motivo por el que no podemos hacerlo, es que si en nuestro modelo de regresión

04 ASTURIAS CORPORACIÓN UNIVERSITARIA®

Cuando hay colinealidad perfecta, y el modelo tiene un término independiente,

4 Modelos con Variables Ficticias

4.1 Propiedades de las Variables Ficticias

4.1.1 Interpretación del Valor de la Variable Ficticia

La suma de valores de la variable será 210 × 1 + 290 × 0 = 210.

La media es 210⁄500 = 0,42, o lo que es lo mismo, el 42 %, que corresponde

4.1.2 Interpretación del Coeficiente de la Variable Ficticia

En un modelo de regresión dado por:

𝑌̂ = 𝛽̂0 + 𝛽̂1 𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝐷𝑢𝑚𝑚𝑦 (4. 1)

05 ASTURIAS CORPORACIÓN UNIVERSITARIA®

grupo, y tendremos que el salario medio de las mujeres es de 8,12 € y el de los

En la figura vemos el diagrama de dispersión y la línea de regresión resultante:

 En el eje Y representamos el salario.

 En el eje X la variable dummy , que solo puede tener dos valores.

La línea de regresión conecta los puntos de la media de cada columna de datos:

Naturalmente, aunque se puede trazar la línea de regresión de 0 a 1, no tiene sentido

4.1.3 Elección del Caso Base

No importa cuál sea la categoría de referencia seleccionada. Los coeficientes estimados

06 ASTURIAS CORPORACIÓN UNIVERSITARIA®

𝑆𝑎𝑙𝑎𝑟𝑖𝑜 = 10,64 − 2,51 𝑀𝑢𝑗𝑒𝑟

𝑆𝑎𝑙𝑎𝑟𝑖𝑜 = 8,13 + 2,51 𝑉𝑎𝑟𝑜𝑛

4.2 La Variable Ficticia: Desplazamiento de la Ordenada al Origen

̂ = 𝛽̂0 + 𝛽̂1 𝐸𝑑𝑢𝑐 + 𝛽̂2 𝑀𝑢𝑗𝑒𝑟

Así que, en el caso de un varón con 10 años de estudios completados, el salario

En el caso de las mujeres:

07 ASTURIAS CORPORACIÓN UNIVERSITARIA®

̂ 𝑀 = 1,29 + 0,75 ⋅ 𝐸𝑑𝑢𝑐 − 2,71 = −1,42 + 0,75 ⋅ 𝐸𝑑𝑢𝑐

Hemos incorporado información cualitativa sobre el género en nuestro modelo. Sin

4.3 Términos de Interacción con Variables Ficticias

Podemos resolver esta dificultad añadiendo al modelo un término de interacción, que

El término de interacción es una nueva variable que es el producto del valor de la

̂ = 𝛽0 + 𝛽1 𝐸𝑑𝑢𝑐 + 𝛽2 𝑀𝑢𝑗𝑒𝑟 + 𝛽3 𝑀𝑢𝑗𝑒𝑟 ⋅ 𝐸𝑑𝑢𝑐

08 ASTURIAS CORPORACIÓN UNIVERSITARIA®

En el caso de Mujer = 1 con los mismos 10 años de educación:

En nuestro estudio, vemos que un año adicional de educación produce un mayor

En nuestra muestra de datos de la estructura salarial, tenemos también la variable

09 ASTURIAS CORPORACIÓN UNIVERSITARIA®

5.1 Test de Chow

El test de Chow no “busca” cambios estructurales en la muestra, sino que confirma o

 Se divide la muestra total de tamaño 𝑛 en las dos submuestras que determina el

EDAD Afiliado EdadAfiliado Educacion Mujer MujerEducacion Salario Experimentado Varon