Está en la página 1de 11

TRABAJO PRACTICO N° 4

EJERCICIO 4.1) La característica de una variable dummy es una variable indicadora, que indica presencia o
ausencia de un atributo con un número específico, 1 para la presencia de un atributo y 0 para la ausencia del
mismo.

𝑊̂𝑖 = 4.78 - 0.038Ei - 0.041Si - 0.048Ni

(0.019) (0.010) (0.012)

R 2= .49 n=7338

Donde: Wi= salario por hora (en dólares) del i-ésimo trabajador,

Ei = 1 si es trabajador vive en la zona noreste, 0 caso contrario.

Si = 1 si es trabajador vive en la zona sur, 0 caso contrario.

Ni = 1 si es trabajador vive en la zona noroeste, 0 caso contrario.

A) Se omite la región centro, no se definió la variable dummy para esta región.

Primero veo la significatividad de las variables dummys, que es el error estándar entre paréntesis. Todas las
variables dummys resultan significativas entonces las puedo interpretar.

Es importante reconocer cual es la categoría que se omite (que es la categoría base o el grupo de referencia),
porque los distintos coeficientes estimados asociados a las variables dummy se van a leer e interpretar en
función de esa categoría omitida.

Por ejemplo interpreta la variable de la dummy Ei --- Como la categoría omitida es centro, este coeficiente
de -0.038 se interpreta como que en promedio el salario promedio de los trabajadores que viven en la zona
noreste (Ei) es menor (al tener signo negativo) al salario promedio de los trabajadores que viven en el centro
(lo compara con la categoría omitida), es menor en 0.038 dólares por hora.

La variable Si, es decir el trabajador que vive en zona sur sigue la misma lógica. El signo negativo nos muestra
que el salario promedio de los trabajadores que viven en la zona sur es menor al salario promedio de la
categoría base (el trabajador que vive en la zona centro). Es más pequeño en 0.041 dólares por hora.

Mientras que para la variable Ni, es decir el trabajador que vive en la zona noroeste tiene un salario
promedio menor (por el signo negativo) al salario promedio de los trabajadores que viven en la categoría
base (osea la región centro), y es menor en 0.048 dolares por hora.

IMPORTANTE: El intercepto (B0) refleja el salario promedio (osea el valor promedio de la variable
dependiente) para la categoría omitida o grupo de referencia. Entonces podemos afirmar que el salario
promedio de los trabajadores que viven en el centro es de 4,78 dólares por hora. El resto de los
coeficientes se leen en relación a la categoría omitida (base), serán mayor o menor según el signo que
presenten dichos betas (osea cuanto es más bajo o cuanto es más alto)

B) Podría armar una nueva variable dummy que sea: C=1 si el trabajador vive en el centro y 0 si el trabajador
no vive en el centro.
Si la incorporo en la regresión me va a quedar : 𝑊̂𝑖 = Beta0 +Beta1*Ei + Beta2 *Si + Beta3 *Ni + Beta4*C + u

ME VA A DAR LA TRAMPA DE LAS DUMMYS, O MULTICOLINEALIDAD PERFECTA. FRENTE A ESTE PROBLEMA


NO PODEMOS OBTENER UN CÁLCULO NUMÉRICO DE LOS BETA ESTIMADOS.

SI QUISIERAMOS INCORPORAR TANTAS DUMMYS COMO CATEGORÍAS REGIONALES TENEMOS, DEBEMOS


ESTIMAR EL MODELO SIN INTERCEPTO, NOS DEBERÍA QUEDAR:

𝑊̂𝑖 = Beta1*Ei + Beta2 *Si + Beta3 *Ni + Beta4*C + u

EN ESTE CASO LOS BETAS ESTIMADOS YA NO SE INTERPRETAN EN FUNCIÓN DE LA CATEGORÍA OMITIDA (YA
QUE NO HAY CATEGORÍA OMITIDA) SINO QUE LOS BETAS SE INTERPRETAN COMO EL SALARIO PROMEDIO
DE CADA REGIÓN SEGÚN SEA LA DUMMY.

C) Sería el signo contrario ya que antes habíamos dicho en el inciso A) que los trabajadores que viven en el
noreste (Ei) su salario promedio es inferior al salario promedio de los trabajadores que viven en el centro, y
ahora elimino la región noreste e incorporo la región centro (C), quiero seguir captando esa diferencia
entonces el coeficiente tendrá signo positivo mostrando que los trabajadores que viven en el centro
obtienen un salario promedio por encima de los trabajadores que viven en la región omitida que pasa a ser
la región Ei (noreste). La regresión me queda:

𝑊̂𝑖 = Beta0 +Beta1*C + Beta2 *Si + Beta3 *Ni + u

D) PREGUNTAR ESTE POR SI QUEDA ASI:

𝑊̂𝑖 = 4.78 + 0.038C + 0.041Si + 0.048Ni + u

Donde la región omitida es Ei= Noreste

Como la categoría omitida es noreste, este coeficiente de -0.038 se interpreta como que en promedio el
salario promedio de los trabajadores que viven en la zona centro (C) es mayor (al tener signo positivo) al
salario promedio de los trabajadores que viven en el noreste (lo compara con la categoría omitida), es menor
en 0.038 dólares por hora.

E) i) En general es baja, ya que es cierto que la ecuación explica el 49% de la variación de W alrededor de su
media sólo con variables regionales, dado que el r^2 =0.49

Pero no es cierto que pueda afirmar con el r^2 que la variación salarial entre regiones sea alta o baja. Esto
estará dada por la significatividad de los coeficientes asociados a las dummys y la magnitud de ese
coeficiente.

Que haya diferencias salariales no es captado por el r^2, ya que este es un término de bondad de ajuste del
modelo a los datos.

ii) FALSO,

iii) VERDADERA, ya que 4,78 es el salario promedio de la categoría base que es el centro, las diferencias
regionales cuando las comparo con la categoría base son menores.

La afirmación 3 es la más acertada, mientras que la i) es la menos correcta.


F) Se puede agregar todas las variables vistas en tps anteriores, como antigüedad, experiencia, educación , el
sector productivo donde trabaja, la nacionalidad, etc.

EJERCICIO 4.2) La variable D es una variable dummy.

A) No se puede interpretar los coeficientes estimados de C y D porque no son significativos NO ENTIENDO


POR QUE NO SON SIGNIFICATIVOS, osea D se que no es significativa pero no entiendo porque C no lo es.

Ci es el porcentaje de la fuerza laboral afroamericana, la tengo que leer como una variable cuantitativa, osea
que cuando aumenta un punto porcentual la fuerza laboral afroamericana por lo tanto esto genera un
aumento de 0.02 puntos porcentuales en la tasa de actividad masculina, PREGUNTAR ESTO

Di es una variable dummy. Al tener un signo negativo me indica que la tasa de actividad masculina promedio
de las ciudades que pertenecen al sur de EEUU es menor que el promedio de la tasa de actividad masculina
del resto de las ciudades, cuanto menos? 0.8 (que es el valor del coeficiente que acompaña a Di).

B) CUANDO HABLAMOS DE VARIABLES CUANTITATIVAS PODEMOS ESTABLECER ASOCIACIONES DE TIPO


LINEALES. PODEMOS CALCULAR EL GRADO DE ASOCIACION DE PEARSON PARA SABER QUE GRADO DE
ASOCIACION LINEAL EXISTE ENTRE ESTAS VARIABLES.

EN EL CASO DE UNA VARIABLE DUMMY (QUE ES UNA VARIABLE CUALITATIVA), PUEDO TENER
ASOCIACIONES DE TIPO NO LINEALES.

Cuando incluimos una variable dummy ya no estamos hablando de una asociación de tipo lineal y existen
otras medidas del grado de asociación distintas al coeficiente de correlación de Pearson

C) Si hacemos una estimación para una década, y otra estimación para la otra década, el modelo está bien
especificado y cada una de las estimaciones no se encuentran sesgadas. Si hacemos una estimación para
toda la muestra (las dos décadas en conjunto), es preciso incorporar cambio de estructura, para ver si hubo
cambio de estructura en los coeficientes.

Si hacemos una estimación para toda la muestra en conjunto (ambas décadas) y no incorporamos el cambio
de estructura incorporando una variable dummy en el modelo, este estará incorrectamente especificado y
violamos uno de los supuestos de Gauss-Markov, y no sería MELI ya.

Por lo tanto cada una de estas estimaciones no se encontraría sesgada

Por ejemplo: T=2000 a 2019

Z=1 si t > 2010 ; 0 en caso contrario.

Esta Z está captando si fuese significativo el diferencial y ver si hubo cambio de estructura.

El test de chow me dice si hubo cambio de estructura, pero la dummy tiene la ventaja de que al
incorporarla en la regresión y si esta resulta significativa podemos cuantificar y ver en que variable
específicamente se pone en evidencia el cambio de estructura, que variable tiene un efecto diferencial
sobre la variable dependiente.

D) El valor que toma Beta0 (o el intercepto) no está relacionado o no se deriva con las propiedades que
tenga un estimador, si es MELI o no es MELI, son dos aspectos que no están relacionados.
E) Redefino las variables para series de tiempo:

Li= tasa de actividad masculina en el año t

Ui= tasa de desempleo en la i-ésima ciudad en el año t

Ei= ingresos promedio (cientos de dólares al año) en la i-ésima ciudad en el año t (PREGUNTAR SI NO LE
SACO LA I-ÉSIMA CIUDAD O SI SE LO DEJO)

Ii= promedio de otros ingresos (cientos de dólares al año) en la ciudad i en el año t

Si= escolaridad completa promedio (años) en la ciudad i en el año t

Ci= porcentaje de la fuerza laboral afroamericana en el año t

Di= 1 si la ciudad pertenece al sur estadounidense, 0 caso contrario. (esta dummy no la debemos agregar ya
que en el tiempo no tiene variabilidad)

EN ESTE CASO LAS CATEGORÍAS BASE SON CATEGORÍAS QUE NO TIENEN UN VALOR ASOCIADO QUE SE
HAGAN =1 CUANDO HAYA CIUDADES QUE PERTENECEN A ESA REGION, POR EJ DICE QUE ES 1 SI LA CIUDAD
PERTENECE AL SUR ESTADOUNIDENSE, Y 0 SI NO PERTENECE AL SUR, PERO DENTRO DE LOS QUE NO
PERTENECE AL SUR ESTÁN LOS DEL CENTRO, LOS DEL NORTE, LOS DEL ESTE Y LOS DEL OESTE.

Siempre leemos la dummy en función de la categoría base, la categoría que es =0 o la categoría excluída.

EJERCICIO 4.3) De la variable Si la categoría base (Cuando Si=0) se refiere a equipos cuyo estadio fue
construido hace menos de 50 años.

De la variable Ti la categoría base (Cuando Ti=0) se refiere a equipos que no ascendieron a primera división
en el último torneo.

CATEGORÍA BASE = GRUPO DE REFERENCIA. HABLA DE LA DUMMY.

SI ARMO OTRA DUMMY, UNA QUE SEA Hi = 1 si el estadio del i-ésimo equipo fue construido hace menos
de 50 años. ENTRE ESTA NUEVA VARIABLE Hi (QUE SE REFIERE A LOS ESTADIOS MÁS NUEVOS) Y MI
VARIABLE Si (QUE SE REFIERE A LOS ESTADIOS MÁS VIEJOS) TENDRÉ QUE EXCLUÍR EL INTERCEPTO (Beta0).

BETA0 EN ESTE CASO NO TIENE INTERPRETACIÓN ECONOMICA, POR QUE ES NEGATIVO. PERO EN EL CASO
DE QUE FUERA POSITIVO, SERÍA B0=1522.50, SERÍA LA GANANCIA PROMEDIO DE LOS CLUBES CUYO SU
ESTADIO FUE CONSTRUIDO HACE MENOS DE 50 AÑOS (Si=0) Y CUYO EQUIPO NO ASCENDIO A PRIMERA
DIVISION EN EL ÚLTIMO TORNEO (Ti=0).

SI TUVIERA 3 VARIABLES DUMMY, EL INTERCEPTO RESPONDE AL GRUPO DE REFERENCIA CUYO TODAS LAS
DUMMYS SE HACEN =0, ES DECIR EL GRUPO DE REFERENCIA.

A) Todas las variables son significativas. Como la dummy Si tiene signo positivo me dice que los equipos con
estadios más viejos, osea de más de 50 años en promedio tienen ganancias mayores respecto a la categoría
base (osea que son los equipos más nuevos o menos de 50 años).Cuánto es la ganancia promedio de los
equipos más viejos con respecto a los equipos con estadios más jóvenes? Es de 1322.7 en miles de dólares
anuales. El valor de 1322.7 se lee en función de la categoría base.
El signo de la variable Ti es negativo y no concuerda con lo esperado NO ENTIENDO PORQUE

Pero si quisiera interpretarlo puedo decir que los equipos que ascendieron en el último torneo tienen
ganancias en promedio inferiores (por eso el signo negativo) respecto al grupo de referencia, osea los
equipos que ascendieron en el último torneo, cuanto menores las ganancias? 7376.3 en miles de dólares
anuales.

B) Primero chequeo que la estimación no presenta problemas de multicolinealidad severa que puedan
estarincidiendo en el signo observado, si esta variable está bien especificado, etc. Una vez que nos queda un
modelo robusto y si vemos que los coeficientes no cambian su signo o no cambian en gran magnitud su
valor, es decir, el modelo es robusto.

C) Reemplazo P=5 en la estimación:

R techo (estimado) (p=5) = -1522.5 + 5.31(5)

R techo (estimado) (p=5) = -1495.45

Reemplazo P=3 en la estimación:

R techo (estimado) (p=3.50) = -1522.5 + 5.31(3.50)

R techo (estimado) (p=3.50) = -1503.41

Luego hago: R techo (estimado) (p=5) - R techo (estimado) (p=3.50) = -1495.45- (-1503.41)

R techo (estimado) (p=5) - R techo (estimado) (p=3.50) =7,96 en miles de usd anuales (ganancia por sacar 5
puntos)

Serían U$D 7960.

No es redituable pagar al nuevo director 40.000 usd anuales, porque el costo U$D 40.000 > U$D 8000

EJERCICIO 4.4) A) El significado del coeficiente de G me muestra el puntaje del i-ésimo estudiante si es
varón. La nota promedio de los estudiantes varones es de 39.7 puntos por encima de la nota promedio de
las mujeres.

B) Si, dado que Gi es un valor positivo y es significativo nos indica que el puntaje promedio de los varones es
superior al puntaje promedio de las mujeres (que es la categoría base) en 39.7

C) Se podrían agregar variables dummy sobre la procedencia de los estudiantes; o variable dummy sobre los
grupos étnicos; agregar variable dummy sobre el nivel académico de la institución de la que proviene, etc.

D) Cambia el signo de la estimación, quizás también cambia el intercepto (Beta0) y la magnitud. Porque ya el
intercepto me está mostrando el puntaje promedio de las mujeres (que es de 172,4), si altero o defino que
Gi=1 es mujer el intercepto (Beta0) va a indicar el puntaje promedio de los varones (va a ser de -39.7, cambia
el signo).

No modifica la calidad de la estimación, aunque si altera el signo por que cambia la categoría base.
EJERCICIO 4.5) 𝐺𝑖 ̂ = 781 + 15.4Ti – 992Fi + 1770Ji +3027Si – 3160Bi + …

Singificatividad de las variables (5.9) (674) (800) (1006) (2381)

La variable Fi y la variable Bi no es significativa.

A) Los resultados esperados sobre todos los coeficientes deberían ser positivos. Puede haber un alto grado
de asociación entre Bi y Si ya que representan algo muy parecido, esto puede estar generando que la
variable no sea significativa y su signo esté alterado.

B) Si S=1 , osea contratamos a Milton que es una super estrella entonces:

Gt estimado (sombrero) = 781 + 3027

Gt estimado (sombrero) =3808 (en miles de U$D)

Si S=0 , osea no contratamos a una super estrella entonces:

Gt estimado (sombrero) = 781 (en miles de U$D)

Hago la diferencia entre ambos y me da que:

[ Gt estimado (sombrero) con S=1 - Gt estimado (sombrero) con S=0] =

3808-781 = 3027 ( En miles de U$D). Osea son U$D 3.027.000

Esto nos alcanza para pagar los 500.000 U$D que nos pide Milton entonces lo contratamos nuevamente para
la secuela.

LA IDEA ES RECONOCER QUE EL INTERCEPTO REPRESENTA LA CATEGORÍA BASE. CUANDO SE ANALIZA LA


CATEGORÍA ALTERNATIVA, SE SUMA SU COEFICIENTE AL INTERCEPTO. OSEA CUANDO INCORPORAMOS UNA
VARIABLE DUMMY EN FORMA ADITIVA (OSEA NO EN INTERACCION CON OTRA DUMMY Y NO EN
INTERACCIÓN CON UNA VARIABLE ADITIVA) LO QUE ESTAMOS CAPTANDO ES EL INTERCEPTO DIFERENCIAL.

D) Si Ji= 1 si la película fue estrenada en vacaciones de invierno entonces:

Gt estimado (sombrero) = 781+1770

Gt estimado (sombrero) =2551 (en miles de U$D)

Si Ji= 0, si la película fue estrenada en septiembre entonces:

Gt estimado (sombrero) = 781 + 1770*0

Gt estimado (sombrero) = 781(en miles de U$D)

Luego comparo entre las dos opciones:

[ Gt estimado (sombrero) con Ji=1 - Gt estimado (sombrero) con Ji=0] :

2551-781 = 1770 (en miles de U$D)


Conclusión: Conviene estrenarla en vacaciones de invierno, es decir en Julio

EL INTERCEPTO, ES DECIR EL BETA0 SE INTERPRETA COMO LA GANANCIA PROMEDIO DE TODAS LAS


CATEGORIAS BASE, ES DECIR DE TODAS AQUELLAS PELÍCULAS QUE NO TIENEN UNA SUPERESTRELLA COMO
PROTAGONISTA (Si=0), Y QUE AL MENOS UN MIEMBRO DE SU REPARTO NO ES UNA SUPERESTRELLA (Bi=0).
ESTE 781 (QUE ES EL INTERCEPTO O BETA0) REPRESENTA LA GANANCIA PROMEDIO DE TODAS LAS
PELICULAS QUE ESTÁN EN EL CASO CONTRARIO, QUE RESPONDEN A LA CATEGORÍA BASE.

E) La variable Bi no tiene el signo esperado, dado que su signo es negativo. La variable Bi no es significativo.
Lo erróneo es que Bi y Si están asociadas, ya que ser superestrella puede ser protagonista o ser parte del
reparto también y puede entrar en ambas categorías y son dos categorías que están asociadas.

EJERCICIO 4.6) Tengo una variable dummy en interacción con una variable contínua.

El precio de las viviendas (como me muestra el describe del stata) está en función de miles de dólares,
porque dice “house price, in $1000”.

Mientras que la variable sqft que mide el tamaño está en cientos de metros cuadrados “square feet of living
area,in 100s”.

La variable age mide la edad de la vivienda, la mide en años “house age, in years”.

Luego tengo 3 dummys:

 utown =1 if close to university (si la vivienda está cerca de la Universidad)


 pool =1 if house has pool (si la vivienda tiene piscina)
 fplace =1 if house has fireplace (si la vivienda tiene chimenea)

A) En funcion de la mediana (es decir busca el 50% ) como valor de referencia en cual partir, todas las
observaciones que superan este valor van a tomar el valor =1 y las observaciones por debajo del 50% van a
tomar el valor =0 en tamaño de la vivienda.

La variable dummy se va a llamar “large”. El comando en stata que usamos es: gen large = (sqft > 25)

Con el comando: list sqft large podemos listar la variable original sqft y la variable dummy que acabamos de
crear. Y nos va a mostrar que para los valores por debajo de 25 en sqft la variable dummy large toma valor
=0 y para valores por encima del 25 de sqft la variable dummy large toma valor =1

Podemos usar el comando: tab large para saber la distribución y frecuencia relativa y frecuencia acumulada
para ver cuantas observaciones tienen más de 25 metros cuadrados y cuantas observaciones tienen menos
de 25 metros cuadrados (y les otorgan el valor 0).

CUANDO LAS OBSERVACIONES ESTÁN EQUILIBRADAS ENTRE LAS DISTINTAS CATEGORÍAS NO SE ALTERA LA
SIGNIFICATIVIDAD DE LA VARIABLE EN EL SIGNO ESPERADO, O CONTRIBUYE A NO ALTERAR LA
SIGNIFICATIVIDAD DE LA VARIABLE EN ELSIGNO.

Cuando generamos o creamos una variable dummy que capta el precio medio, y nos pide que lo hagamos a
partir del detalle de la estadística descriptiva
Para generar una variable que capte el precio medio, como nos pide que lo hagamos con el detalle de la
estadística descriptiva en stata, pongo el siguiente comando: sum y luego la opción detail.

Entonces tomo como los límites del valor del precio medio al 25% (El valor es 215) y el valor del 75% (El valor
es 278) . Entonces en stata uso el comando: gen midprice = (215 < price ) & (Price <278)

Todas las variables que se encuentren dentro de este intervalo van a tomar valor =1. Y tomarán valor =0 en
caso contrario. La variable midprice es una variable dummy.

ES IMPORTANTE QUE HAGAMOS: tab midprice

Esto me ayuda a ver como quedaron distribuidas las observaciones entre los valores 0 y 1

PREGUNTA: QUE PASARÍA SI CUANDO HAGO EL TAB MIDPRICE EN STATA NO ME QUEDA 50% Y 50% DE
CADA LADO? OSEA ME QUEDA MAL O DISPAREJA LA DISTRIBUCION

B) i) La variable sqft me muestra el impacto del tamaño de la vivienda en el precio de la misma. Mientras que
la variable utown#c.sqft1 me muestra el tamaño con interacción con la variable dummy que indica si
estamos cerca o lejos de una universidad.

El efecto que tiene el tamaño de la vivienda en el precio de la misma se divide en 2 efectos y depende de si
la variable dicotómica (HABLA DE LA VARIABLE DUMMY) en la que está en interacción toma valor =1 o toma
valor =0. Cuando esta variable toma valor =0, cual es el efecto que tiene sobre la variable dependiente
(Price) el aumentar el tamaño en 100 metros cuadrados( en square feet está expresada la variable)? El
efecto lo observo en 7,61 (que es el valor del coef. Del sqft). Porque la variable utown#c.sqft1 es =0.

Mientras que si utown#c.sqft1 toma valor =1, entonces puedo decir que el efecto sobre el precio de
aumentar 100 metros cuadrados está dado por el coef de sqft (7,61) + el efecto de la dummy (1,29). En total
sería de (7,61+1,29 = 8,90)

El 7,61 me mide cuanto más de terreno tiene la casa, osea por cada 100 metros cuadrados sube el precio en
7,61 en miles de usd. Ahora si aparte está cerca de una universidad no solo sube en 7,61 miles de usd, sino
que sube en 8,90 miles de usd.

LA VARIABLE UTOWN TAMBIÉN ESTA EN INTERACCION CON EL TAMAÑO, LA VARIABLE DUMMY


utown#c.sqft1. El efecto diferencial de una vivienda que está localizada cerca de la universidad esta dado
por 27,45 (el coef de utown) + 1,29 (el coef de utown#c.sqft1, cuando esta variable es =1) * (el coef de sqft)
= 60,21 que es el coef de dy/dx de 1.utown

EJERCICIO 4.7) A) 1) Dijo que lo dejaba para las consultas (pedirlo luego)
2) tenemos dos variables dummys (female y black) cuando estas representan atributos distintos tengo que
primero reconocer cual es el grupo de referencia, que es cuando ambas dummys se hacen =0. Y la
estimación se lee en función de ese grupo de referencia.

3)

EJERCICIO 4.7) B) La variable educ es discreta, mientras que el resto son variables cualitativas (dummys). El
salario wage está expresado en logaritmo.

Por ejemplo, para la variable 1.female el efecto diferencial va a estar dado por: 100( e β − 1)%

Quedaría como 100(e−0.23 − 1)% Esto nos muestra el porcentaje diferencial del salario de las mujeres,
respecto al grupo de referencia, en este caso es un salario menor.

EJERCICIO 4.8) Buscamos introducir variables dummy para captar no linealidades. Para este ejercicio en
particular para salario y educación. En este caso educación tiene un efecto positivo (sobre el salario), pero
este efecto positivo no es constante a lo largo de todo el tramo del gráfico o estudio, sino que la pendiente
varía. Para captar dicha variación de la pendiente podemos usar la variable educ^2, sino también
podemos definir dummys para distintos tramos de educación y poner estas dummys en interacción con la
variable educación para captar si la educación tiene un efecto diferencial de acuerdo a cada tramo de
educación que estemos viendo. Entonces podemos dividir el período en distintas dummys, ya sea desde 0
hasta 10 años, de 10 años hasta 20 años, etc.

Con el comando tab en stata podemos obtener una distribución: tab educ

Como veo que hay un gran porcentaje de individuos que han llegado hasta 12 años de educación (sería toda
la primaria y la secundaria completas). Entonces armo una dummy desde 0 años de educación hasta 12 años
de educación.

Entonces pongo en stata: gen D1=1 if (0<educ< 12) (Stata me genera la variable D1 y va a tomar valor 1
cuando educ este entre0 y 12 sin incluir a estos). Y va a ser D1=0 cuando no se cumple esta condición.

Gen D2=1 if educ==12 (Stata va a generar la variable D2y si educ=12 entonces la variable dummy D2 va a
ser igual a 1)

replace D2=0 if missing(D2) (Stata para todos aquellos valores de educ que sean contrarios va a poner un
punto. En estos casos D2 va a valer =0)

Puedo generar otra variable dummy que se llame D3:

Gen D3=1 if educ> 12 (Stata va a poner un punto o un missing value donde no se cumpla esta condición)

replace D3=0 if missing(D3) (Stata va a poner un 0 donde haya un missing value o donde haya un punto)

En la regresión incorporo a las dummys de forma aditiva e interactiva con la variable educ, y vemos si estas
dummys que estuvimos generando resultan significativas, esto significará que de acuerdo a los tramos de
educación definidos existe efectos diferenciales. Osea la educación no tiene efecto lineal o constante, sino
que hay un efecto diferencial captado por las dummys (con estas significativas) de la variable educ sobre el
salario.

Wage= B0 + B1D1+ B2D2 + B3D3 + B4 educ + B5 (educ.D1) + B6 (educ.D2) + B7 (educ.D3)+ ….. + u

COSA IMPORTANTE:

SI ESTAMOS FRENTE A UNA VARIABLE CATEGORICA, CUALITATIVA QUE NO TIENE SOLAMENTE 2


CATEGORÍAS (OSEA =0 E =1) , SINO QUE TIENE

region =1 si el trabajador vive en el sur,

region=2 si el trabajador vive en el norte,

region=3 si el trabajador vive en el centro.

region=4 si el trabajador vive en el este.

La forma de regresar en stata es:

reg W (osea la variable dependiente) educ experiencia (el resto de variables explicativas) i.region

La salida de stata me va a indicar el coeficiente asociado a cada una de estas variables si pongo el i.region

Automaticamente stata muestra las variables dummy y las muestra en la estimación.

También podría gustarte