Está en la página 1de 47

Análisis de datos políticos

Lunes 29 de octubre

1
Cambios de escala
• Cambiar la unidad de medida:
– Pesos a dólares
– Unidades a miles (e.g. dolares, muertes, producción, …)
• ¿Qué efectos tiene si se cambia la escala de la
variable explicada (y)?

• ¿Qué efectos tiene si se cambia la escala de la


variable explicativa(x)?
Escala: redefiniendo las variables
• Cambiar la escala de la variable explicada (y) genera
un cambio correspondiente en la escala de los
coeficientes y errores estándares, pero no afecta la
significancia estadística ni la interpretación.

• Cambiar la escala de una variable explicativa lleva a un


cambio en la escala de ese coeficiente y su error
estándar, pero no cambia la significancia estadítica ni
su intepretación.

• ¿Qué pasa con la bondad de ajuste?


3
Cambio escala

4
En resumen:

• Efectos cambio escala variable dependiente:


– Coeficientes estimados: cambio de escala
– Bondad de ajuste: no cambia
– SCR: cambian reflejando cambio de escala
– 𝜎: cambian reflejando cambio de escala
– No cambian resultados de tests de hipótesis

𝜇 = 𝜇 ∗ 𝜅 → 𝜇 2 = (𝜇 ∗ 𝑘)2
𝑆𝐶𝑅 = 𝜅 2 ∗ 𝑆𝐶𝑅
En resumen:

• Cambios de escala en la variables independientes

– Cambios en la unidad de medida


– Cambia coeficiente de la variable modificada
– No cambia bondad de ajuste
– No cambia SCR ni 𝜎
– Cambia error estándar de coeficiente estimado.
– No cambian resultados test de hipótesis
Forma funcional
• MCO puede usarse para relaciones entre x e y
que no son estrictamente lineales, pero que
mantienen linealidad en los parámetros:

• Logaritmo natural de x o y, o de ambos.

• Términos cuadráticos de x.

• Interacciones entre variables explicativas.

7
¿Por qué usar modelos con
logaritmos?
• Permite modelar una relación no lineal con un
modelo lineal.
• Los modelos son invariantes a cambios de
escala ya que el efecto es en términos
porcentuales.
• Muchas veces la distribución condicional de y
es heterocedástica o asimétrica, mientras que
la de log(y) es menos problematica.
• La distribución de log(y) es más estrecha,
limitando el efecto de los outliers.

8
Interpretación de modelos con
logaritmos
• log(y) = b0 + b1llog(x) + u
– b1 es el cambio porcentual de y ante un cambio
porcentual en x (la elasticidad de y con respecto a x).

• log(y) = b0 + b1x + u
– b1 es aproximadamente el cambio porcentual (en
forma decimal) en y por un cambio de 1 unidad en x.

• Si el modelo es y = b0 + b1log(x) + u
• b1 es aproximadamente el cambio en y para un
cambio de % de x.

9
Interpretación modelos con logaritmos
lôg( salario )  0.3  0.09educ  0.004exper

• ¿Cuál es el “impacto” de un año más de


educación?

• ¿Cuál es la diferencia estimada de salario entre


dos personas con una diferencia de un año de
educación y los mismos años de experiencia?

10
Interpretación modelos con logaritmos
lôg( salario )  0.3  0.09educ  0.004exper

• ¿Cuál es el “impacto” de un año más de educación?

• ¿Cuál es la diferencia estimada de salario entre dos


personas con una diferencia de un año de educación y los
mismos años de experiencia?

• En promedio, una persona con un año más de educación


tiene un salario 9% más alto, ceteris paribus.

11
Efecto logaritmos
(repasar logaritmos si es necesario)
Incorporando información
cualitativa
Incorporando información cualitativa
Variables ficticias (dummy)
• Incorporar información cualitativa dicotómica:
– Mujer/hombre
– Educación universitaria /sin educación universitaria
– Inmigrante / no inmigrante
– Va a reelección / no va a reelección
– Régimen residencial/parlamentario
– Sistema mayoritario/sistema proporcional
– Miembro Mercosur / no es miembro Mercosur
– Productor de petróleo / no productor de petróleo
– ….
Variables ficticias (dummy)

• Las variables cualitativas no son cuantitativas

• Pero modelos de regresión son con variables


cuantitativas….

• Se genera una variable ficticia (dummy) cuantitativa

• Esta variable ficticia toma el valor 1 si pertenece a la


categoría y 0 si no pertenece a esa categoría.
Por ejemplo
Explicar ingresos en función de:
• Años de educación
• Género

Años
Ingresos Género
educación
454.000 7 Mujer
888.012 9 Hombre
625.000 6 Hombre
910.000 11 Mujer

16
Por ejemplo
𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑠 = 𝛽𝑜 + 𝛽1 𝑒𝑑𝑢𝑐 + 𝛽2 ? ? ? +𝜇

Años
Ingresos Género
educación
454.000 7 Mujer
888.012 9 Hombre
625.000 6 Hombre
910.000 11 Mujer

17
Por ejemplo
𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑠 = 𝛽𝑜 + 𝛽1 𝑒𝑑𝑢𝑐 + 𝛽2 ? ? ? +𝜇

• Convertimos la variable explicativa cualitativa


en una variable ficticia cuantitativa:
d_mujer:
• Toma valor 1 si es mujer, 0 sino.

18
Por ejemplo
𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑠 = 𝛽𝑜 + 𝛽1 𝑒𝑑𝑢𝑐 + 𝛽2 𝐷_𝑚𝑢𝑗𝑒𝑟 + 𝜇

Años
Ingresos Género D_mujer
educación
454.000 7 Mujer 1
888.012 9 Hombre 0
625.000 6 Hombre 0
910.000 11 Mujer 1

19
Variables ficticias (dummy)
D_mujer = 1 o 0
𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑠 = 𝛽𝑜 + 𝛽1 𝑒𝑑𝑢𝑐 + 𝛽2 𝐷_𝑚𝑢𝑗𝑒𝑟 + 𝜇

• Cuando D_mujer =1:


𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑠 = 𝛽𝑜 + 𝛽1 𝑒𝑑𝑢𝑐 + 𝛽2 + 𝜇

𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑠 = (𝛽𝑜 + 𝛽2 ) + 𝛽1 𝑒𝑑𝑢𝑐 + 𝜇

• Cuando D=0
𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑠 = 𝛽𝑜 + 𝛽1 𝑒𝑑𝑢𝑐 + 𝜇
Variables ficticias (dummy)
D_mujer = 1 o 0
𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑠 = 𝛽𝑜 + 𝛽1 𝑒𝑑𝑢𝑐 + 𝛽2 𝐷_𝑚𝑢𝑗𝑒𝑟 + 𝜇

• Por lo tanto: diferencia es en el intercepto:

• Mujer: intercepto =𝛽𝑜 + 𝛽2


• Hombre: intercepto =𝛽𝑜
Variables dummy
Importancia Dummies

• Fox(cap 7)
Por ejemplo
𝐼𝑛𝑔 = 130,000 + 25,000 ∗ 𝑒𝑑𝑢𝑐 + 80,000 ∗ D_mujer

• Si es mujer: D_mujer = 1
𝐼𝑛𝑔 = 130,000 + 25,000 ∗ 𝑒𝑑𝑢𝑐 + 80,000
𝐼𝑛𝑔 = 210, 000 + 25,000 ∗ 𝑒𝑑𝑢𝑐

• Si es no es mujer: D_mujer = 0
𝐼𝑛𝑔 = 130,000 + 25,000 ∗ 𝑒𝑑𝑢𝑐

24
Por ejemplo
𝐼𝑛𝑔 = 130,000 + 25,000 ∗ 𝑒𝑑𝑢𝑐 + 80,000 ∗ D_mujer

25
Inferencia
– H0 : 𝛽𝑑𝑢𝑚𝑚𝑦 = 𝑧𝑗
– 𝐻1 : 𝛽𝑑𝑢𝑚𝑚𝑦 ≠ 𝑧𝑗
– Bajo supuestos 1 – 6:
(𝛽𝑑𝑢𝑚𝑚𝑦 − 𝑧𝑗 )
~𝑡(𝑛 − 𝑘 − 1)
𝐸𝑠𝑡. 𝑉𝑎𝑟(𝛽𝑑𝑢𝑚𝑚𝑦 )

• Podemos construir un intervalo de confianza


dado por:
1−𝛼
𝛽𝑑𝑢𝑚𝑚𝑦 ± 𝑡𝑛−𝑘−1 ∗ 𝑠𝑒(𝛽𝑗 )
Variables con múltiples categorías
• Por ejemplo:
– Partido
– Aprueba/No aprueba ni desaprueba /Desaprueba
– Tipo de ocupación
–…
Variables con múltiples categorías
• 3 categorías:
– D1= 1 si categoría=1 y 0 sino
– D2= 1 si categoría=2 y 0 sino
– D3=1 si categoría =3 y 0 sino

SOLO INCLUIMOS #CATEGORÍAS – 1

En este caso, podemos incluir D1 y D2, D2 y D3 o D1 y


D3.

Cambia la categoría base y por lo tanto la interpretación


Variables con múltiples categorías
Variables con múltiples categorías
Ejemplo

BASE = BC BASE = WC BASE = PROF


Intecepto -0.623 -3.36 5.416
(5.228) (6.96) (8.69)
Ingreso 0.001*** 0.001*** 0.001***
(0.000) (0.000) (0.000)
Educación 3.673*** 3.673*** 3.673***
(0.641) (0.641) (0.641)
Prof 6.039 8.776**
(3.867) (2.771)
White collar -2.737 -8.776***
(2.514) (2.771)
Blue collar 2.737 -6.039
(2.514) (3.867)
Variables Categóricas Ordinales
• Central: la diferencia entre una y otra
categoría no es necesariamente la misma –
recordar diferencia entre tipos de variables
con la de intervalo.

• 𝛾 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝐷𝑐𝑎𝑡=2 + 𝛽3 𝐷𝑐𝑎𝑡=3 + 𝛽4 𝐷𝑐𝑎𝑡=4 + 𝜇

• ¿Cómo evaluamos si la diferencia es constante?


Variables Categóricas Ordinales
• 𝛾 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝐷𝑐𝑎𝑡=2 + 𝛽3 𝐷𝑐𝑎𝑡=3 + 𝛽4 𝐷𝑐𝑎𝑡=4 + 𝜇

• Si fuera constante esperaríamos que la diferencia


entre el efecto de pasar de la categoría 1 a la 3 fuera
el doble de pasar de la categoría 1 a la 2, …

• Es decir:
𝐻0 : 𝛽3 = 2 ∗ 𝛽2 ; 𝛽4 = 3 ∗ 𝛽2
Interacción entre variables ficticias
• Interactuar variables ficticias es como subdividir los
grupos.

Por ejemplos: variable dummy para hombre, pero


también por nivel de educación: educación media
completa y educación superior (categoría base es
educación media incompleta o menos): 6 variables
ficticias, se deben incluir 5 categorías.

Por lo tanto, bajo esta formulación tendríamos 6


subgrupos y 6 variables ficticias que indican pertenencia
a cada subgrupo

33
Generando variables ficticias
Var original Vars ficticias sexo Var original Vars ficticias nivel educ Variables ficticias: 6 subgrupos
D homb D homb D mujer D mujer
D ed D ed D ed D homb D mujer
Sexo D hombre D mujer Ni vel educ y ed y ed y ed ed
i ncomp medi a s up y ed s up ed s up
i ncomp medi a i ncomp medi a
Hombre 1 0 Ed i ncomp 1 0 0 1 0 0 0 0 0
Mujer 0 1 Ed i ncomp 1 0 0 0 0 0 1 0 0
Hombre 1 0 Ed medi a 0 1 0 0 1 0 0 0 0
Mujer 0 1 Ed medi a 0 1 0 0 0 0 0 1 0
Hombre 1 0 Ed s up 0 0 1 0 0 1 0 0 0
Mujer 0 1 Ed s up 0 0 1 0 0 0 0 0 1

log(salario) = b0 + b1D_hombre_sin edmedia comp + b2D_mujer educ media +


b3D_mujer ed sup + b4 D_hombre ed media + b5D_hombre ed sup +
b6exp + b7 exp2 + u
34
Estimamos el modelo

Error
Estimador t Valor p
estándar

Intercepto 0.89 0.07 13.308 < 2e-16


Hombre sin ed media completa
0.23 0.08 2.839 0.0047
Mujer ed media 0.12 0.07 1.691 0.0914
Mujer ed sup 0.47 0.08 6.222 0.0000
Hombre ed media 0.57 0.08 7.527 0.0000
Hombre ed sup 0.80 0.07 11.283 < 2e-16
Experiencia 0.04 0.01 7.657 0.0000
Experiencia 2 0.00 0.00 -6.394 0.0000
Número de observaciones: 526
Residual standard error: 0.4237 on 518 degrees of freedom
Multiple R-squared: 0.3732, Adjusted R-squared: 0.3647
F-statistic: 44.06 on 7 and 518 DF, p-value: < 2.2e-16

35
Interacción entre variables ficticias

Otra forma, es la de las interacciones propiamente


tales:
• log(salario) = b0 + b1D_hombre + b2D_ed media +

b3D_ed sup + b4D_hombre*D_ed media+


b5D_hombre*D_ed sup + b6exp + b7 exp2 + u

36
log(salario) = b0 + b1D_hombre + b2D_ed media +
b3D_ed sup + b4D_hombre*D_ed media+
b5D_hombre*D_ed sup + b6exp + b7 exp2 + u
Variables ficticias:
interacciones
variables incluidas
Var originalVars ficticias sexo Var original Vars ficticias nivel educ en el modelo
D homb
D ed D ed D ed D homb
Sexo D hombre D mujer Ni vel educ y ed
i ncomp medi a s up y ed s up
medi a
Hombre 1 0 Ed i ncomp 1 0 0 0 0
Mujer 0 1 Ed i ncomp 1 0 0 0 0
Hombre 1 0 Ed medi a 0 1 0 1 0
Mujer 0 1 Ed medi a 0 1 0 0 0
Hombre 1 0 Ed s up 0 0 1 0 1
Mujer 0 1 Ed s up 0 0 1 0 0
37
Interacción entre variables ficticias
• log(salario) = b0 + b1D_hombre + b2D_ed media +

b3D_ed sup + b4D_hombre*D_ed media+


b5D_hombre*D_ed sup + b6exp + b7 exp2 + u

• Así, la categoría base es…


– Mujer y ed media incompleta o menos: D_hombre=0,
D_ed media=0, D_ed sup=0
– y = b0 + b6exp + b7 exp2 + u
Interacción entre variables ficticias
• log(salario) = b0 + b1D_hombre + b2D_ed media +

b3D_ed sup + b4D_hombre*D_ed media+


b5D_hombre*D_ed sup + b6exp + b7 exp2 + u

Para mujer con educación superior


D_hombre= 0, D_ed media = 0, D_ed sup= 1

y = b0 + b1x + b3D_ed sup + b6exp + b7 exp2 + u


Interacción entre variables ficticias
• log(salario) = b0 + b1D_hombre + b2D_ed media +

b3D_ed sup + b4D_hombre*D_ed media+


b5D_hombre*D_ed sup + b6exp + b7 exp2 + u

• Hombre con educación media completa


D_hombre= 1 and D_ed media =1, D_ed sup= 0
y = b0 + b1D_hombre + b2D_ed media

+ 4D_hombre*D_ed media + b6exp + b7 exp2 + u


log(salario) = b0 + b1D_hombre + b2D_ed media +
b3D_ed sup + b4D_hombre*D_ed media+ b5D_hombre*D_ed sup +
b6exp + b7 exp2 + u

Error
Estimador t Valor p
estándar
Intercepto 0.89 0.07 13.308 < 2e-16
Hombre 0.23 0.08 2.839 0.0047
Ed media 0.12 0.07 1.691 0.0914
Ed sup 0.47 0.08 6.222 0.0000
Ed media y hombre 0.22 0.10 2.232 0.0261
Ed sup y hombre 0.10 0.10 1.049 0.2949
Experiencia 0.04 0.01 7.657 0.0000
Experiencia 2 0.00 0.00 -6.394 0.0000

Número de observaciones: 526


Residual standard error: 0.4237 on 518 degrees of freedom
Multiple R-squared: 0.3732, Adjusted R-squared: 0.3647
F-statistic: 44.06 on 7 and 518 DF, p-value: < 2.2e-16

41
Ejemplo
• Los dos modelos son (obviamente) equivalentes
• El modelo 2 permite observar directamente la diferencia en log(salario)
producto de ser hombre, mientras que en el modelo 1 debemos calcularla.

Modelo 1 Modelo 2
Error Error
Estimador Estimador
estándar estándar
Intercepto 0.89 0.07 Intercepto 0.89 0.07
Hombre sin ed media 0.23 0.08 Hombre 0.23 0.08
Mujer ed media 0.12 0.07 Ed media 0.12 0.07
Mujer ed sup 0.47 0.08 Ed sup 0.47 0.08
Hombre ed media 0.57 0.08 Ed media y hombre 0.22 0.10
Hombre ed sup 0.80 0.07 Ed sup y hombre 0.10 0.10
Experiencia 0.04 0.01 Experiencia 0.04 0.01
Experiencia 2 0.00 0.00 Experiencia 2 0.00 0.00

La cual está compuesta por tres elementos: diferencia


La diferencia con respecto a ser
por educación superior por sobre sin ed media (0.47)
mujer sin educación media completa
más diferencia por ser hombre (0.23) más diferencial de
vs hombre con educación superior es
retorno a la educación superior por ser hombre (0.10)
0.80
En total: 0.47+0.23+0.10=0.80
42
Interacción entre variables ficticias
Categoría base: Mujer y ed media incompleta o menos
D_hombre=0, D_ed media=0, D_ed sup=0
– y = b0 + b6exp + b7 exp2 + u

Para exp=10:
0.89 + 0.04 * 10 - 0.0007 *100=1.2072

Para exp=12:
0.89 + 0.04 * 12 - 0.0007 *144=1.2528
Categoría base: Mujer y ed media incompleta o menos

44
Interacción entre variables ficticias
Hombre con educación media completa
D_hombre= 1 and D_ed media =1, D_ed sup= 0
y = b0 + b1D_hombre + b2D_ed media

+ 4D_hombre*D_ed media + b6exp + b7 exp2 + u

Para exp=10:
0.89 +  0.12  0.22  0.04 * 10 - 0.0007 *100=1.5531

Para exp=12:
0.89 +  0.12  0.22  0.04 * 12- 0.0007 *144=1.5987
Hombre con educación media completa

46
Comparando

47

También podría gustarte