Mqiv 5-7

Departamento de Ciencias Políticas y Sociales
Grado en Ciencias Políticas y de la Administración

Universitat Pompeu Fabra
Metodología cuantitativa IV
Clases 5, 6 y 7: errores de especificación
Bruno Arpino
(Despacho: 20.182; email: bruno.arpino@upf.edu)
Clases 5-7: errores de especificación
¿Que vamos a hacer hoy?

Errores de especificación del modelo
Omisión de variables relevantes y inclusión de variables

irrelevantes
Endogeneidad
Sesgo de selección
Multicolinealidad
Relaciones no lineales
2
Errores de especificación del modelo

Un error de especificación es el incumplimiento de uno
de los supuestos del modelo de regresión lineal.
Con referencia a las variables independientes incluidas

en el modelo pueden haberse dos tipos de errores:
Omisión de variables relevantes (faltan variables relevantes)

Inclusión de variables irrelevantes (hemos incluido más
variables de lo que es necesario)
3
¿Que X hay que incluir en el modelo?
Modelo verdadero
Modelo estimado
por el investigador
Y β0 β1X1 Y β0 β1X1 β2 X2 ε
SESGO
(si X2tiene una relación

ŷ b0 b1x1 Correcto
también con X1;
omisión variable
relevante)
INEFICIENCIA
ŷ b0 b1x1 b 2 x 2 (inclusión variable
Correcto
irrelevante)
(Adaptación de la tabla de Lago, pág. 76)
4
Inclusión de variables irrelevantes

Imaginemos que la religiosidad no influya en el salario de los
individuos. ¿Qué pasa si se incluye esta variable (irrelevante)
en el modelo de regresión lineal como otra variable
independiente?
La inclusión de una variable independiente irrelevante NO

provoca SESGO en la estimación de los coeficientes de la
regresión (pendientes).
Pero provoca INEFICIENCIA: los errores típicos son

sesgados, eso es son (inútilmente) más altos. Esto podría
implicar que una pendiente no resulta significativa sólo
porque el error típico es más alto (y el p-valor es más alto)
de lo que debería ser. 5
Inclusión de variables irrelevantes: ejemplo
Imaginemos que un investigador esté interesado en la

relación entre la edad y el posicionamiento ideológico
(“lrscale”). Supongamos que el investigador haga tres
análisis de regresión lineal:
1) sólo edad como variable independiente (2002-”yrbrn”)

2) edad + años de instrucción (“eduyrs”)
3) edad + años de instrucción + tiempo total pasado
viendo la tele (“tvtot”)
¿Cuál es el modelo mejor?

6
1) sólo edad como variable independiente
7
2) edad + años de instrucción
8
3) edad + años de instrucción + tiempo total pasado

viendo la tele
9

La R2 corregida es más alta en el primer modelo, que sólo
incluye la edad!!! Esto es, el modelo que se ajusta mejor a
los datos es el primero. Añadir las otras variables no mejora
el modelo porqué estas variables no tienen una relación
significativa con la Y.
El error típico de la pendiente de la edad aumenta cuando se

añaden las otras variables (esto siempre pasa). Todavía, en
este caso la conclusión final sobre la pendiente de la edad no
cambia: siempre se rechaza la hipótesis nula (y se acepta la
hipótesis que hay una relación lineal positiva entre
posicionamiento político y edad).
10
El efecto del tamaño de la muestra

El error típico tiende a cero cuando el tamaño muestral tiende a
infinito. Entonces, más grande es la muestra meno grave es el
problema de incluir variables irrelevantes.
En el modelo con variables relevantes omitidas el sesgo NO tiende

a cero cuando el tamaño muestral aumenta.
Entonces, si el tamaño muestral es suficientemente grande, es

menos grave cometer errores de especificación por exceso
(inclusión de variables irrelevantes) que por defecto (exclusión de
variables relevantes).
(Lago pág. 81:) La única manera de asegurar que nuestro
modelo es correcto es tener una buena teoría que nos guíe
en la especificación del modelo.
11
Endogeneidad
En el contexto de un modelo de regresión, se habla de
endogeneidad cuando un supuesto fundamental de la regresión
está violado:
“La componente deterministica y la aleatoria no están

correlacionadas. Es decir, cada variable X tiene cero correlación
con el termino de error, ε.”
Se puede demonstrar que la omisión de variables relevantes

produce la violación de este supuesto de la regresión.
Otro caso: relaciones bidireccionales
En ambos casos la violación del supuesto de la regresión implica un

sesgo en los coeficientes estimados.
12
Un ejemplo de relación bidireccional

(Lago, pag. 93) Imaginemos que un investigador plantee la
hipótesis que estudiar ciencia política aumenta el interés en la
política. La idea podría ser que los que han cursado ciencia política
han tenido contacto con la política como objeto de estudio y esto
debería aumentar sus interés en la política.
Imaginemos que el investigador estime por ejemplo una regresión

con X = (1 si el estudiante ha cursado ciencia política; = 0 si ha
cursado otra carrera) y Y = interés en la política (en una escala 0-
10) medido al final de la carrera.
¿La pendiente de X mide el efecto de cursar ciencia política?
Tenemos un problema de bidirecionalidad: puede que los que han

decidido estudiar ciencia política ya estaban más interesados en la
política! 13
Un ejemplo de relación bidireccional

En muchos casos el problema de la bidirecionalidad se puede ver
también como un problema de variable relevante omitida:
Interés en la política al momento de decidir la carrera (Z)

+ +
Elegir la carrera Interés en la política al

ciencia política (X) final de la carrera (Y)
Si ignoramos el nivel inicial de interés en la política, el efecto de

cursar ciencia política sería sobreestimado (“+” * ”+” = sesgo
positivo). Entonces, la solución a la endogeneidad puede ser
controlar por más variables relevantes, en este caso el nivel inicial
de interés en la política (no siempre es posible si faltan datos). 14
Para practicar
Leed el articulo “La democracia es buena para la salud”.
A. Indicad: el tamaño de la muestra, las variables

dependientes, las variables independientes de
interés (explicativas) y las variables de control.
B. ¿Por qué se han añadido las variables de control?
C. ¿A que se refieren los autores con la expresión “con
independencia de otros factores”?
D. Escribid uno de los modelos de regresión estimado por los
autores.
E. ¿Hay un problema de relación bidireccional en esta
investigación?
15
Según como se selecciona la parte de la muestra,

se puede producir este sesgo -> vamos, cuando la
Sesgo de selección selección de los casos no se hace bien
Se comete al seleccionar la muestra de manera que no sea

representativa de la población relevante (véase también MQIV_9)
El sesgo de selección se puede producir también cuando la muestra

es representativa, pero el investigador selecciona un subconjunto
de datos sobre el cual realizar sus análisis de forma no aleatoria.
Tenemos que distinguir dos casos:
1) el investigador selecciona casos en función de los

valores de la variable dependiente
2) el investigador selecciona casos en función de los

valores de una o más variables independientes
16
Ejemplo
Imaginemos que en el 2006 un investigador quería estudiar el
efecto del posicionamiento ideológico sobre la valoración del
Gobierno Zapatero (0 = muy mal --- 10 = muy bien). Los datos
disponibles eran estos:
Valoración media 6 4 2
Estos datos indican que hay una relación entre posicionamiento
político y la satisfacción con el gobierno: pasando de izquierda a
centro (o de centro a derecha) la satisfacción en media se reduce
de 2 puntos. 17
Es una limitación artificial, un SESGO, ya que no hay una razon para

limitar según este parámetro la muestra
Selección en función de los valores de Y
¿Que pasa si el investigador selecciona solo las personas con
valoraciones iguales o superiores a 4?
La diferencia entre los
grupos es más baja
Los valores de centro
y derecha son más
altos
Se provoca un error Estamos descartando
seleccionando la las valoraciones
muestra en base a peores, y esto
la variable provoca que los tres
dependiente grupos parezcan más
Valoración media 6 5 4 parecidos
El efecto del posicionamiento político sobre la satisfacción con el
gobierno es inferior: pasando de izquierda a centro (o de centro a
derecha) la satisfacción en media se reduce de 1 punto (en lugar
de 2!!!) SESGO de selección.
Es un caso de truncamiento de Y (se limita la variación de Y!) 18

Selección en función de los valores de Y

Se puede ver el efecto de seleccionar casos en función de Y utilizando
un diagrama de dispersión y dibujando la recta estimada en los dos
casos (con todos los casos o solo los casos seleccionados).
La recta negra (estimada eliminando los casos con Y < 4) es más

plana de la recta azul (pendiente más baja y sesgada!). 19
Este tipo de selección no afecta los resultados de la muestra

No provoca un sesgo porque la diferencia entre los grupos se mantiene
Selección en función de los valores de X

¿Que pasa si el investigador selecciona sólo las personas de izquierda o
centro?
El sesgo se podría
provocar si hacemos
extrapolación -> si
hacemos análisis
generales y extraemos
conclusiones a nivel
Valoración media 6 4 poblacional -> entonces
sí que habría sesgo
El efecto del posicionamiento político sobre la satisfacción con el gobierno
no está sesgado! Pasando de izquierda a centro la satisfacción en media se
reduce de 2 puntos. Pero ahora la inferencia no se puede extender
(extrapolación) a las personas de derecha. Si las personas de derecha
tuviesen una valoración media de 4 la extrapolación provocaría una
inferencia sesgada. (En realidad, en el caso de nuestro ejemplo la
extrapolación no provocaría un sesgo pero el investigador no puede
saberlo si las personas de derecha no están en la muestra o si se limita el 20
análisis a las personas de izquierda y centro.)
Un caso famoso de error de selección:

Cesare Lombroso
Lombroso al examinar los cráneos de algunos delincuentes, llegó a
la conclusión que el criminal no es un hombre común si no que por
sus característicos rasgos morfológicos y psíquicos, constituye un
tipo especial.
El criminal según Lombroso presenta signos de inferioridad
orgánica:
Menor capacidad craneana, Mayor diámetro bizigomático,
Gran capacidad orbitaria, Escaso desarrollo de las partes
anteriores y frontales, Abultamiento del occipucio, Frente
hundida, etc.
En particular, en 1871 después de hacer la necropsia a un famoso

bandolero llamado Giuseppe Villella, encontró en su cráneo, en el
sitio de la habitual cresta occipital, un hoyuelo similar a los que
presentan los vertebrados superiores más próximos al hombre. 21
Un caso famoso de error de selección:

Cesare Lombroso
La teoría de Lombroso se puede simplificar así: tener la
deformación del hueso occipital aumenta la probabilidad de ser
criminal.
X: = 1 “tiene hoyuelo occipital”; = 0 “no tiene hoyuelo occipital”
Y: = 1 “criminal”; = 0 “no criminal”.
Problema de la análisis de Lombroso: solo seleccionaba casos con
Y = 1 (criminales). El hecho que entre los criminales habían muchos
con la “deformación” del hueso occipital y otras particularidades
físicas era debido a que la investigación de Lombroso se limitaba a
una área geográfica especifica.
Además los criminales analizados eran en mayoría de las clases
sociales más pobres.
Las características físicas encontradas no eran debidas a que estas
personas eran criminales! 22
Multicolinealidad y confundimiento
estructural
Imaginemos que Messi juegue solo cuando el Barça juega en casa.
¿Se puede estimar cual es el efecto de que Messi juegue o no sobre
la probabilidad que el Barça gane un partido?
Supongamos que tenemos datos sobre 200 partidos (100 jugados
en casa y 100 fuera):
El Barça Messi juega

gana Sí No
Sí 80 60
No 20 40
Total 100 100
¿Se puede decir que si Messi juega es más probable que el Barça
gane? 23
El problema aquí es que las dos cosas van juntas. Messi está afectado por el hecho de jugar
en el camp nou
No se puede
Multicolinealidad y confundimiento diferenciar el
efecto de las
estructural Para dos variables
diferenciarlo,
El Barça Messi juega los % El Barça Partido en casa
gana Sí No diferentes gana
deberían ser
Sí No
Sí 80 60 Sí 80 60
No 20 40 No 20 40
Total 100 100 Total 100 100
Este caso se llama multicolinealidad perfecta o confundimiento estructural
Cuando Messi juega la probabilidad de que el Barça gane es 80%

en lugar de 60% cuando Messi no juega. Pero no se puede atribuir
este efecto al hecho de que Messi juegue porque la diferencia
observada podría ser debida a jugar en casa (Messi juega solo
cuando el Barça juega en casa). Las variables “Messi juega” y
“Partido en casa” son estructuralmente confundidas: no se
puede distinguir el efecto de una variable independiente de lo de la
otra. 24
estructural
Consideremos el ejemplo del articulo sobre la relación entre
democracia y salud. Si todos los países democráticos fueran países
ricos y al revés todos los países no democráticos fueran países
pobres, no seria posible aislar el efecto de la democracia del efecto
del nivel de riqueza.
No seria posible un análisis “a paridad de condiciones” porque

cuando la variable riqueza es mantenida constante (por ejemplo, se
cogen solo los países ricos) también la variable “democracia” no
variaría (solo nos quedaríamos con países democráticos) y no sería
posible establecer si hay un efecto al variar del sistema político
sobre la salud.
25
estructural
En el contexto de la regresión, el concepto de confundimiento
estructural corresponde a lo de perfecta multicolinealidad: hay
una relación lineal perfecta entre dos (o más) variables
independientes.
Ejemplo: edad y cohorte de nacimiento tienen una perfecta relación

lineal en datos trasversales. Por ejemplo, en la primera ola de la
ESS: Es como muy obvio pero hay una relación lineal perfecta
entre edad y año de nacimiento
Pasa lo mismo que con el caso de Messi
edad = 2002 – yrbrn Al aumentar la edad 1 año, significa haber nacido un año
antes
Dos (o más) variables que son perfectamente multicolineales
no se pueden incluir simultáneamente como variables
independientes en un modelo de regresión lineal (no se pueden
distinguir los efectos de estas variables). 26
Si cogemos dos cortes de año para calcular la edad (2012 y 2002 por ejemplo), sí que
podríamos incluir en el modelo de regresión la edad y el año de nacimiento, porque es posible
aumentar la edad manteniendo el corte de nacimiento igual
estructural
Cuando la correlación entre las X no es perfecta, estas variables sí
que se pueden incluir simultáneamente pero pueden haberse
problemas si las correlaciones entre ellas son fuertes.
Cuando no es perfecta, las dos variables se pueden incluir en el estudio
El problema es que el modelo no puede distinguir bien los efectos
de las diferentes variables y esto implica que los errores típicos (y
los p-valores) pueden ser muy altos (y las correspondientes
pendientes ser no significativas) aunque las variables estén en
realidad correlacionadas con la Y!
El FIV (factor de inflación de la variancia) es un indicador de
multicolinealidad: si una variable X tiene un valor de este índice
más alto de 10 significa que esta variable tiene una correlación muy
alta con las otras variables independientes (hay un problema de
multicolinealidad). En SPSS: Analizar Regresión Lineales
Gráficos y Estadísticos Diagnosticos de colinealidad 27
El FIV: un ejemplo
Consideremos la regresión del posicionamiento político sobre
instrucción, genero y años de nacimiento. ¿Hay multicolinealidad?
Coeficientesa
Coeficientes no Coeficientes
estandarizados tipificados Estadísticos de colinealidad
Modelo B Error típ. Beta t Sig. Tolerancia FIV

1 (Constante) 36,722 6,440 5,702 ,000
Years of full-time education completed ,014 ,011 ,039 1,237 ,216 ,758 1,319
genero ,351 ,110 ,088 3,204 ,001 ,999 1,001

Year of birth -,017 ,003 -,159 -5,024 ,000 ,757 1,320
a. Variable dependiente: Placement on left right scale
Cuánto los años de estudio están en relación con las otras dos
El índice FIV es muy bajo para todas las variables (<< 10).
Entonces no hay problema de multicolinealidad en esta regresión.
El FIV mide cuanto cada variable independiente está relacionada con las otras independientes
Tiene valores positivos y nunca inferiores a 1
Para decidir si la correlación es demasiado fuerte, se utiliza el límite de 10. si el FIV está por
encima de 10, la correlación es demasiado alta. si está por debajo no nos preocupamos
28
Felicidad = b0 + b1 Sueldo + b2 Patrimonio Inmobiliario + b3 Edad
FIV : 28,21 37,05 6,41
Sueldo y patrimonio tienen una relación muy fuerte, pero no perfecta. Los podemos incluir
¿Que hacer si hay multicollinealidad?
Seleccionar solo algunas X. Ejemplo: PIB per cápita y porcentaje de
trabajadores del sector terciario. Ambos son indicadores de
desarrollo económico y podemos pensar de utilizar solo uno de ellos.
Construir un indicador que resume las variables multicolineales.
Ejemplo: PIB, esperanza de vida, tasa de alfabetización, etc. son
indicadores de desarrollo socioeconómico. Se puede construir un
indicador como el Índice de desarrollo humano de las Naciones
Unidas.
(http://es.wikipedia.org/wiki/%C3%8Dndice_de_desarrollo_humano)
Mantener todas las variables en el modelo, pero interpretar los

resultados con cuidado! (Esta solución es preferible solo cuando no
nos interesan los efectos individuales de las variables sino nos
interesa el modelo en su totalidad para hacer predicciones que
utilicen toda la información disponible).
Recoger más observaciones de manera que se reduzca la
29
multicolinealidad (no siempre es posible).
Para practicar
Con referencia al articulo “La democracia es buena para la
salud”:
A. ¿Hay un problema de multicolinealidad en esta

investigación? ¿Por qué? ¿Y como se podría resolver?
B. Hacer por lo menos un ejemplo de como se podría

provocar un sesgo de selección en el análisis de la relación
entre salud y democracia.
30
Error de especificación de la forma funcional
Yi β0 β1X1i β 2 X 2i β k X ki ε i
El modelo de regresión lineal en su forma básica supone una

relación lineal entre la Y y las variables independientes, esto es
que el efecto marginal de cada X es constante: por ejemplo
añadir una unidad de X2 siempre tiene el mismo el efecto sobre la Y
(medido por b2).
En algunos casos la relación entre las variables puede ser curvilínea

(parabólica, logarítmica, etc.): el efecto de X sobre Y puede
cambiar según el punto en la distribución de X.
31
Ejemplos de relaciones parabólicas
En los casos C y F estimar una relación lineal es del todo incorrecto:

la correlación lineal seria 0 (o muy cerca de 0). Esto indica que no
hay relación lineal. Pero sí que hay otro tipo de relación!
En los otros casos una recta seria una aproximación de la
verdadera relación entre las variables: la pendiente de la recta
subestima el efecto de la X en algunos puntos de la distribución y lo
sobreestima en otros.
32
Un ejemplo real de relación no lineal

Relación entre identificación autonómica (CA) y porcentaje de votos
al principal partido de ámbito no estatal (PANE) en cada CA.
Fuente:
Fernández-Albertos, J., & Lago, I. (2015). Gobiernos autonómicos e identidades
regionales en España, 1980-2012. Política y gobierno, 22(2), 283-315. 33
Ejemplo de relación parabólica

Se sabe que beber suficiente agua es importante para la salud. La
cantidad de agua que cada persona tiene que beber depende de
muchos factores, como el peso. Una persona con peso de 160 libras
(72,5 kg), debería beber 80 onzas (2268 gramos) de agua por día
(http://nutrition.about.com/od/hydrationwater/a/waterarticle.htm).
Imaginemos que un medico haya recopilado datos sobre 25

pacientes (todos con peso de 160 libras). Imaginemos que el
medico haya medido el amontar de agua bebido por día (“water”) y
el estado de salud de los pacientes con un índice de 0 a 100
(“health”, más alto es el índice, mejor es el estado de salud).
34

El medico ha recomendado a todos de beber 80 onzas de agua por
día. Pero, no todos han seguido la recomendación del medico (el
amontar medio bebido por día varia de 55 a 95 onzas.
Considerando el diagrama de dispersión es evidente que hay una

relación no lineal entre
100
amontar de agua y
salud.
80
60
Evidencia de “water
Health
intoxication” (intoxicación
40
por agua) si se bebe

mas de 80 onzas!
20
http://chemistry.about.com/cs/5/f/blwaterintox.htm
0
0 20 40 60 80 100
Water 35

Las rectas roja y verde son ambas rectas de regresión lineal
simple. La diferencia
100 120 140 160

es que la recta roja health b 0 b1water
excluye los pacientes
que han bebido mas
80
de 80 onzas por día.
60
40
Ninguna de las dos 20
rectas es apropiada
0
0 20 40 60 80 100 120 140

porque ambas ignoran Water
que después el nivel 80, aumentar la cantidad

Health
Fitted values
Fitted values
de agua tiene un efecto negativo sobre la salud.
La recta roja representa mejor la relación por niveles de agua

inferior a 80 y peor por niveles superior a 80. 36

Utilizando una regresión múltiple es muy fácil estimar una
relación parabólica. Es suficiente añadir la variable
independiente elevada al cuadrado (water)2 como si fuera otra
variable independiente:
health b0 b1water b 2 water2
En SPSS se puede crear una nueva variable (water)2 y utilizarla

normalmente como si fuera una variable independiente
cualquiera o se puede utilizar “Analizar Regresión
Estimación Curvilínea”.
37
100 120 140 160

health -192.38 6.72 * water 0.04 * water2
El diagrama indica que la parábola
80
estimada se ajusta mejor de las
60
dos rectas a los datos!
40
20
Interpretación de los coeficientes
0
de la regresión estimada:
0 20 40 60 80 100
b0 = -192.38 es el valor predicho Water
del indicador de salud por un paciente que ha bebidoHealth

0 onzas de
Fitted values
Fitted
Fitted
agua por día. (Claramente no tiene sentido en este caso
interpretar la constante).
b1 y b2 no se pueden interpretar normalmente! (Por ejemplo
aumentar “water” de 1 unidad manteniendo “water2” constante
38
no es posible!)
100 120 140 160

Para interpretar b1 y b2
formalmente podemos calcular la
derivada primera:
80
healt h 6.72 0.04 * 2 * water
60
40
20
Esto indica que el efecto marginal
0
no es constante: es positivo hasta 0 20 40 60 80 100
el valor 84 y negativo después. Water
Health Fitted
- b1
6.72 0.04 * 2 * water 0 Haces la 2a derivada
b2 < 0 -> convexa
Fitted values Fitted
2*b2 6.72 para saber el mínimo (o

water 84 máximo) de la parábola
b2 > 0 -> concava
0.08
En general b2 indica si la concavidad es hacia abajo (como en
este ejemplo) o hacia arriba. El punto de máximo o mínimo es X
= -b1 / 2b2 39
Otro ejemplo de relación parabólica

Estimar una relación parabólica entre
el nivel de felicidad en una escala de 0 a 100
( “felicidad”) y el numero de horas
trabajadas normalmente a la semana
Felicidad
(“horas”).
R2 corregida indica que el modelo

parabólico se ajusta mejor a los datos.
Horas trabajadas
Modelo lineal Modelo parabólico:

Resumen del modelob Resumen del modelob
R cuadrado Error típ. de la R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación Modelo R R cuadrado corregida estimación
1 ,201a ,040 ,036 12,120 1 ,312a ,098 ,089 11,779
40
Otro ejemplo de relación parabólica

b2 es significativo: el modelo
parabólico es mejor del modelo lineal.
Felicidad
También en este caso la concavidad
es hacia abajo (b2 negativo).
(Parábola cóncava;
https://es.wikipedia.org/wiki/Concavidad)
Horas trabajadas
Coeficientesa
Coeficientes no estandarizados Coeficientes tipificados Estadísticos de colinealidad

Toleranci
Modelo B Error típ. Beta t Sig. a FIV
1 (Constante) 12,042 5,614 2,145 ,033
wkhtotp 1,010 ,225 ,930 4,489 ,000 ,097 10,283
wkhtotp2 -,008 ,002 -,768 -3,705 ,000 ,097 10,283 41
Para practicar
Unos investigadores han estudiado la relación entre identificación
nacional con España y porcentaje de votos al principal partido de
ámbito no estatal en las diferentes comunidades autónomas (CA).
Los investigadores han calculado el porcentaje de individuos que en
las encuestas del CIS declaran sentirse identificados únicamente
con España y el porcentaje de votos al principal partido de ámbito
no estatal en cada CA (“votos”). Comentar los resultados de sus
investigación basados en un modelo de regresión donde se han
incluido las variables “votos” y su cuadrado (“votos2”) como
variables independientes: Coeficientesa
Coeficientes no
estandarizados
Modelo B Error típ. Sig.

1 (Constante) 62,042 11,057 ,000
votos -0,400 0,076 ,000
votos2 0,005 0,001 ,008
Ejercicio inspirado en:
Fernández-Albertos, J., & Lago, I. (2015). Gobiernos autonómicos e identidades 42
regionales en España, 1980-2012. Política y gobierno, 22(2), 283-315.
Referencias
Capítulo 7 de: LAGO, Ignacio. La lógica de la explicación
en ciencias sociales: una introducción metodológica.
Madrid: Alianza Editorial, 2008
Paragrafos 13.7, 14.4, 14.5 (solo las partes relevantes) de:

NEWBOLD, Paul; CARLSON, William L.; THORNE, Betty M.
Estadística para Administración y Economía. Sexta Edición.
Madrid: Prentice Hall, 2008 (¡En la Aula Global!)
43
Si algo no queda claro…
podéis pedirme tutorías
o escribirme un email
44
Apéndice
45
Omisión de variables relevantes:
(otro) ejemplo
Supongamos que el salario dependa de instrucción, antigüedad en
la empresa y días de ausencia injustificada (véase Lago, página 79).
Antigüedad
+
+
¿Que pasa si
estimamos el efecto Años de +
de los años de - estudio Salario
estudio controlando
solo por la antigüedad?
-
Ausencias
-
Habría un sesgo debido
a la exclusión de una variable relevante injustificadas
(baja laboral). Y el sesgo seria positivo (“-” * “-” = “+”. Hay un
46
error en Lago, páginas 79-80)
Omisión de variables relevantes:
(otro) ejemplo
Supongamos que el salario dependa de instrucción, antigüedad en
la empresa y días de ausencia injustificada (véase Lago, página 79).
Antigüedad +
+
¿Que pasa si
estimamos el efecto Años de +
de los años de - Salario
estudio
estudio controlando
solo por las ausencias?
-
-
Habría un sesgo debido Ausencias
a la exclusión de una variable relevante injustificadas
(antigüedad). Y el sesgo seria positivo también en este caso (“+” *
47
“+” = “+”).
Transformaciones logarítmicas
Una alternativa a la estimación de relaciones parabólicas es utilizar
una transformación logarítmica.
Es bastante común hacer transformaciones logarítmicas de variables
con asimetría positiva (p.ej., PIB, salario, etc.).
Modelo semilogarítmico: log(Y) = b0+ b1 X + ε

Por cada aumento de una unidad de X, Y varia de (100*β1)%
(semielasticidad)
Modelo logarítmico: log(Y) = b0+ b1log(X) + ε

Por cada aumento de 1% de X, Y varia de β1%
(elasticidad)
48

Mqiv 5-7

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mqiv 5-7

Cargado por

Copyright:

Formatos disponibles

Departamento de Ciencias Políticas y Sociales

Grado en Ciencias Políticas y de la Administración

Clases 5, 6 y 7: errores de especificación

¿Que vamos a hacer hoy?

Omisión de variables relevantes y inclusión de variables

Errores de especificación del modelo

Con referencia a las variables independientes incluidas

Omisión de variables relevantes (faltan variables relevantes)

¿Que X hay que incluir en el modelo?

(si X2tiene una relación

Inclusión de variables irrelevantes

La inclusión de una variable independiente irrelevante NO

Pero provoca INEFICIENCIA: los errores típicos son

Inclusión de variables irrelevantes: ejemplo

Imaginemos que un investigador esté interesado en la

1) sólo edad como variable independiente (2002-”yrbrn”)

¿Cuál es el modelo mejor?

Inclusión de variables irrelevantes: ejemplo

1) sólo edad como variable independiente

Inclusión de variables irrelevantes: ejemplo

2) edad + años de instrucción

Inclusión de variables irrelevantes: ejemplo

3) edad + años de instrucción + tiempo total pasado

Inclusión de variables irrelevantes: ejemplo

El error típico de la pendiente de la edad aumenta cuando se

El efecto del tamaño de la muestra

En el modelo con variables relevantes omitidas el sesgo NO tiende

Entonces, si el tamaño muestral es suficientemente grande, es

“La componente deterministica y la aleatoria no están

Se puede demonstrar que la omisión de variables relevantes

Otro caso: relaciones bidireccionales

En ambos casos la violación del supuesto de la regresión implica un

Un ejemplo de relación bidireccional

Imaginemos que el investigador estime por ejemplo una regresión

¿La pendiente de X mide el efecto de cursar ciencia política?

Tenemos un problema de bidirecionalidad: puede que los que han

Un ejemplo de relación bidireccional

Interés en la política al momento de decidir la carrera (Z)

Elegir la carrera Interés en la política al

Si ignoramos el nivel inicial de interés en la política, el efecto de

A. Indicad: el tamaño de la muestra, las variables

Según como se selecciona la parte de la muestra,

Se comete al seleccionar la muestra de manera que no sea

El sesgo de selección se puede producir también cuando la muestra

Tenemos que distinguir dos casos:

1) el investigador selecciona casos en función de los

2) el investigador selecciona casos en función de los

Es una limitación artificial, un SESGO, ya que no hay una razon para

Es un caso de truncamiento de Y (se limita la variación de Y!) 18

Selección en función de los valores de Y

La recta negra (estimada eliminando los casos con Y < 4) es más

Este tipo de selección no afecta los resultados de la muestra

Selección en función de los valores de X

Un caso famoso de error de selección:

En particular, en 1871 después de hacer la necropsia a un famoso

Un caso famoso de error de selección:

El Barça Messi juega

Cuando Messi juega la probabilidad de que el Barça gane es 80%

No seria posible un análisis “a paridad de condiciones” porque

Ejemplo: edad y cohorte de nacimiento tienen una perfecta relación

Modelo B Error típ. Beta t Sig. Tolerancia FIV

genero ,351 ,110 ,088 3,204 ,001 ,999 1,001

Mantener todas las variables en el modelo, pero interpretar los