Documentos de Académico
Documentos de Profesional
Documentos de Cultura
NATURALEZA DE LA
REGRESIÓN
Curso: Econometría I
1
❑ El término regresión fue introducido por Galton en su libro “Natural inheritance” (1889)
refiriéndose a la “ley de la regresión universal”
“Una relación estadística, por más fuerte y sugerente que sea, nunca podrá establecer una conexión
causal: nuestras ideas de causalidad deben provenir de estadísticas externas y, en último término, de una
u otra teoría”.
Un agrónomo tal vez se interese en estudiar la relación entre el rendimiento de un cultivo, digamos de trigo,
y la temperatura, lluvia, cantidad de sol y fertilizantes. Un análisis de dependencia de ese tipo facilitaría la
predicción o el pronóstico del rendimiento medio del cultivo según la información sobre las variables
explicativas.
En el ejemplo del rendimiento del cultivo citado, no hay una razón estadística para suponer que la
lluvia no depende del rendimiento del cultivo. Considerar que el rendimiento del cultivo depende de
la lluvia (entre otras cosas) se debe a cuestiones no estadísticas: el sentido común indica que la
relación no puede ser a la inversa, pues no es posible controlar la lluvia mediante el rendimiento del
cultivo.
“La correlación implica asociación,
pero no causalidad.
A la inversa, la causalidad implica
asociación, pero no correlación.”
❑LA PRESENCIA DE UNA CORRELACIÓN NO SIEMPRE SIGNIFICA QUE HAYA UNA
RELACIÓN CAUSAL.
Por ejemplo, un estudio de 1999 publicado en Nature mostró que los niños menores de dos años que dormían con
luces nocturnas tenían más probabilidades de tener miopía. Más tarde, otros investigadores demostraron que los
padres miopes tenían más probabilidades de mantener sus luces encendidas por la noche. Puede ser que los
padres fueran una causa común del uso de luces nocturnas y, en virtud de la herencia genética, la miopía se
transmitió a sus hijos.
❑ LA PRESENCIA DE UNA RELACIÓN CAUSAL NO SIEMPRE SIGNIFICA QUE EXISTE
UNA CORRELACIÓN.
Supongamos que un termostato mantiene un hogar a una temperatura constante controlando un horno de aceite.
Dependiendo de la temperatura exterior, se quemará más o menos aceite. Pero como el termostato mantiene la
temperatura interior constante, la temperatura interior no tendrá correlación con la cantidad de aceite quemado. El
aceite es lo que mantiene la casa caliente, una relación causal, pero no está correlacionada con la temperatura de la
casa.
❑ INCLUSO SI EXISTE UNA RELACIÓN CAUSAL ENTRE DOS VARIABLES, LA CORRELACIÓN POR SÍ
MISMA NO NOS DICE NADA SOBRE LA DIRECCIÓN DE LA CAUSALIDAD.
Por ejemplo, se ha afirmado que los estilos de vida activos pueden proteger el funcionamiento cognitivo de las
personas mayores. Pero algunas evidencias sugieren que la dirección causal es la opuesta: un funcionamiento
cognitivo más alto puede resultar en un estilo de vida más activo.
❑ PUEDE EXISTIR UNA TERCER VARIABLE MEDIDA O NO MEDIDA QUE AFECTE LOS
RESULTADOS DE LA CORRELACIÓN
Por ejemplo, Hyndman & Athanasopoulos 2018, han visto que existe una
relación entre el número mensual de ahogamientos en una playa con la
cantidad de helados vendidos en el mismo período. Los helados no causan
el ahogamiento, ni a la inversa, sino que las personas comen más helados
en los días calurosos cuando también es más probable que vayan a nadar.
Entonces, las dos variables (ventas de helados y ahogamientos) están
correlacionadas, pero una no está causando la otra sino que ambas son
causados por una tercera variable, la temperatura.
Esto se debe a que en el experimento las mujeres tomaron los medicamentos con dosis más bajas y se observó que
respondían menos al tratamiento (línea roja) en comparación con los hombres (línea azul). Es decir, el factor género
confunde la relación entre dosis y respuesta.
Aquí, los resultados globales no permiten observar la estructura verdadera de los datos y conducen a conclusiones
falsas, la relación dosis-respuesta en la población de interés es más compleja. Para evitar este tipo de problemas se
puede utilizar análisis de estratificación donde se divide el análisis en estratos o grupos de interés (e.g. según el
género de los sujetos).
❑ El análisis de correlación se relaciona de manera estrecha con el de regresión, aunque conceptualmente
los dos son muy diferentes.
❑ En el análisis de correlación, el objetivo principal es medir la fuerza o el grado de asociación lineal entre
dos variables. Ejemplo: Encontrar la relación entre las calificaciones en exámenes de estadística
y en exámenes de matemáticas
❑ En el análisis de regresión, se busca estimar o predecir el valor promedio de una variable con base en
los valores fijos de otras. Ejemplo: Se desea predecir el promedio de las calificaciones en un
examen de estadística a partir de la calificación de un estudiante en un examen de matemáticas
La regresión y la correlación presentan diferencias fundamentales.
La mayor parte de la teoría de correlación parte del supuesto de aleatoriedad de las variables.
Mientras que la mayor parte de la teoría de regresión que expondremos en este texto está condicionada
al supuesto de que la variable dependiente es estocástica y que las variables explicativas son fijas o no
estocásticas
Variables 𝒀𝟏𝒊 = 𝑩𝟏𝟎 + 𝑩𝟏𝟐 𝑿𝟐𝒊+ 𝝁𝟏𝒊
dependientes o
endógenas Variables
independientes o
exógenas
Variable dependiente Variable explicativa
Variable explicada Variable
independiente
Predicha Predictora
Regresada Regresora
Respuesta Estímulo
Endógena Exógena
Resultado Covariante
Variable controlada Variable control
DATOS DE SERIES Observaciones de una misma variable recogidas en
TEMPORALES diferentes periodos de tiempo
Pueden ser:
❑ Random Field: Paneles con abundantes datos cronológicos y transversales. Los más extensos.
Los panel desbalanceados pueden surgir por varias razones:
1. Por diseño de la muestra. Por ejemplo, el procedimiento puede simplemente rotar algunas de las observaciones de
corte transversal de acuerdo a una regla específica.
2. Es el problema de la no respuesta. En la práctica, muchas veces, las unidades de corte transversal pueden elegir no
responder alguna pregunta.
3. El problema denominado “attrition” se da cuando algunas unidades de corte transversal eligen salirse del panel.
4. El problema denominado como el “incidental truncation problem” surge cuando las unidades de corte transversal no
desaparecen, pero ciertas variables no se observan por lo menos algún período de tiempo. Cualquiera de estos
casos puede presentar potencialmente un problema de sesgo de selección muestral.
❑ El investigador debe tener siempre en mente que el resultado de la investigación será tan bueno como lo sea la
calidad de los datos. Por tanto, si en algunas situaciones los investigadores concluyen que los resultados de la
investigación son “insatisfactorios”, la causa puede ser la mala calidad de los datos y no un modelo
❑ Equivocado.
❑ Debido a la naturaleza no experimental de los datos de la mayoría de los estudios de ciencias sociales, los
investigadores con frecuencia no tienen más remedio que depender de la información disponible.
❑ Sin embargo, siempre deben tener presente que los datos pueden no ser los mejores y tratar de no ser muy
dogmáticos sobre los resultados de un estudio dado, sobre todo cuando la calidad de los datos no es confiable.