Está en la página 1de 34

UNIVERSIDAD NACIONAL DE TUMBES

FACULTAD DE CIENCIAS ECONÓMICAS


ESCUELA DE ECONOMIA

NATURALEZA DE LA
REGRESIÓN
Curso: Econometría I

Docente : Mg. Econ. Yaritza Montero Oblea

1
❑ El término regresión fue introducido por Galton en su libro “Natural inheritance” (1889)
refiriéndose a la “ley de la regresión universal”

❑ “Cada peculiaridad en un hombre es compartida por sus descendientes, pero en


media, en un grado menor.” (Regresión a la media)

❑ Su trabajo se centraba en la descripción de los rasgos físicos de los descendientes


FRANCIS (una variable) a partir de los de sus padres (otra variable).
GALTON
Inglés, 1822-1911
❑ Pearson (un amigo suyo) realizó un estudio con más de 1000 registros de grupos
familiares observando una relación del tipo:

▪ Altura del hijo = 85cm + 0,5 altura del padre (aprox.)


▪ Conclusión: los padres muy altos tienen tendencia a tener hijos que heredan parte
de esta altura, aunque tienen tendencia a acercarse (regresar) a la media. Lo mismo
puede decirse de los padres muy bajos.

Hoy en día el sentido de regresión es el de predicción de una medida basándonos


en el conocimiento de otra.
El análisis de regresión trata del estudio de la dependencia de
una variable (variable dependiente) respecto de una o más
variables (variables explicativas) con el objetivo de estimar o
predecir la media o valor promedio poblacional de la primera en
términos de los valores conocidos o fijos (en muestras repetidas)
de las segundas.
Teniendo en cuenta el ejemplo proporcionado por Francis Galton, se debe indicar que:
En el enfoque moderno de la regresión, la preocupación es averiguar cómo cambia la estatura promedio de los
hijos dada la estatura de los padres.

1. La figura muestra la distribución de las estaturas de los


hijos en una población hipotética, correspondiente al
conjunto de valores dados o fijos de las estaturas de los
padres.

2. Las cruces dentro de los círculos en la figura indican la


estatura promedio de los hijos que corresponde a una
estatura determinada de los padres. Estos promedios se
conectan para obtener la línea recta de la figura (recta de
regresión)
1. En el diagrama de dispersión se presenta la
distribución de una población hipotética de estaturas
de niños en edades fijas. Observe que existe un
rango de estaturas correspondiente a cada edad.

2. En promedio, la estatura se incrementa con la edad,


que se ve con claridad al trazar una recta.

3. Por consiguiente, si se conoce la edad, se predice la


estatura promedio de dicha edad mediante la recta de
regresión.
1. Al considerar lo referente a la economía, a un
economista quizá le interese estudiar la
dependencia del consumo personal respecto
del ingreso personal neto disponible (después
de impuestos).

2. Con un análisis de este tipo se calcula la


propensión marginal a consumir (PMC), es
decir, el cambio promedio del consumo ante
un cambio, digamos, de un dólar en el ingreso
real
1. En la economía monetaria se sabe que, si se
mantienen constantes otros factores, cuanto mayor
sea la tasa de inflación π, menor será la proporción
k del ingreso que la gente deseará mantener en
forma de dinero.

2. La pendiente de esta recta representa el cambio en


k con un cambio en la tasa de inflación. Un análisis
cuantitativo de esta relación permite al economista
predecir la cantidad de dinero, como proporción del
ingreso, que la gente deseará mantener con
diversas tasas de inflación.
❑ Proporcione tres ejemplos de la dependencia de una variable respecto de otra o más variables
RELACIONES ESTADISTICAS RELACIONES DETERMINISTICAS

▪ La relación entre las variables es


▪ La relación de dependencia entre
determinística.
las variables es estadística.

▪ Las variables no son aleatorias (e.g. la


▪ Esto implica que por lo menos la
velocidad de la luz es constante en la física
variables independiente tiene que
clásica).
ser estocástica (i.e. que tiene una
distribución de probabilidad).
▪ Ejemplo: Las leyes de Newton.
A pesar de que el análisis de regresión tiene que ver con la dependencia de una variable respecto de otras
variables, esto no implica causalidad necesariamente.

En palabras de Kendall y Stuart:

“Una relación estadística, por más fuerte y sugerente que sea, nunca podrá establecer una conexión
causal: nuestras ideas de causalidad deben provenir de estadísticas externas y, en último término, de una
u otra teoría”.
Un agrónomo tal vez se interese en estudiar la relación entre el rendimiento de un cultivo, digamos de trigo,
y la temperatura, lluvia, cantidad de sol y fertilizantes. Un análisis de dependencia de ese tipo facilitaría la
predicción o el pronóstico del rendimiento medio del cultivo según la información sobre las variables
explicativas.

En el ejemplo del rendimiento del cultivo citado, no hay una razón estadística para suponer que la
lluvia no depende del rendimiento del cultivo. Considerar que el rendimiento del cultivo depende de
la lluvia (entre otras cosas) se debe a cuestiones no estadísticas: el sentido común indica que la
relación no puede ser a la inversa, pues no es posible controlar la lluvia mediante el rendimiento del
cultivo.
“La correlación implica asociación,
pero no causalidad.
A la inversa, la causalidad implica
asociación, pero no correlación.”
❑LA PRESENCIA DE UNA CORRELACIÓN NO SIEMPRE SIGNIFICA QUE HAYA UNA
RELACIÓN CAUSAL.
Por ejemplo, un estudio de 1999 publicado en Nature mostró que los niños menores de dos años que dormían con
luces nocturnas tenían más probabilidades de tener miopía. Más tarde, otros investigadores demostraron que los
padres miopes tenían más probabilidades de mantener sus luces encendidas por la noche. Puede ser que los
padres fueran una causa común del uso de luces nocturnas y, en virtud de la herencia genética, la miopía se
transmitió a sus hijos.
❑ LA PRESENCIA DE UNA RELACIÓN CAUSAL NO SIEMPRE SIGNIFICA QUE EXISTE
UNA CORRELACIÓN.

Supongamos que un termostato mantiene un hogar a una temperatura constante controlando un horno de aceite.
Dependiendo de la temperatura exterior, se quemará más o menos aceite. Pero como el termostato mantiene la
temperatura interior constante, la temperatura interior no tendrá correlación con la cantidad de aceite quemado. El
aceite es lo que mantiene la casa caliente, una relación causal, pero no está correlacionada con la temperatura de la
casa.
❑ INCLUSO SI EXISTE UNA RELACIÓN CAUSAL ENTRE DOS VARIABLES, LA CORRELACIÓN POR SÍ
MISMA NO NOS DICE NADA SOBRE LA DIRECCIÓN DE LA CAUSALIDAD.

Por ejemplo, se ha afirmado que los estilos de vida activos pueden proteger el funcionamiento cognitivo de las
personas mayores. Pero algunas evidencias sugieren que la dirección causal es la opuesta: un funcionamiento
cognitivo más alto puede resultar en un estilo de vida más activo.
❑ PUEDE EXISTIR UNA TERCER VARIABLE MEDIDA O NO MEDIDA QUE AFECTE LOS
RESULTADOS DE LA CORRELACIÓN

Por ejemplo, Hyndman & Athanasopoulos 2018, han visto que existe una
relación entre el número mensual de ahogamientos en una playa con la
cantidad de helados vendidos en el mismo período. Los helados no causan
el ahogamiento, ni a la inversa, sino que las personas comen más helados
en los días calurosos cuando también es más probable que vayan a nadar.
Entonces, las dos variables (ventas de helados y ahogamientos) están
correlacionadas, pero una no está causando la otra sino que ambas son
causados por una tercera variable, la temperatura.

La relación entre la venta de helados y el número de ahogamientos es


espuria.
❑ LA PARADOJA DE SIMPSON

Muestra que en determinados casos se


produce un cambio en la relación entre un
par de variables, cuando se controla el efecto
de una tercera variable.

Por ejemplo, la asociación entre dos


variables se puede invertir según cómo se
agrupen los datos en subpoblaciones. La
siguiente figura nos permite explicar la
paradoja.
Imagina un experimento donde se evalúa la respuesta a un tratamiento farmacológico. Los datos en su conjunto
indican que a mayor dosis del medicamento, mayor respuesta en los sujetos tratados (la línea negra). Sin embargo,
cuando se dividen los resultados por género vemos que la relación es distinta según el sexo de los sujetos analizados.

Esto se debe a que en el experimento las mujeres tomaron los medicamentos con dosis más bajas y se observó que
respondían menos al tratamiento (línea roja) en comparación con los hombres (línea azul). Es decir, el factor género
confunde la relación entre dosis y respuesta.

Aquí, los resultados globales no permiten observar la estructura verdadera de los datos y conducen a conclusiones
falsas, la relación dosis-respuesta en la población de interés es más compleja. Para evitar este tipo de problemas se
puede utilizar análisis de estratificación donde se divide el análisis en estratos o grupos de interés (e.g. según el
género de los sujetos).
❑ El análisis de correlación se relaciona de manera estrecha con el de regresión, aunque conceptualmente
los dos son muy diferentes.

❑ En el análisis de correlación, el objetivo principal es medir la fuerza o el grado de asociación lineal entre
dos variables. Ejemplo: Encontrar la relación entre las calificaciones en exámenes de estadística
y en exámenes de matemáticas

❑ En el análisis de regresión, se busca estimar o predecir el valor promedio de una variable con base en
los valores fijos de otras. Ejemplo: Se desea predecir el promedio de las calificaciones en un
examen de estadística a partir de la calificación de un estudiante en un examen de matemáticas
La regresión y la correlación presentan diferencias fundamentales.

ANÁLISIS DE REGRESIÓN ANÁLISIS DE CORRELACIÓN

➢ Hay una asimetría en el tratamiento a las ➢ Se tratan dos variables cualesquiera en


variables dependientes y explicativas. forma simétrica.

➢ Se supone que la variable dependiente es ➢ Es decir, no hay distinción entre las


estadística, aleatoria o estocástica, es decir, que variables dependiente y explicativa.
tiene una distribución de probabilidad.

➢ Por otra parte, se asume que las variables


explicativas tienen valores fijos (en muestras
repetidas),
❑ CONCLUSIÓN:

La mayor parte de la teoría de correlación parte del supuesto de aleatoriedad de las variables.

Mientras que la mayor parte de la teoría de regresión que expondremos en este texto está condicionada
al supuesto de que la variable dependiente es estocástica y que las variables explicativas son fijas o no
estocásticas
Variables 𝒀𝟏𝒊 = 𝑩𝟏𝟎 + 𝑩𝟏𝟐 𝑿𝟐𝒊+ 𝝁𝟏𝒊
dependientes o
endógenas Variables
independientes o
exógenas
Variable dependiente Variable explicativa
Variable explicada Variable
independiente
Predicha Predictora
Regresada Regresora
Respuesta Estímulo
Endógena Exógena
Resultado Covariante
Variable controlada Variable control
DATOS DE SERIES Observaciones de una misma variable recogidas en
TEMPORALES diferentes periodos de tiempo

DATOS DE CORTE Distintas observaciones consideradas en el mismo


TRANSVERSAL
momento del tiempo.

DATOS DE PANEL Observaciones de cada uno de los individuos a través del


tiempo
Los paneles de datos se distinguen por su amplitud transversal y su profundidad temporal.

Pueden ser:

❑ Paneles Microeconómicos: De gran amplitud en la parte transversal.


Ejemplo: Un estudio del consumo de 3,000 familias desarrollado para 10 años.

❑ Paneles Macroeconómicos: De gran profundidad en la parte cronológica.


Ejemplo: Un modelo para la explicación del precio de las acciones de unas 20 empresas cotizadas en la Bolsa
de Comercio, con información diaria para los últimos 10 años.

❑ Random Field: Paneles con abundantes datos cronológicos y transversales. Los más extensos.
Los panel desbalanceados pueden surgir por varias razones:

1. Por diseño de la muestra. Por ejemplo, el procedimiento puede simplemente rotar algunas de las observaciones de
corte transversal de acuerdo a una regla específica.
2. Es el problema de la no respuesta. En la práctica, muchas veces, las unidades de corte transversal pueden elegir no
responder alguna pregunta.
3. El problema denominado “attrition” se da cuando algunas unidades de corte transversal eligen salirse del panel.
4. El problema denominado como el “incidental truncation problem” surge cuando las unidades de corte transversal no
desaparecen, pero ciertas variables no se observan por lo menos algún período de tiempo. Cualquiera de estos
casos puede presentar potencialmente un problema de sesgo de selección muestral.
❑ El investigador debe tener siempre en mente que el resultado de la investigación será tan bueno como lo sea la
calidad de los datos. Por tanto, si en algunas situaciones los investigadores concluyen que los resultados de la
investigación son “insatisfactorios”, la causa puede ser la mala calidad de los datos y no un modelo
❑ Equivocado.

❑ Debido a la naturaleza no experimental de los datos de la mayoría de los estudios de ciencias sociales, los
investigadores con frecuencia no tienen más remedio que depender de la información disponible.

❑ Sin embargo, siempre deben tener presente que los datos pueden no ser los mejores y tratar de no ser muy
dogmáticos sobre los resultados de un estudio dado, sobre todo cuando la calidad de los datos no es confiable.

También podría gustarte