Está en la página 1de 30

Anlisis de

regresin
con dos variables:
algunas ideas
bsicas

Ejemplo
El anlisis de regresin se relaciona en gran medida con la
estimacin o prediccin de la media (de la poblacin) o valor
promedio de la variable dependiente, con base en los valores
conocidos o fijos de las variables explicativas. Para entender
esto, consideremos los datos de la tabla que se indica a
continuacin. Estos datos se refieren a la poblacin total de 60
familias de una comunidad hipottica, as como a su ingreso
semanal (X) y su gasto de consumo semanal (Y), en dlares. Las
60 familias se dividen en 10 grupos de ingresos (de 80 dlares a
260); asimismo, aparecen los gastos semanales de cada familia
de los diversos grupos. Por consiguiente, hay 10 valores fijos de
X y los correspondientes valores Y para cada valor X; as, hay 10
subpoblaciones Y.

Ingreso familiar
semanal X, $

Se observa una variacin considerable en el consumo semanal


de cada grupo de ingreso, lo cual se aprecia con claridad en la
grafica que se indica a continuacin. No obstante, el panorama
general es que, a pesar de la variabilidad del consumo semanal
en cada nivel de ingreso considerado, en promedio, el consumo
semanal se incrementa a medida que aumenta el ingreso.

Para verificar lo anterior, a continuacin se proporciona la


media, o promedio, del consumo semanal que corresponde a
cada uno de los 10 niveles de ingresos. As, al nivel de ingreso
de 80 dlares le corresponde una media de consumo igual a 65
dlares, pero para el nivel de 200, la media es de 137. En total
hay 10 valores medios para las 10 subpoblaciones de Y. A estos
valores medios se les llama valores esperados condicionales,
en virtud de que dependen de los valores de la variable
(condicional) X. En forma simblica, se denotan con E(Y/X), lo
cual se lee como el valor esperado de Y, dado el valor de X.

Probabilidades
condicionales p(Y /Xi)

Es importante distinguir entre los valores esperados condicionales y el


valor esperado incondicional del consumo semanal, E(Y). Si sumamos
los consumos semanales de las 60 familias que forman la poblacin y
dividimos este nmero entre 60, obtendremos la cantidad de 121,20
dlares ($7.272/60), que es el valor de la media incondicional, o
esperada, del consumo semanal, E(Y); es incondicional porque, para
obtener esta cifra, obviamos los niveles de ingreso de las diversas
familias. Como es lgico, los diferentes valores esperados condicionales
de Y de la tabla anterior, varan respecto del valor esperado
incondicional de Y, igual a 121,20 dlares. Cuando se plantea la
pregunta cul es el valor esperado del consumo semanal de una
familia?, la respuesta es 121,20 dlares (la media incondicional). Pero
si se pregunta cul es el valor esperado del consumo semanal de una
familia cuyo ingreso mensual es de 140 dlares?, la respuesta es 101 (la
media condicional). En otras palabras, a la pregunta cul es la mejor
prediccin (media) del gasto semanal de las familias con un ingreso
semanal de 140 dlares?, la respuesta es 101 dlares. Por consiguiente,
conocer el nivel de ingreso permite predecir mejor el valor medio del
consumo que si se ignora esa informacin.

Los puntos oscuros dentro de crculos de la ltima grfica, muestran los valores
medios condicionales de Y, graficados en funcin de los diferentes valores de X. Al
unir esos valores obtenemos la lnea de regresin poblacional (LRP), o, ms
general, la curva de regresin poblacional (CRP). Con palabras ms sencillas, es
la regresin de Y sobre X. El adjetivo poblacional se debe a que en este ejemplo
trabajamos con la poblacin total de 60 familias. Por supuesto, en realidad una
poblacin tendra ms familias.
As, desde el punto de vista geomtrico, una curva de regresin poblacional es tan
slo el lugar geomtrico de las medias condicionales de la variable dependiente
para los valores fijos de la(s) variable(s) explicativa(s). En palabras ms simples, es
la curva que conecta las medias de las subpoblaciones de Y que corresponden a los
valores dados de la regresora X. Lo anterior se ve de manera grfica a continuacin.

Lnea de regresin poblacional

Esta grafica muestra que para cada X (es decir, el nivel de


ingresos) existe una poblacin de valores Y (consumo
semanal) que se distribuyen alrededor de la media
(condicional) de dichos valores Y. Por simplicidad,
suponemos que tales valores Y estn distribuidos
simtricamente alrededor de sus respectivos valores
medios (condicionales). Asimismo, la recta (o curva) de
regresin pasa a travs de los mencionados valores medios
(condicionales).

Concepto de funcin de
regresin poblacional (FRP)
De la anteriormente descrito, y en especial de las 2 ltimas
grficas, es claro que cada media condicional E(Y/Xi) es funcin
de Xi, donde Xi es un valor dado de X. Simblicamente,
E(Y /Xi ) = f (Xi )
donde (Xi) denota alguna funcin de la variable explicativa X. En
el ejemplo, E(Y/Xi) es una funcin lineal de Xi. La ecuacin se
conoce como funcin de esperanza condicional (FEC), funcin
de regresin poblacional (FRP) o regresin poblacional (RP),
para abreviar. Dicha funcin slo denota que el valor esperado de
la distribucin de Y dada Xi se relaciona funcionalmente con Xi. En
otras palabras, dice cmo la media o respuesta promedio de Y
vara con X.

Qu forma adopta la funcin (Xi)? Esta pregunta es importante


porque en una situacin real no disponemos de toda la poblacin para
efectuar el anlisis. La forma funcional de la FRP es por consiguiente
una pregunta emprica, aunque en casos especficos la teora tiene
algo que decir.
Por ejemplo, un economista puede plantear que el consumo
manifiesta una relacin lineal con el ingreso. Por tanto, como
primera aproximacin o hiptesis de trabajo, podemos suponer que la
FRP E(Y/Xi) es una funcin lineal de Xi, del tipo:
E(Y /Xi ) = 1 + 2Xi

donde 1 y 2 son parmetros no conocidos pero fijos que se


denominan coeficientes de regresin; 1 y 2 se conocen tambin
como
coeficientes
de
interseccin
y
de
pendiente,
respectivamente. La ecuacin anterior, se conoce como funcin de
regresin poblacional lineal. En la bibliografa aparecen otras
expresiones, como modelo de regresin poblacional lineal o slo
regresin poblacional lineal. En lo sucesivo, consideraremos
sinnimos los trminos regresin, ecuacin de regresin y modelo
de regresin.

Significado
lineal

del

trmino

Linealidad en las variables


El primer significado, y tal vez el ms natural, de linealidad es aquel
en que la esperanza condicional de Y es una funcin lineal de Xi
(ejemplo ltima ecuacin). Geomtricamente, la curva de regresin en
este caso es una recta. En esta interpretacin, una funcin de
regresin como / = 1 + 2 2 , no es una funcin lineal porque
la variable X aparece elevada a una potencia o ndice de 2.

Linealidad en los parmetros


La segunda interpretacin de linealidad se presenta cuando la
esperanza condicional de Y, E(Y/Xi), es una funcin lineal de los
parmetros, los ; puede ser o no lineal en la variable X. De
acuerdo con esta interpretacin, / = 1 + 2 2 , es un
modelo de regresin lineal (en el parmetro). Para ver lo
anterior, supongamos que X tiene un valor de 3. Por tanto,
E(Y/X =3) = 1 + 92, ecuacin a todas luces lineal en 1 y 2. En
consecuencia, todos los modelos que se indican a continuacin,
son de regresin lineal; es decir, son modelos lineales en los
parmetros.

Ahora consideremos el modelo / = 1 + 22 .


Supongamos tambin que X = 3; as obtenemos / =
1 + 322 , que es no lineal respecto del parmetro 2. El
anterior es un ejemplo de modelo de regresin no lineal (en
el parmetro).
Por consiguiente, en adelante, el trmino regresin lineal
siempre significar una regresin lineal en los parmetros; los
(es decir, los parmetros) se elevan slo a la primera potencia.
Puede o no ser lineal en las variables explicativas X.
Esquemticamente tenemos la siguiente tabla. As, E(Y /Xi ) = 1 +
2Xi, lineal en los parmetros igual que en las variables, es un
modelo de regresin lineal (MRL), lo mismo que / = 1 +
2 2 , lineal en los parmetros pero no lineal en la variable X.

Especificacin estocstica de
la FRP
En la grfica (Distribucin condicional del gasto en varios niveles de
ingreso), es claro que, a medida que aumenta el ingreso familiar, el consumo
familiar, en promedio, tambin aumenta. Pero, qu sucede con el consumo
de una familia en relacin con su nivel de ingreso (fijo)? Es obvio, dada la
grfica y la tabla de Ingreso familiar semanal X($), que el consumo de una
familia en particular no necesariamente aumenta a medida que lo hace el
nivel de ingreso. Por ejemplo, en la tabla de Ingreso familiar semanal X($),
se observa que en el nivel de ingreso de 100 dlares existe una familia cuyo
consumo, de 65, es menor que el consumo de dos familias cuyo ingreso
semanal es slo de 80 dlares. Sin embargo, hay que advertir que el
consumo promedio de las familias con ingreso semanal de 100 es mayor que
el consumo promedio de las familias con un ingreso semanal de 80 dlares
(77 y 65).

Entonces, qu se puede decir sobre la relacin entre el


consumo de una familia y un nivel determinado de ingresos? En
la grfica anterior, se ve que, con el nivel de ingresos de Xi, el
consumo de una familia en particular se agrupa alrededor del
consumo promedio de todas las familias en ese nivel de Xi, es
decir, alrededor de su esperanza condicional. Por consiguiente,
expresamos la desviacin de un Yi en particular alrededor de su
valor esperado de la manera siguiente:

donde la desviacin ui es una variable aleatoria no observable


que adopta valores positivos o negativos. Tcnicamente, ui se
conoce como perturbacin estocstica o trmino de error
estocstico.

Cmo se interpreta la ecuacin? Se puede decir que el gasto de


una familia en particular, segn su nivel de ingreso, se expresa
como la suma de dos componentes: 1) E(Y/Xi), que es
simplemente la media del consumo de todas las familias con el
mismo nivel de ingreso. Este componente se conoce como
componente sistemtico, o determinista, y 2) ui que es el
componente aleatorio, o no sistemtico. El trmino asociado a la
perturbacin estocstica, por el momento, supondremos que es
una componente que sustituye o representa a todas las variables
omitidas o ignoradas que puedan afectar a Y, pero que no se
incluyen (o no pueden incluirse) en el modelo de regresin.
Si suponemos que E(Y/Xi) es lineal en Xi, reemplazando se
escribe como

La ecuacin plantea que el consumo de una familia se relaciona


linealmente con su ingreso ms el trmino de perturbacin. As,
el consumo individual, con X = 80 (tabla de Ingreso familiar
semanal X($)), se expresa como

Ahora, si tomamos el valor esperado en ambos lados,


obtenemos

donde se aprovecha que el valor esperado de una constante sea


la constante misma.8 Observen que en la ltima ecuacin se tom
la esperanza condicional, condicionada a las X dadas.

Como E(Yi /Xi) es lo mismo que E(Y/Xi), la ecuacin queda de la


siguiente forma:

As, el supuesto de que la lnea de regresin pasa a travs de las


medias condicionales de Y, implica que los valores de la media
condicional de ui (condicionados al valor dado de X ) son cero.

La especificacin estocstica tiene la ventaja que muestra


claramente otras variables, adems del ingreso, que afectan el
consumo, y que el consumo de una familia no se explica en su
totalidad slo por la(s) variable(s) en el modelo de regresin.

Importancia del trmino de


perturbacin estocstica
1. Vaguedad de la teora: De existir una teora que determine el
comportamiento de Y, podra estar incompleta, y con frecuencia lo
est. Se tendra quiz la certeza de que el ingreso semanal X afecta el
consumo semanal Y, pero tambin ignoraramos, o no tendramos la
seguridad, sobre las dems variables que afectan a Y. Por
consiguiente, ui sirve como sustituto de todas las variables excluidas u
omitidas del modelo.
2. Falta de disponibilidad de datos: Aunque se conozcan algunas
variables excluidas y se considerara por tanto una regresin mltiple
en lugar de una simple, tal vez no se cuente con informacin
cuantitativa sobre esas variables. Es comn en el anlisis emprico
que no se disponga de los datos que idealmente se deseara tener.
Por ejemplo, en principio se puede introducir la riqueza familiar como
variable explicativa adicional a la variable ingreso para explicar el
consumo familiar. Pero, por desgracia, la informacin sobre riqueza
familiar, por lo general, no est disponible. As, no habra mas que
omitir la variable riqueza del modelo, a pesar de su gran relevancia
terica para explicar el consumo.

3. Variables centrales y variables perifricas: Suponga en el


ejemplo consumo-ingreso que adems del ingreso X1 hay otras
variables que afectan tambin el consumo, como el nmero de
hijos por familia X2, el sexo X3, la religin X4, la educacin X5 y la
regin geogrfica X6. Pero es muy posible que la influencia conjunta
de todas o algunas de estas variables sea muy pequea, o a lo
mejor no sistemtica ni aleatoria, y que desde el punto de vista
prctico, y por consideraciones de costo, no se justifique su
introduccin explcita en el modelo. Cabra esperar que su efecto
combinado pueda tratarse como una variable aleatoria ui.
4. Aleatoriedad intrnseca en el comportamiento humano:
Aunque se logre introducir en el modelo todas las variables
pertinentes, es posible que se presente alguna aleatoriedad
intrnseca en Y que no se explique, a pesar de todos los
esfuerzos que se inviertan. Las perturbaciones, u, pueden reflejar
muy bien esta aleatoriedad intrnseca.

5. Variables representantes (proxy) inadecuadas: A pesar de


que el modelo clsico de regresin (que ver ms adelante)
supone que las variables Y y X se miden con precisin, en la
prctica, los datos pueden estar plagados de errores de medicin.
Consideremos, por ejemplo, la famosa teora de la funcin de
consumo postulada por Milton Friedman. l considera el consumo
permanente ( ) como funcin del ingreso permanente ( ). Pero
como la informacin sobre estas variables no es observable
directamente, en la prctica se utilizan variables representantes
(proxy), como el consumo actual (Y) y el ingreso actual (X), que s
son observables.
Como las Y y las X observadas pueden no ser iguales a y ,
existe el problema de errores de medicin. El trmino de
perturbacin u en este caso puede representar tambin los
errores de medicin. Como veremos ms adelante, de existir tales
errores de medicin, pueden tener graves repercusiones en la
estimacin de los coeficientes de regresin, .

6. Principio de parsimonia: De acuerdo con el principio de la navaja


de Occam, conviene mantener el modelo de regresin lo ms sencillo
posible. Si se explica sustancialmente el comportamiento de Y con
dos o tres variables explicativas, y si la teora no es bastante fuerte para
indicar otras variables que pueden incluirse, para qu introducir ms
variables? Que ui represente todas las dems variables. Por supuesto,
no se deben excluir variables pertinentes e importantes slo para que el
modelo de regresin no se complique.

7. Forma funcional incorrecta: Aunque se cuente con variables


tericamente correctas para explicar un fenmeno y se obtengan datos
sobre ellas, con frecuencia no se conoce la forma de la relacin
funcional entre la variable regresada y las regresoras. Es el consumo
una funcin lineal (invariable) del ingreso, o es una funcin no lineal
(invariable)? Si se trata de lo primero, Yi = 1 + 2 X1 + ui es la relacin
funcional adecuada entre Y y X, pero en el segundo caso, = 1 +
2 + 3 2 + puede ser la forma funcional correcta. En los modelos
con dos variables, la forma funcional de la relacin a menudo se puede
inferir del diagrama de dispersin. Sin embargo, en un modelo de
regresin mltiple no es fcil determinar la forma funcional apropiada,
pues los diagramas de dispersin no se visualizan grficamente en
mltiples dimensiones.

Funcin
de
muestral (FRM)

regresin

Hasta el momento, nos hemos limitado a la poblacin de valores Y que


corresponden a valores fijos de X. Con toda deliberacin evitamos
consideraciones muestrales (los datos de la tabla anterior, representan la
poblacin, no una muestra). No obstante, es momento de enfrentar los
problemas muestrales, porque en la prctica lo que se tiene al alcance no es
ms que una muestra de valores de Y que corresponden a algunos valores
fijos de X. Por tanto, la labor ahora es estimar la FRP con base en informacin
muestral.

A manera de ilustracin, supongamos que no se conoca la poblacin de la


tabla antes descrita, y que la nica informacin que se tena era una muestra
de valores de Y seleccionada al azar para valores dados de X como se
presentan en la tabla que se indica a continuacin. A diferencia de la tabla
anterior, ahora se tiene slo un valor de Y correspondiente a los valores
dados de X; cada Y (dada Xi) en la tabla se selecciona aleatoriamente de las
Y similares que corresponden a la misma Xi de la poblacin de la tabla
anterior (poblacin).

La cuestin es la siguiente: con base en la muestra de la ltima tabla,


es posible predecir el consumo semanal promedio Y de la poblacin
en su conjunto correspondiente a los valores de X seleccionados? En
otras palabras, se puede estimar la FRP a partir de los datos de la
muestra?
Quiz no pueda calcularse la FRP con precisin debido a las
fluctuaciones muestrales. Para ver esto, supongamos que se toma
otra muestra aleatoria de la poblacin de la primera tabla (poblacin),
la cual se presenta en la siguiente tabla.

Al graficar los datos de las ltimas tablas, se obtiene el diagrama de dispersin del
siguiente grfico. En el diagrama de dispersin se trazaron dos lneas de
regresin muestral con el fin de ajustar razonablemente bien las dispersiones:
FRM1 se basa en la primera muestra y FRM2 en la segunda. Cul de las dos
lneas de regresin representa a la lnea de regresin poblacional verdadera? Si
evitamos mirar la grfica de Distribucin condicional del gasto en varios niveles de
ingreso, que a propsito representa la RP, no hay forma de estar por completo
seguro de que alguna de las lneas de regresin del presente grfico, representan
la verdadera recta (o curva) de regresin poblacional. Las lneas de regresin en
la grfica se conocen como lneas de regresin muestral. Se supone que
representan la lnea de regresin poblacional, pero, debido a fluctuaciones
muestrales, son, en el mejor de los casos, slo una aproximacin de la verdadera
RP. En general, se obtendran N FRM diferentes para N muestras diferentes, y
estas FRM no por fuerza son iguales.

Ahora, igual que la FRP en la cual se basa la lnea de regresin


poblacional, se desarrolla el concepto de funcin de regresin
muestral (FRM) para representar la lnea de regresin muestral.
La contraparte muestral de la ecuacin FRP puede escribirse
como

donde se lee Y sombrero o Y gorra


= estimador de E(Y/Xi )
1 = estimador de 1
2 = estimador de 2

Un estimador, conocido tambin como estadstico (muestral), no es


ms que una regla, frmula o mtodo para estimar el parmetro
poblacional a partir de la informacin suministrada por la muestra
disponible. Un valor numrico particular obtenido por el estimador en
un anlisis se conoce como estimacin. Cabe sealar que un
estimador es aleatorio, pero una estimacin no.

Ahora, tal como la FRP se expresa en dos formas equivalentes,


la FRM se expresa en su forma estocstica de la siguiente
manera:

donde, adems de los smbolos ya definidos, denota el trmino


residual (muestral). Conceptualmente, es anlogo a y se
considera una estimacin de , que se introduce en la FRM por
las mismas razones que se introdujo en la FRP.
As, para resumir, concluimos que el objetivo principal del anlisis
de regresin es estimar la FRP

con base en la FRM

porque son ms frecuentes los casos en que el anlisis se basa


en una sola muestra tomada de una poblacin. Pero, debido a
fluctuaciones muestrales, la estimacin de la FRP basada en la
FRM es, en el mejor de los casos, una aproximacin. En la
grfica se presenta esta aproximacin.

Para X = Xi se tiene una observacin (muestral), Y = Yi. En


trminos de la FRM, la Yi observada se expresa como

y en trminos de la FRP, como

Como es evidente, en la grfica anterior, sobrestima la verdadera


E(Y/Xi ) para la Xi que ah se muestra. De la misma manera, para
cualquier Xi, a la izquierda del punto A, la FRM subestimar la
verdadera FRP. Pero se puede concluir que tal sobrestimacin y
subestimacin es inevitable, debido a las fluctuaciones muestrales.

La pregunta crtica es ahora: como la FRM es apenas una


aproximacin de la FRP, se puede disear una regla o mtodo
que acerque esta aproximacin lo ms posible? En otras
palabras, cmo se debe construir la FRM para que 1 y 2 estn
tan cerca de los verdaderos 1 y 2 como sea posible, aunque
nunca se lleguen a conocer los verdaderos 1 y 2?
Se advierte aqu que es posible formular procedimientos para que
la FRM refleje la FRP tan fielmente como sea posible. Es
fascinante considerar esto, aunque en realidad nunca se llegue a
determinar la propia FRP.

También podría gustarte