Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1.2.- SUPUESTOS.
El término regresión fue introducido por Francis Galton (Primo del naturista Charles Darwin) en su
libro “Natural inheritance” (1889) refiriéndose a la “ley de la regresión universal”.
El principal objetivo del análisis de regresión es estimar el valor de una variable aleatoria (la
variable dependiente) conociendo el valor de una variable asociada (la variable independiente). La
ecuación de regresión es la fórmula algebraica mediante la cual se estima el valor de la variable
dependiente
Y =∑ β k X k + ε
Y = β0 + β 1 x1 + ε
El problema de la regresión consiste en elegir unos valores determinados para los parámetros
desconocidos β k , de modo que la ecuación quede completamente especificada. Para ello se
necesita un conjunto de observaciones. En una observación i-ésima (i= 1, ... I) cualquiera,
se registra el comportamiento simultáneo de la variable dependiente y las variables explicitas
(las perturbaciones aleatorias se suponen no observables).
Yi=∑ β k X ki + εi
Los valores escogidos como estimadores de los parámetros ^β k son los coeficientes de
regresión sin que se pueda garantizar que coincida n con parámetros reales del proceso
generador. Por tanto, en
Y =∑ ^β k X k⋅ i+ ε^ i
supone tomará algunos valores mayores que cero y otros menores que cero, de
tal forma que su valor esperado sea cero.
2. Homocedasticidad
Para todo todos los términos de la perturbación tienen la misma varianza que es
desconocida. La dispersión de cada en torno a su valor esperado es siempre la misma.
2. Incorrelación.
Las covarianzas entre las distintas perturbaciones son nulas, lo que quiere decir
que no están correlacionadas o auto correlacionadas. Esto implica que el valor de
la perturbación para cualquier observación muestral no viene influenciada por los
valores de las perturbaciones correspondientes a otras observaciones muéstrales.
4. Regresores no estocásticos.
5. No existen relaciones lineales exactas entre los Regresores.
6 Suponemos que no existen errores de especificación en el modelo,
ni errores de medida en las variables explicativas
7. Normalidad de las perturbaciones
Falto+++++++++++++++
Para poder crear un modelo de regresión lineal es necesario que se cumpla con los siguientes
supuestos:
4. Que los errores tengan una esperanza matemática igual a cero (los errores de una misma
magnitud y distinto signo son equiprobables).
5. Que el error total sea la suma de todos los errores.
7. La variable Y es aleatoria
Consiste en determinar los valores de "a" y "b " a partir de la muestra, es decir,encontrar los
valores de a y b con los datos observados de la muestra. El métodode estimación es el de Mínimos
Cuadrados, mediante el cual se obtiene:Luego, la ecuación de regresión muestral estimada esQue
se interpreta como:a es el estimador de aEs el valor estimado de la variable Y cuando la variable X
= 0b es el estimador de b , es el coeficiente de regresión.Está expresado en las mismas unidades
de Y por cada unidad de X. Indica elnúmero de unidades en que varía Y cuando se produce un
cambio, en una unidad,en X (pendiente de la recta de regresión).Un valor negativo de b sería
interpretado como la magnitud del decremento en Ypor cada unidad de aumento en
X.EJEMPLO:Los datos de la siguiente tabla representan las estaturas (X, cm) y los pesos (Y,kg) de
una muestra de 12 hombres adultos. Para cada estatura fijada previamentese observó el peso de
una persona seleccionada de entre el grupo con dichaestatura, resultando:
Con estos datos vamos a plantear una ecuación de regresión simple que nospermita pronosticar
los pesos conociendo las tallas. Utilizaremos a = 0.05, ycontrastaremos nuestra hipótesis con
la prueba F.DESARROLLORepresentación matemática y gráfica de los datos:Representación
Matemática
Sirve para medir la bondad del ajuste de una recta de regresión a un conjunto deobservaciones, en
el caso de tener una variable dependiente y una independiente.Dicha medida nos la da el
coeficiente de determinación R2, que verifica 0 ≤ R2 ≤ 1. Cuanto más cercano a uno sea su valor
mejor será el ajuste, y tanto peor cuanto más cercano a cero.Se calcula como el cuadrado del
coeficiente de correlación lineal de PearsonEl coeficiente de correlación lineal de Pearson (se
denota r ó ρ) es una medidade asociación lineal entre dos variables aleatorias X e Y: r
= ρ=Cov ( X , Y) SxSySe verifica que –1 ≤ r ≤ 1 y podemos decir que:“Si r = -1,
existe una relación lineal negativa perfecta entre X e Y.“Si r = 1, existe una relación lineal positiva
perfecta entre X e Y.“Si r = 0, no existe ninguna relación lineal entre X e Y (X e Y son
independientes).1.- Coeficiente de Correlación Lineal Simple (r). Mide el grado de asociación lineal
entre dos variables. Este estadístico oscila entre1 (fuerte asociación lineal positiva: a medida que
aumenten los valores de unavariable aumentarán los de la otra) y –1 (fuerte asociación lineal
negativa: amedida que aumenten los valores de una variable disminuyen los de la otra).Cuando
los valores de este estadístico se aproximen a 0 nos estará indicando queentre las dos variables no
existe asociación lineal y, en consecuencia, carece desentido determinar el modelo y/o
ecuación de regresión lineal. Resulta mu
interesante comparar este coeficiente junto con el Scatter Plot de la nube depuntos (gráfico 1
del anexo de resultados), ya que el gráfico nos ofrece unarepresentación elocuente de la
distribución y relación de las dos variablesrelacionadas. Si la nube de puntos forma una
forma indefinida y muy dispersa, nosindica la inexistencia de relación entre las variables. Si por el
contrario, se observauna forma definida y proximidad entre los puntos, habrá relación
entre lasvariables caracterizada por la forma y distribución que adopte. Para determinar si la
asociación es estadísticamente significativa podemoscontrastar la H0 de que el coeficiente de
correlación lineal es igual a 0; o lo que eslo mismo, que las dos variables están incorrelacionadas.
Si el p-valor asociado alestadístico de contraste (r) es menor que el nivel de significación elegido
(nor-malmente 0.0
interesante comparar este coeficiente junto con el Scatter Plot de la nube depuntos (gráfico 1
del anexo de resultados), ya que el gráfico nos ofrece unarepresentación elocuente de la
distribución y relación de las dos variablesrelacionadas. Si la nube de puntos forma una
forma indefinida y muy dispersa, nosindica la inexistencia de relación entre las variables. Si por el
contrario, se observauna forma definida y proximidad entre los puntos, habrá relación
entre lasvariables caracterizada por la forma y distribución que adopte. Para determinar si la
asociación es estadísticamente significativa podemoscontrastar la H0 de que el coeficiente de
correlación lineal es igual a 0; o lo que eslo mismo, que las dos variables están incorrelacionadas.
Si el p-valor asociado alestadístico de contraste (r) es menor que el nivel de significación elegido
(nor-malmente 0.05) rechazaremos H0. En la matriz de correlaciones se recogen estosdos valores:
en primer lugar aparece el grado de relación (r) que se produce entrelas dos variables que
cruzamos; y en segundo lugar, la significación estadística deesa relación de correlación lineal
simple (aparecen en la matriz de correlaciones).
2.- Coeficiente de Correlación Múltiple al Cuadrado o Coeficiente deDeterminación (R
Square “R2”). El coeficiente de determinación se define a partir del coeficiente de
correlaciónmúltiple (R) y mide la proporción de variabilidad de la variable
dependienteexplicada por la variable independiente introducida o por la recta de regresión. Siel
valor que resulta lo multiplicamos por 100, obtendremos el porcentaje devariabilidad
explicada.Debemos hacer notar que pese a que estemos efectuando un análisis
deregresión lineal bivariado, el proceso que seguimos es el del análisis de regresiónmultivariable.
El cuadro de diálogo del análisis multivariado ofrece una informaciónmás rica de ahí la tendencia
generalizada a utilizar éste en detrimento del cuadro de diálogo de regresión simple. Por esta
razón, vamos a ver como en las salidasdel ordenador, y pese a estar realizando un análisis con dos
variables, a estecoeficiente se le denomina coeficiente de Correlación Múltiple (Múltiple
R),residiendo la explicación en el hecho de que va a ser siempre el
análisismultivariable el que apliquemos indistintamente si nos encontramos trabajandocon dos
variables, como es ahora el caso, o con más variables, como se verá enel próximo capítulo. No
debemos confundir el coeficiente de correlación múltiple(mide el grado de asociación entre la
variable dependiente y un conjunto devariables independientes), de los coeficientes1.6.-
ANALISIS RESIDUAL.Como ya hemos comentado los residuos, “e”, son la estimación de los
verdaderoserrores. En regresión lineal la distribución de la variable formada por los residuosdebe
ser Normal, esto es, los residuos observados y los esperados bajo hipótesisde distribución normal
deben ser parecidos. Además, los residuos deben serindependientes. En consecuencia, el
análisis de los residuales nos va a permitir nosolo profundizar en la relación que se produce
entre las dos variables, sinotambién, ponderar la bondad de ajuste de la regresión obtenida.
Para contrastar la supuesta normalidad de los residuales podemos
recurrir,fundamentalmente, a la representación de dos gráficos: (1) el gráfico
deresiduales tipificados (gráfico 2 del anexo de resultados) nos da idea de cómo sedistribuyen los
residuos en relación a la distribución normal (que sería la quecabría esperar de los mismos). Si
ambas distribuciones son iguales (la distribuciónde los residuos es normal) los puntos se sitúan
sobre la diagonal del gráfico. Por locontrario, en la medida que aparecen dispersos y formando
líneas horizontalesrespecto a la diagonal, habrá más residuos y el ajuste será peor; (2) el gráfico
deprobabilidad normal (gráfico 3 del anexo de resultados) compara gráficamente,al superponer
la curva de distribución normal, la función de distribucionesacumulada observadas en la
muestra con la función de distribución acumuladaesperada bajo supuestos de normalidad. Por su
parte el estadístico de Durbin-Watson mide el grado de autocorrelaciónentre el residuo
correspondiente a cada observación y el anterior (si los residuosson independientes, el valor
observado en una variable para un individuo no debeestar influenciado en ningún sentido por los
valores de esta variable observadosen otro individuo). Si el valor del estadístico es próximo a 2
los residuos estánincorrelacionados; si se aproxima a 4, estarán negativamente incorrelacionados;
ysi se aproximan a 0 estarán positivamente incorrelacionados