Está en la página 1de 7

INDICE

UNIDAD 1.- REGRESION LINEAL SIMPLE Y CORRELACION.

1.1.- MODELO DE REGRESION SIMPLE.

1.2.- SUPUESTOS.

1.3.- DETERMINACION DE LA ECUACION DE REGRESION.


1.4.- MEDIDAS DE VARIACION.
1.5.- CALCULO DE COEFICIENTES DE CORRELACION Y DE
DETERMINACION.
1.6.- ANALISIS RESIDUAL.
1.7.- INFERENCIAS ACERCA DE LA PENDIENTE.
1.8.- APLICACIONES.
1.1.- MODELO DE REGRESION SIMPLE.

El término regresión fue introducido por Francis Galton (Primo del naturista Charles Darwin) en su
libro “Natural inheritance” (1889) refiriéndose a la “ley de la regresión universal”.
El principal objetivo del análisis de regresión es estimar el valor de una variable aleatoria (la
variable dependiente) conociendo el valor de una variable asociada (la variable independiente). La
ecuación de regresión es la fórmula algebraica mediante la cual se estima el valor de la variable
dependiente

El modelo lineal relaciona la variable dependiente Y con K variables explicitas x k (k = 1,...K), o


cualquier transformación de éstas que generen un hiperplano de parámetros β k desconocidos:

Y =∑ β k X k + ε

Donde ε es la perturbación aleatoria que recoge todos aquellos factores de la realidad no


controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su
carácter estocástico. En el caso más sencillo, con una sola variable explicita, el hiperplano es una
recta:

Y = β0 + β 1 x1 + ε

El problema de la regresión consiste en elegir unos valores determinados para los parámetros
desconocidos β k , de modo que la ecuación quede completamente especificada. Para ello se
necesita un conjunto de observaciones. En una observación i-ésima (i= 1, ... I) cualquiera,
se registra el comportamiento simultáneo de la variable dependiente y las variables explicitas
(las perturbaciones aleatorias se suponen no observables).

Yi=∑ β k X ki + εi

Los valores escogidos como estimadores de los parámetros ^β k son los coeficientes de
regresión sin que se pueda garantizar que coincida n con parámetros reales del proceso
generador. Por tanto, en

Y =∑ ^β k X k⋅ i+ ε^ i

Los valores ε^ i son por su parte estimaciones o errores de la perturbación aleatoria.

Hipótesis modelo de regresión lineal clásico.

1. Esperanza matemática nula.


E ( ε i )=0

Para cada valor de X la perturbación tomará distintos valores de forma aleatoria,


pero no tomará sistemáticamente valores positivos o negativos, sino que se

supone tomará algunos valores mayores que cero y otros menores que cero, de
tal forma que su valor esperado sea cero.

2. Homocedasticidad
Para todo todos los términos de la perturbación tienen la misma varianza que es
desconocida. La dispersión de cada en torno a su valor esperado es siempre la misma.
2. Incorrelación.

Para todo t,s con t distinto de s

Las covarianzas entre las distintas perturbaciones son nulas, lo que quiere decir
que no están correlacionadas o auto correlacionadas. Esto implica que el valor de
la perturbación para cualquier observación muestral no viene influenciada por los
valores de las perturbaciones correspondientes a otras observaciones muéstrales.
4. Regresores no estocásticos.
5. No existen relaciones lineales exactas entre los Regresores.
6 Suponemos que no existen errores de especificación en el modelo,
ni errores de medida en las variables explicativas
7. Normalidad de las perturbaciones

Falto+++++++++++++++

1.2.- SUPUESTOS DEL MODELO DE REGRESIÓN LINEAL.

Para poder crear un modelo de regresión lineal es necesario que se cumpla con los siguientes
supuestos:

1. Que la relación entre las variables sea lineal.

2. Que los errores en la medición de las variables explicativas sean independientes


entre sí.

3. Que los errores tengan varianza constante. (Homocedasticidad.)

4. Que los errores tengan una esperanza matemática igual a cero (los errores de una misma
magnitud y distinto signo son equiprobables).
5. Que el error total sea la suma de todos los errores.

6. Los valores de la variable independiente X son fijos, medidos sin error.

7. La variable Y es aleatoria

8. Para cada valor de X, existe una distribución normal de valores de Y (subpoblaciones Y)

9. Las variancias de las subpoblaciones Y son todas iguales.

10.Todas las medias de las subpoblaciones de Y están sobre la recta.

11. Los valores de Y están normalmente distribuidos y son estadísticamente


independientes

1.3.- DETERMINACION DE LA ECUACION DE REGRESION

Consiste en determinar los valores de "a" y "b " a partir de la muestra, es decir,encontrar los
valores de a y b con los datos observados de la muestra. El métodode estimación es el de Mínimos
Cuadrados, mediante el cual se obtiene:Luego, la ecuación de regresión muestral estimada esQue
se interpreta como:a es el estimador de aEs el valor estimado de la variable Y cuando la variable X
= 0b es el estimador de b , es el coeficiente de regresión.Está expresado en las mismas unidades
de Y por cada unidad de X. Indica elnúmero de unidades en que varía Y cuando se produce un
cambio, en una unidad,en X (pendiente de la recta de regresión).Un valor negativo de b sería
interpretado como la magnitud del decremento en Ypor cada unidad de aumento en
X.EJEMPLO:Los datos de la siguiente tabla representan las estaturas (X, cm) y los pesos (Y,kg) de
una muestra de 12 hombres adultos. Para cada estatura fijada previamentese observó el peso de
una persona seleccionada de entre el grupo con dichaestatura, resultando:

Con estos datos vamos a plantear una ecuación de regresión simple que nospermita pronosticar
los pesos conociendo las tallas. Utilizaremos a = 0.05, ycontrastaremos nuestra hipótesis con
la prueba F.DESARROLLORepresentación matemática y gráfica de los datos:Representación
Matemática

1.4.- MEDIDAS DE VARIACION.

1.5.- CALCULO DE COEFICIENTES DE CORRELACION Y DE DETERMINACION.

Sirve para medir la bondad del ajuste de una recta de regresión a un conjunto deobservaciones, en
el caso de tener una variable dependiente y una independiente.Dicha medida nos la da el
coeficiente de determinación R2, que verifica 0 ≤ R2 ≤ 1. Cuanto más cercano a uno sea su valor
mejor será el ajuste, y tanto peor cuanto más cercano a cero.Se calcula como el cuadrado del
coeficiente de correlación lineal de PearsonEl coeficiente de correlación lineal de Pearson (se
denota r ó ρ) es una medidade asociación lineal entre dos variables aleatorias X e Y: r
= ρ=Cov ( X , Y) SxSySe verifica que –1 ≤ r ≤ 1 y podemos decir que:“Si r = -1,
existe una relación lineal negativa perfecta entre X e Y.“Si r = 1, existe una relación lineal positiva
perfecta entre X e Y.“Si r = 0, no existe ninguna relación lineal entre X e Y (X e Y son
independientes).1.- Coeficiente de Correlación Lineal Simple (r). Mide el grado de asociación lineal
entre dos variables. Este estadístico oscila entre1 (fuerte asociación lineal positiva: a medida que
aumenten los valores de unavariable aumentarán los de la otra) y –1 (fuerte asociación lineal
negativa: amedida que aumenten los valores de una variable disminuyen los de la otra).Cuando
los valores de este estadístico se aproximen a 0 nos estará indicando queentre las dos variables no
existe asociación lineal y, en consecuencia, carece desentido determinar el modelo y/o
ecuación de regresión lineal. Resulta mu

interesante comparar este coeficiente junto con el Scatter Plot de la nube depuntos (gráfico 1
del anexo de resultados), ya que el gráfico nos ofrece unarepresentación elocuente de la
distribución y relación de las dos variablesrelacionadas. Si la nube de puntos forma una
forma indefinida y muy dispersa, nosindica la inexistencia de relación entre las variables. Si por el
contrario, se observauna forma definida y proximidad entre los puntos, habrá relación
entre lasvariables caracterizada por la forma y distribución que adopte. Para determinar si la
asociación es estadísticamente significativa podemoscontrastar la H0 de que el coeficiente de
correlación lineal es igual a 0; o lo que eslo mismo, que las dos variables están incorrelacionadas.
Si el p-valor asociado alestadístico de contraste (r) es menor que el nivel de significación elegido
(nor-malmente 0.0

5) rechazaremos H0. En la matriz de correlaciones se recogen estosdos valores: en primer lugar


aparece el grado de relación (r) que se produce entrelas dos variables que cruzamos; y en segundo
lugar, la significación estadística deesa relación de correlación lineal simple (aparecen en la matriz
de correlaciones).

interesante comparar este coeficiente junto con el Scatter Plot de la nube depuntos (gráfico 1
del anexo de resultados), ya que el gráfico nos ofrece unarepresentación elocuente de la
distribución y relación de las dos variablesrelacionadas. Si la nube de puntos forma una
forma indefinida y muy dispersa, nosindica la inexistencia de relación entre las variables. Si por el
contrario, se observauna forma definida y proximidad entre los puntos, habrá relación
entre lasvariables caracterizada por la forma y distribución que adopte. Para determinar si la
asociación es estadísticamente significativa podemoscontrastar la H0 de que el coeficiente de
correlación lineal es igual a 0; o lo que eslo mismo, que las dos variables están incorrelacionadas.
Si el p-valor asociado alestadístico de contraste (r) es menor que el nivel de significación elegido
(nor-malmente 0.05) rechazaremos H0. En la matriz de correlaciones se recogen estosdos valores:
en primer lugar aparece el grado de relación (r) que se produce entrelas dos variables que
cruzamos; y en segundo lugar, la significación estadística deesa relación de correlación lineal
simple (aparecen en la matriz de correlaciones).
2.- Coeficiente de Correlación Múltiple al Cuadrado o Coeficiente deDeterminación (R
Square “R2”). El coeficiente de determinación se define a partir del coeficiente de
correlaciónmúltiple (R) y mide la proporción de variabilidad de la variable
dependienteexplicada por la variable independiente introducida o por la recta de regresión. Siel
valor que resulta lo multiplicamos por 100, obtendremos el porcentaje devariabilidad
explicada.Debemos hacer notar que pese a que estemos efectuando un análisis
deregresión lineal bivariado, el proceso que seguimos es el del análisis de regresiónmultivariable.
El cuadro de diálogo del análisis multivariado ofrece una informaciónmás rica de ahí la tendencia
generalizada a utilizar éste en detrimento del cuadro de diálogo de regresión simple. Por esta
razón, vamos a ver como en las salidasdel ordenador, y pese a estar realizando un análisis con dos
variables, a estecoeficiente se le denomina coeficiente de Correlación Múltiple (Múltiple
R),residiendo la explicación en el hecho de que va a ser siempre el
análisismultivariable el que apliquemos indistintamente si nos encontramos trabajandocon dos
variables, como es ahora el caso, o con más variables, como se verá enel próximo capítulo. No
debemos confundir el coeficiente de correlación múltiple(mide el grado de asociación entre la
variable dependiente y un conjunto devariables independientes), de los coeficientes1.6.-
ANALISIS RESIDUAL.Como ya hemos comentado los residuos, “e”, son la estimación de los
verdaderoserrores. En regresión lineal la distribución de la variable formada por los residuosdebe
ser Normal, esto es, los residuos observados y los esperados bajo hipótesisde distribución normal
deben ser parecidos. Además, los residuos deben serindependientes. En consecuencia, el
análisis de los residuales nos va a permitir nosolo profundizar en la relación que se produce
entre las dos variables, sinotambién, ponderar la bondad de ajuste de la regresión obtenida.
Para contrastar la supuesta normalidad de los residuales podemos
recurrir,fundamentalmente, a la representación de dos gráficos: (1) el gráfico
deresiduales tipificados (gráfico 2 del anexo de resultados) nos da idea de cómo sedistribuyen los
residuos en relación a la distribución normal (que sería la quecabría esperar de los mismos). Si
ambas distribuciones son iguales (la distribuciónde los residuos es normal) los puntos se sitúan
sobre la diagonal del gráfico. Por locontrario, en la medida que aparecen dispersos y formando
líneas horizontalesrespecto a la diagonal, habrá más residuos y el ajuste será peor; (2) el gráfico
deprobabilidad normal (gráfico 3 del anexo de resultados) compara gráficamente,al superponer
la curva de distribución normal, la función de distribucionesacumulada observadas en la
muestra con la función de distribución acumuladaesperada bajo supuestos de normalidad. Por su
parte el estadístico de Durbin-Watson mide el grado de autocorrelaciónentre el residuo
correspondiente a cada observación y el anterior (si los residuosson independientes, el valor
observado en una variable para un individuo no debeestar influenciado en ningún sentido por los
valores de esta variable observadosen otro individuo). Si el valor del estadístico es próximo a 2
los residuos estánincorrelacionados; si se aproxima a 4, estarán negativamente incorrelacionados;
ysi se aproximan a 0 estarán positivamente incorrelacionados

1.7.- INFERENCIAS ACERCA DE LA PENDIENTE

1.8.- APLICACIONES.Aplicaciones de la regresión linealLíneas de tendencia Una línea de tendencia


representa una tendencia en una serie de datos obtenidosa través de un largo período. Este tipo
de líneas puede decirnos si un conjunto dedatos en particular (como por ejemplo, el PBI, el precio
del petróleo o el valor delas acciones) han aumentado o decrementando en un determinado
período. Sepuede dibujar una línea de tendencia a simple vista fácilmente a partir de un grupode
puntos, pero su posición y pendiente se calcula de manera más precisautilizando
técnicas estadísticas como las regresiones lineales. Las líneas detendencia son
generalmente líneas rectas, aunque algunas variaciones utilizanpolinomios de mayor grado
dependiendo de la curvatura deseada en la línea.MedicinaEn medicina, las primeras evidencias
relacionando la mortalidad con el fumartabaco vinieron de estudios que utilizaban la regresión
lineal. Los investigadoresincluyen una gran cantidad de variables en su análisis de regresión en un
esfuerzopor eliminar factores que pudieran producir correlaciones espurias. En el caso
deltabaquismo, los investigadores incluyeron el estado socio-económico paraasegurarse
que los efectos de mortalidad por tabaquismo no sean un efecto de sueducación o posición
económica. No obstante, es imposible incluir todas lasvariables posibles en un estudio de
regresión. En el ejemplo del tabaquismo, unhipotético gen podría aumentar la mortalidad y
aumentar la propensión a adquirirenfermedades relacionadas con el consumo de tabaco. Por
esta razón, en laactualidad las pruebas controladas aleatorias son consideradas mucho
másconfiables que los análisis de regresión.

También podría gustarte