Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Análisis de Regresión y Correlación
Análisis de Regresión y Correlación
INTRODUCCION
El análisis de regresión es una técnica estadística, sirve para investigar y modelar la
relación entre variables, tiene muchas aplicaciones en la Psicología y en Ciencias Sociales.
Los modelos de regresión son sensibles a varios fenómenos uno de ellos se debe a la
presencia de relaciones entre las variables independientes, en casi todas las aplicaciones de
regresión la ecuación de regresión es solo una aproximación a la verdadera relación funcional
entre las variables de interés, estas relaciones funcionales se basan con frecuencia en una
teoría física, química o de otra disciplina.
En general las ecuaciones de regresión son solo válidas dentro del rango de las
variables regresoras contenidas en los datos observados.
Un objetivo importante de regresión es estimar los parámetros desconocidos en el
modelo de regresión llamado también proceso de ajuste del modelo a los datos. Existen
varias técnicas de estimación de dichos parámetros una de ellas es el método de mínimos
cuadrados.
El análisis de regresión tiene una fase muy importante la cual es la comprobación de
la adecuación del modelo en donde se estudió lo apropiado del modelo y la calidad del ajuste
determinado. Mediante estos análisis se puede determinar la utilidad del modelo el resultado
de esta comprobación puede indicar que el modelo es razonable o que debe modificarse al
ajuste original. El análisis de regresión es un procedimiento iterativo en el qué los datos
conducen a un modelo y se produce un ajuste del modelo de datos. En un modelo de
regresión no implica que haya una relación de causa y efecto entre las variables, aunque
exista dicha relación no puede considerarse como prueba de que las variables regresoras y la
respuesta estén relacionadas en forma de causa y efecto.
Para establecer dicha causalidad la relación entre los regresoras y la respuesta deben
tener una base ajena a los datos de la muestra.
El análisis de regresión ayudara a confirmar la relación de causa y efecto pero no
puede ser la base única para esta.
Es importante recordar que el análisis de regresión es una parte de un método mas
amplio de análisis de datos para resolver problemas. Esto es la ecuación misma de regresión
puede no sirve, el objetivo principal de estudio y apreciar el sistema que genera los datos.
La regresión y la correlación son las herramientas muy importantes, sirven para
solucionar para solucionar problemas comunes, muchos estudios se pueden identificar y
Estadística Económica I Mgt. Rina Maricela Zamalloa Cornejo
cuantificar la relación funcional entre dos o más variables, se dice que una variable depende
de otra.
USOS DE LA REGRESION
Los modelos de regresión se usan con varios fines, que incluye lo siguiente:
1.-Descripción de datos
2.-Predicción y estimación.
El análisis de regresión es útil para plantear ecuaciones, por lo cual es un modelo de
regresión que resume la información i es más conveniente y útil que una tabla o una gráfica.
Muchas aplicaciones de regresión requieren de la predicción de la variable respuesta, estas
predicciones pueden ser útiles y facilitar los problemas cotidianos.
El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que
emplean modelos basados en cualquier clase de función matemática. Los modelos lineales
son una explicación simplificada de la realidad, mucho más ágil y con un soporte teórico por
parte de la matemática y la estadística mucho más extenso.
Definición:
La variable dependiente Y es la variable que se desea explicar, predecir o modelar.
También se le llama regresando ó variable de respuesta.
Definición:
Las variables que se utilizan para predecir, explicar o modelar Y se denominan
variables independientes y se denotan con por 1 2 , , ..., X X Xk.
En un análisis de regresión simple los valores de X y las magnitudes resultantes de Y se
muestran en una gráfica llamada diagrama de dispersión
Diagrama De Dispersión
La primera forma de describir una distribución bivariada es representar los pares de
valores en el plano cartesiano. El gráfico obtenido recibe el nombre de nube de puntos o
diagrama de dispersión.
Por otro lado, también se aprecia por qué este gráfico se denomina un diagrama de
“dispersión”: no existe una relación matemáticamente exacta entre las variables. Si entre
estas
Estadística Económica I Mgt. Rina Maricela Zamalloa Cornejo
variables existiera una relación lineal perfecta, entonces todos los puntos caerían a lo largo de
la recta de regresión, que también ha sido trazada y que muestra la relación “promedio” que
existe entre las dos variables.
En la práctica, se observa que la mayoría de los puntos no caen directamente sobre la
recta, sino que están “dispersos” en torno a ella. Esta dispersión representa la variación en Y
que no puede atribuirse a la variación en X.
Según sea la dispersión de los datos (nube de puntos) en el plano cartesiano, pueden
darse alguna de las siguientes relaciones, Lineal, Logarítmica, Exponencial, Cuadrática, entre
otras.
El
modelo matemático llamado también ajuste de curvas es una ecuación dada en un gráfico,
dependiendo del grado de correlación que más se ajuste al conjunto de datos. Los modelos de
regresión son usados para diferentes propósitos, incluyendo las siguientes: 1. Descripción de
datos.
2. Estimación de los parámetros.
3. Predicción y estimación.
4. Control.
EyExxE
=++=++
ββεββε
[ ] [ 0101] [ ]
=+
β β 01 x
por tanto, el valor medio de Y para un valor dado de X representado por E y[ ]se grafica
como una línea recta con ordenada en el origen igual a β0llamado coeficiente de intersección
y pendiente igual a β1llamado coeficiente de regresión.
respectivamente.
La suma de los cuadrados de las desviaciones se denomina suma de cuadrados del
error y se denota por SCE.
donde:
yˆ: Es un estimador de un valor medio de Y el cual predice algún valor futuro de Y. 0 βˆy 1
ˆ
β son estimadores de β0y β1respectivamente, para un punto de datos dado (xi, yi). El valor
nn
∑ ∑= − =
()
ˆ0
εyy
iii
ii
==
11
2
nn
∑ ∑= −
2
()ˆ
εyy
iiiii
==
11
2
nn ˆˆ
=−−
∑∑
()
2
εββyx
iii
01
ii
==
11
Entonces las sumas de cuadrados de las desviaciones de los valores de Y respecto a sus
valores estimados para todos los n puntos es:
n
ˆˆ
y−β−βx
SCE =
∑
2
( ii
)
01
i = 1
ˆˆ
ˆ= β 0 + β1
y .x
ii
y − yˆ donde el valor
Las desviaciones del i-ésimo valor respecto a su valor predicho i i esperado
es igual a la predicción.
Valor observado:
ˆˆ
yˆ .x = β 0 + β1
ii
ˆˆ
ˆ − = − β 0 + β1
y y y .x
iiii
Entonces la suma de los cuadrados de las desviaciones de los valores de respecto a sus
valores estimados para todos los n puntos es:
n
ˆˆ
y−β−βx
SCE =
∑
2
( ii
)
01
i = 1
ˆ
Los valores de 0 βˆy 1 β que minimiza se obtiene haciendo las derivadas parciales respecto a 0
βˆy luego igualándolas a cero para luego reducir el sistema lineal simultáneo de ecuaciones
de mínimos cuadrados:
∂
∑
SCE
ββ
n
ˆˆ
2(2
=−−−=
∂ y x ii 01 )0
ˆ
β
1
0
i =
nn
ˆˆ
0
− − =………………………….(1)
∑∑
ynxββ
ii
01
ii
==
11
ˆˆ2()0
ˆni o i i
∂
=−−−=
SCE
yxxββ
∂∑β = 1 1 i 1
nnn
∑ ∑ ∑ − − =……………………..(2)
ˆˆ
0
2
xyxxββ
iiii
01
ii
==
11
Las ecuaciones (1) y (2) se les llama ecuaciones normales mínimo cuadráticas desarrollando
y simplificando se obtiene:
n n
∑ ∑ i
0
ˆ x
β βˆ i
y
= −1
i
==
1
i
1
n ˆˆ
01β β
=−YX
ˆ
despejando 1 β en (2), reemplazando por 0 βˆse obtiene:
n
n
∑ ∑y
i
x
i
0 βˆ βˆ , es la ordenada en el origen.
i
==1
= −1 i
1
n
n
Y 1ˆSPXY
∑
x
ni
∑
SCX x
n
=− ⎝ ⎠ nn
2
i
i=1
i=1
⎛⎞⎛⎞⎜⎟⎜⎟
⎝⎠
= −∑ ∑
xy
nii
SPXY x y
n
∑ . ii
i=1 i=1
i=1
n: tamaño de la muestra.
Entonces:
⎛⎞⎛⎞⎜⎟⎜⎟
⎝⎠⎝⎠
∑∑
nn
xy
nii
xy
n
∑ −
i=1 i=1
ˆ ii
i=1
β
=⎛ ⎞ ⎜ ⎟
⎝⎠
12n
∑
x
ni
∑
2
i=1
x
n
− i
i=1
Estadística Económica I Mgt. Rina Maricela Zamalloa Cornejo
iii
ANÁLISIS DE VARIANZA
El modelo de regresión presenta una descripción de la naturaleza entre las variables
dependiente e independiente, el procedimiento del ANVA mide la cantidad de variación en el
modelo de muestreo, existen tres formas de variación en un modelo de regresión: la variación
explicada por la regresión (SCR), la variación que permanece sin explicar debido a error
(SCE) y la variación total (SCT).
Para realizar una prueba de hipótesis respecto a que existe una relación lineal entre
las variables x y y se debe utilizar el análisis de varianza para una prueba de significancia
del modelo de regresión:
1.- Formular las hipótesis:
:0
H
β :0
01
β
= 11
H ≠
CMTr SCR = CM F
Regresión SCR 1 CMEτ
=
SCE CME
Error SCE n-2 n
C
=
−
2
4.- Conclusión
Estadística Económica I Mgt. Rina Maricela Zamalloa Cornejo
VARIANZA RESIDUAL
Nuestro objetivo es medir la bondad del ajuste de la recta de regresión a los datos
observados. A mejor ajuste, mejores serán las predicciones realizadas con el modelo. La
evaluación global de una recta de regresión puede hacerse mediante la varianza residual, que
como sabemos es un índice de la precisión del modelo. Sin embargo, esta medida no es útil
para comparar rectas de regresión de variables distintas, o comparar el grado de asociación
lineal entre distintos pares de variables, ya que depende de las unidades de medida de las
variables.
nn
∑∑ yy
() 2
2
ε − ˆ
iii
==
211
ii
==
S
nn
YX
−−
22
.
⎛⎞ ⎛⎞ ⎜⎟⎜⎟ ⎝⎠⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎝⎠
⎛⎞⎛⎞⎛⎞ ⎜⎟⎜⎟⎜⎟ ⎝⎠⎝⎠ ⎝⎠
Elevando al cuadrado y desarrollando las sumatorias se obtiene:
yxy
∑∑∑
nnn
n
∑∑−−
yxy
nniii
2
i=1 i=1 i=1
nn
iii
ˆ
_
i=1 i=1
2
YX2 β1
S =
n −
i=1
.
2
yxy
iiinn
i=1 i=1 i=1
2
nn
iii
i=1 i=1
2 β
1
YX
ˆ
_
S =
n −
i=1
.
2
al modelo, puede considerarse como un indicador del grado de precisión con que la ecuación
de regresión, describe la relación entre las dos variables. Este error estándar se ve afectado
por las unidades y sus cambios ya que es una medida absoluta, pues, se da en la misma
unidad de medida que esta dada la variable Y; razón por la cual no es posible comparar con
las relaciones de variables dadas en distinta unidad de medida. Es necesario entonces
calcular una medida que interprete o mida mejor el grado de relación entre las variables.
CORRELACIÓN
Obtener el modelo de regresión no es suficiente para establecer la regresión, ya que es
necesario cuantificar al mismo tiempo el grado de asociación lineal existente entre las
variables en cuestión, es decir evaluar que tan adecuado es el modelo de regresión obtenido.
Para esto se hace uso del coeficiente de correlación r, el cual mide el grado de correlación
existente entre las variables. El valor de r varia entre -1 y 1, pero en la práctica se trabaja con
el valor absoluto de r, entonces, a medida que r se aproxime a 1, más grande es el grado de
correlación entre los datos, de acuerdo con esto el coeficiente de correlación se puede
clasificar de varias formas, como se observa en la Tabla:
Perfecta |r| = 1
significa que una variable se incrementa al hacerse mayor la otra (lo cual corresponde a un
valor positivo de 1ˆβen el análisis de regresión) existiendo una correlación positiva o directa.
Correlación
Correlación Ninguna Correlación
negativa correlación Correlación positiva
negativa correlación positiva
perfecta Correlación perfecta
perfecta Correlación perfecta
Correlación Correlación
Ninguna Correlación
fuerte Correlación positiva positiva Correlación
negativa positiva positiva positiva
negativa negativa débil débil moderada positiva
negativa débil débil fuerte
negativa moderada Correlación Correlación moderada fuerte
negativa fuerte moderada Correlación Correlación Correlación
∑ ∑∑
ii
i=1 i=1
i=1
r
⎞⎛⎞⎛⎞ ⎟⎜⎟⎜⎟⎝⎠ 22 xy
⎛⎞⎛ ⎜⎟⎜ nn
⎝⎠
−−=
∑∑
nnii
xy
22
i=1 i=1
nn
ii
i=1 i=1
⎝⎠⎝⎠
ˆ
En este caso el coeficiente r tiene signo positivo ya que toma el valor de 1 β . La
COEFICIENTE DE DETERMINACIÓN.
Una vez que se ha realizado el ajuste por mínimos cuadrados, conviene disponer de
algún indicador que permita medir el grado de ajuste entre el modelo y los datos. En el caso
de que se haya estimado varios modelos alternativos podría utilizarse medidas de este tipo, a
las que se denomina medidas de la bondad del ajuste, para seleccionar el modelo más
adecuado. Existen numerosas medidas de la bondad del ajuste. La más conocida es el
coeficiente de determinación.
Según hemos visto, el coeficiente de correlación lineal puede interpretarse como una
medida de la bondad del ajuste del modelo lineal, concretamente, un valor del coeficiente
igual a 1 o -1 indica dependencia lineal exacta, en cuyo caso el ajuste es perfecto. No
obstante, para cuantificar la bondad del ajuste de un modelo, lineal o no, se utiliza una
medida que se denomina coeficiente de determinación lineal r², que es la proporción de
variabilidad de la variable Y que queda explicada por el modelo.
Estadística Económica I Mgt. Rina Maricela Zamalloa Cornejo