Análisis de Regresión y Correlación

Estadística Económica I Mgt.
Rina Maricela Zamalloa Cornejo
ANÁLISIS DE REGRESIÓN Y CORRELACIÓN
INTRODUCCION
El análisis de regresión es una técnica estadística, sirve para investigar y modelar la
relación entre variables, tiene muchas aplicaciones en la Psicología y en Ciencias Sociales.
Los modelos de regresión son sensibles a varios fenómenos uno de ellos se debe a la
presencia de relaciones entre las variables independientes, en casi todas las aplicaciones de
regresión la ecuación de regresión es solo una aproximación a la verdadera relación funcional
entre las variables de interés, estas relaciones funcionales se basan con frecuencia en una
teoría física, química o de otra disciplina.
En general las ecuaciones de regresión son solo válidas dentro del rango de las
variables regresoras contenidas en los datos observados.
Un objetivo importante de regresión es estimar los parámetros desconocidos en el
modelo de regresión llamado también proceso de ajuste del modelo a los datos. Existen
varias técnicas de estimación de dichos parámetros una de ellas es el método de mínimos
cuadrados.
El análisis de regresión tiene una fase muy importante la cual es la comprobación de
la adecuación del modelo en donde se estudió lo apropiado del modelo y la calidad del ajuste
determinado. Mediante estos análisis se puede determinar la utilidad del modelo el resultado
de esta comprobación puede indicar que el modelo es razonable o que debe modificarse al
ajuste original. El análisis de regresión es un procedimiento iterativo en el qué los datos
conducen a un modelo y se produce un ajuste del modelo de datos. En un modelo de
regresión no implica que haya una relación de causa y efecto entre las variables, aunque
exista dicha relación no puede considerarse como prueba de que las variables regresoras y la
respuesta estén relacionadas en forma de causa y efecto.
Para establecer dicha causalidad la relación entre los regresoras y la respuesta deben
tener una base ajena a los datos de la muestra.
El análisis de regresión ayudara a confirmar la relación de causa y efecto pero no
puede ser la base única para esta.
Es importante recordar que el análisis de regresión es una parte de un método mas
amplio de análisis de datos para resolver problemas. Esto es la ecuación misma de regresión
puede no sirve, el objetivo principal de estudio y apreciar el sistema que genera los datos.
La regresión y la correlación son las herramientas muy importantes, sirven para
solucionar para solucionar problemas comunes, muchos estudios se pueden identificar y
Estadística Económica I Mgt. Rina Maricela Zamalloa Cornejo
cuantificar la relación funcional entre dos o más variables, se dice que una variable depende
de otra.
USOS DE LA REGRESION
Los modelos de regresión se usan con varios fines, que incluye lo siguiente:
1.-Descripción de datos
2.-Predicción y estimación.
El análisis de regresión es útil para plantear ecuaciones, por lo cual es un modelo de
regresión que resume la información i es más conveniente y útil que una tabla o una gráfica.
Muchas aplicaciones de regresión requieren de la predicción de la variable respuesta, estas
predicciones pueden ser útiles y facilitar los problemas cotidianos.
ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

Si dos variables evolucionan de modo tal que en alguna medida se siguen entre ellas,
podemos decir que existe una asociación o covarianza estadística entre ellas. Por ejemplo, la
altura y peso de la gente están estadísticamente asociadas: aunque el peso de nadie esté
causado por su altura ni la altura por el peso es, no obstante, habitual que las personas altas
pesen más que las personas bajas. Por otro lado, los datos habitualmente incluyen también
excepciones, lo que significa que una asociación estadística es inherentemente estocástica.
La ciencia de la estadística ofrece numerosos métodos para revelar y presentar las
asociaciones entre dos y hasta más variables. Los medios más simples son los medios de
presentación gráfica y tabulación. La asociación entre las variables puede también describirse
como una estadística especial, como el coeficiente de contingencia y una correlación para lo
que hay varios métodos de análisis disponibles.
Si, al analizar los datos, se descubre alguna asociación entre las variables, esto no
significa que necesariamente alguna de ellas dependa causalmente de la otra. El objeto de un
análisis de regresión es investigar la relación estadística que existe entre una variable
dependiente (Y) y una o más variables independientes (1 2 , , ..., X X Xk). Para poder realizar
esta investigación, se debe postular una relación funcional entre las variables. Debido a su
simplicidad analítica, la forma funcional que más se utiliza en la práctica es la relación
lineal.
El término regresión se utilizó por primera vez en el estudio de variables

antropométricas: al comparar la estatura de padres e hijos, resultó que los hijos cuyos padres
tenían una estatura muy superior al valor medio tendían a igualarse a éste, mientras que
aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la estatura
media; es decir, "regresaban" al promedio. La constatación empírica de esta propiedad se vio
reforzada más tarde con la justificación teórica de ese fenómeno.
El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que
emplean modelos basados en cualquier clase de función matemática. Los modelos lineales
son una explicación simplificada de la realidad, mucho más ágil y con un soporte teórico por
parte de la matemática y la estadística mucho más extenso.
Definición:
La variable dependiente Y es la variable que se desea explicar, predecir o modelar.
También se le llama regresando ó variable de respuesta.
Definición:
Las variables que se utilizan para predecir, explicar o modelar Y se denominan
variables independientes y se denotan con por 1 2 , , ..., X X Xk.
En un análisis de regresión simple los valores de X y las magnitudes resultantes de Y se
muestran en una gráfica llamada diagrama de dispersión
Diagrama De Dispersión
La primera forma de describir una distribución bivariada es representar los pares de
valores en el plano cartesiano. El gráfico obtenido recibe el nombre de nube de puntos o
diagrama de dispersión.
Por otro lado, también se aprecia por qué este gráfico se denomina un diagrama de
“dispersión”: no existe una relación matemáticamente exacta entre las variables. Si entre
estas
variables existiera una relación lineal perfecta, entonces todos los puntos caerían a lo largo de
la recta de regresión, que también ha sido trazada y que muestra la relación “promedio” que
existe entre las dos variables.
En la práctica, se observa que la mayoría de los puntos no caen directamente sobre la
recta, sino que están “dispersos” en torno a ella. Esta dispersión representa la variación en Y
que no puede atribuirse a la variación en X.
Según sea la dispersión de los datos (nube de puntos) en el plano cartesiano, pueden
darse alguna de las siguientes relaciones, Lineal, Logarítmica, Exponencial, Cuadrática, entre
otras.
El
modelo matemático llamado también ajuste de curvas es una ecuación dada en un gráfico,
dependiendo del grado de correlación que más se ajuste al conjunto de datos. Los modelos de
regresión son usados para diferentes propósitos, incluyendo las siguientes: 1. Descripción de
datos.
2. Estimación de los parámetros.
3. Predicción y estimación.
4. Control.
El modelo probabilístico que relaciona Y con X es uno que contemple la variación

aleatoria de los puntos de datos a los lados de una línea recta.
Un tipo de modelo probabilístico es el modelo de regresión lineal simple que, supone
que el valor medio de Y para un valor dado de X se grafica como una línea recta y que los
puntos se desvían de esta línea de medias en una cantidad aleatoria (positiva o negativa)
igual a ε, es decir:
01 yx=++ββε
donde β0y β1son parámetros desconocidos de la porción determinística (no aleatoria) del
modelo y 0 1 β β + xes el valor medio de Y para un X dado.
Si suponemos que los puntos se desvían por encima y por debajo de la línea de
medias siendo algunas positivas y otras negativas y con E[ε ] = 0entonces el valor medio de
Y es:
EyExxE
=++=++
ββεββε
[ ] [ 0101] [ ]
=+
β β 01 x
por tanto, el valor medio de Y para un valor dado de X representado por E y[ ]se grafica
como una línea recta con ordenada en el origen igual a β0llamado coeficiente de intersección
y pendiente igual a β1llamado coeficiente de regresión.
ESTIMACIÓN DE LOS PARÁMETROS POR MÍNIMOS CUADRADOS Los

parámetros β0y β1tiene valores desconocidos y se deben estimar con los datos de la muestra.
Él método de mínimos cuadrados para estimar β0y β1nos muestra que existe una y solo una
línea recta para lo cual la suma de los cuadrados de las desviaciones es mínima. Esta línea
recibe el nombre de línea de mínimos cuadrados, línea de regresión o ecuación de predicción
ˆ
de mininos cuadrados, donde 0 βˆy 1 β son estimadores de los parámetros β0y β1
respectivamente.
La suma de los cuadrados de las desviaciones se denomina suma de cuadrados del
error y se denota por SCE.
01 y x = + + β β ε, es la ecuación de un modelo de regresión poblacional.

ˆˆ
ˆ= + β β, se le conoce como modelo de regresión muestral.
yx
Y ha 0 1
La recta de medias está dada por:E y x [ ] = + β β 0 1y se quiere estimar los valores de
β0y β1 así encontrar la recta de mejor ajuste al conjunto de datos observados representado
por:
ˆˆ
ˆ= + β β
yx
01
donde:
yˆ: Es un estimador de un valor medio de Y el cual predice algún valor futuro de Y. 0 βˆy 1
ˆ
β son estimadores de β0y β1respectivamente, para un punto de datos dado (xi, yi). El valor
observado de Y es yi y el valor predicho se obtendrá sustituyendo i xen la

ecuación de predicción:
ˆˆ
ˆ= β 0 + β1
y .x
ii
y las desviaciones estándares del i-ésimo valor de y respecto a su valor predicho. ˆ

ε=−yy
iii
nn
∑ ∑= − =
()
ˆ0
εyy
iii
ii
==
11
2
nn
∑ ∑= −
2
()ˆ
εyy
iiiii
==
11
2
nn ˆˆ
=−−
∑∑
()
2
εββyx
iii
01
ii
==
11
Entonces las sumas de cuadrados de las desviaciones de los valores de Y respecto a sus
valores estimados para todos los n puntos es:
n
ˆˆ
y−β−βx
SCE =
∑
2
( ii
)
01
i = 1
ˆˆ
ˆ= β 0 + β1
y .x
ii
y − yˆ donde el valor
Las desviaciones del i-ésimo valor respecto a su valor predicho i i esperado
es igual a la predicción.
Valor observado:
ˆˆ
yˆ .x = β 0 + β1
ii
ˆˆ
ˆ − = − β 0 + β1
y y y .x
iiii
Entonces la suma de los cuadrados de las desviaciones de los valores de respecto a sus
valores estimados para todos los n puntos es:
n
ˆˆ
y−β−βx
SCE =
∑
2
( ii
)
01
i = 1
ˆ
Los valores de 0 βˆy 1 β que minimiza se obtiene haciendo las derivadas parciales respecto a 0
βˆy luego igualándolas a cero para luego reducir el sistema lineal simultáneo de ecuaciones
de mínimos cuadrados:
∂
∑
SCE
ββ
n
ˆˆ
2(2
=−−−=
∂ y x ii 01 )0
ˆ
β
1
0
i =
nn
ˆˆ
0
− − =………………………….(1)
∑∑
ynxββ
ii
01
ii
==
11
ˆˆ2()0
ˆni o i i
∂
=−−−=
SCE
yxxββ
∂∑β = 1 1 i 1
nnn
∑ ∑ ∑ − − =……………………..(2)
ˆˆ
0
2
xyxxββ
iiii
01
ii
==
11
Las ecuaciones (1) y (2) se les llama ecuaciones normales mínimo cuadráticas desarrollando
y simplificando se obtiene:
n n
∑ ∑ i
0
ˆ x
β βˆ i
y
= −1
i
==
1
i
1
n ˆˆ
01β β
=−YX
ˆ
despejando 1 β en (2), reemplazando por 0 βˆse obtiene:
n
n
∑ ∑y
i
x
i
0 βˆ βˆ , es la ordenada en el origen.
i
==1
= −1 i
1
n
n
Y 1ˆSPXY
β =es el coeficiente de regresión SCX

Donde:
2
⎛⎞⎜⎟
⎝⎠
n
∑
x
ni
∑
SCX x
n
=− ⎝ ⎠ nn
2
i
i=1
i=1
⎛⎞⎛⎞⎜⎟⎜⎟
⎝⎠
= −∑ ∑
xy
nii
SPXY x y
n
∑ . ii
i=1 i=1
i=1
n: tamaño de la muestra.
Entonces:
⎛⎞⎛⎞⎜⎟⎜⎟
⎝⎠⎝⎠
∑∑
nn
xy
nii
xy
n
∑ −
i=1 i=1
ˆ ii
i=1
β
=⎛ ⎞ ⎜ ⎟
⎝⎠
12n
∑
x
ni
∑
2
i=1
x
n
− i
i=1
iii
La diferencia entre el valor observado i ˆ ˆ

e y x 0 1 = − β − β , con i=1, 2, 3,….,n
yˆes
. iii
un residual. Matemáticamente el residual yy el correspondiente valor ajustado i
es: e = y − yˆ
Los residuales juegan un papel importante en la investigación del adecuado modelo

de regresión ajustado.
PRUEBA DE HIPÓTESIS DE LOS PARÁMETROS.
ANÁLISIS DE VARIANZA
El modelo de regresión presenta una descripción de la naturaleza entre las variables
dependiente e independiente, el procedimiento del ANVA mide la cantidad de variación en el
modelo de muestreo, existen tres formas de variación en un modelo de regresión: la variación
explicada por la regresión (SCR), la variación que permanece sin explicar debido a error
(SCE) y la variación total (SCT).
Para realizar una prueba de hipótesis respecto a que existe una relación lineal entre
las variables x y y se debe utilizar el análisis de varianza para una prueba de significancia
del modelo de regresión:
1.- Formular las hipótesis:
:0
H
β :0
01
β
= 11
H ≠
2.- Nivel de significación α = 0,05

3.- Estadístico de prueba:
Fuente de Suma de Grados de Cuadros Valor de Sig
variación cuadrados libertad Medios F
CMTr SCR = CM F
Regresión SCR 1 CMEτ
=
SCE CME
Error SCE n-2 n
C
=
−
2
Total SCT n-1
4.- Conclusión
VARIANZA RESIDUAL
Nuestro objetivo es medir la bondad del ajuste de la recta de regresión a los datos
observados. A mejor ajuste, mejores serán las predicciones realizadas con el modelo. La
evaluación global de una recta de regresión puede hacerse mediante la varianza residual, que
como sabemos es un índice de la precisión del modelo. Sin embargo, esta medida no es útil
para comparar rectas de regresión de variables distintas, o comparar el grado de asociación
lineal entre distintos pares de variables, ya que depende de las unidades de medida de las
variables.
nn
∑∑ yy
() 2
2
ε − ˆ
iii
==
211
ii
==
S
nn
YX
−−
22
.
⎛⎞ ⎛⎞ ⎜⎟⎜⎟ ⎝⎠⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎝⎠
⎛⎞⎛⎞⎛⎞ ⎜⎟⎜⎟⎜⎟ ⎝⎠⎝⎠ ⎝⎠
Elevando al cuadrado y desarrollando las sumatorias se obtiene:
yxy
∑∑∑
nnn
n
∑∑−−
yxy
nniii
2
i=1 i=1 i=1
nn
iii
ˆ
_
i=1 i=1
2
YX2 β1
S =
n −
i=1
.
2
ERROR ESTÁNDAR DE ESTIMACIÓN

El error estándar de estimación es una medida de dispersión de los valores observados
alrededor de la recta de regresión muestral, mientras más pequeño sea el valor del error
estándar de estimación más cercano a la recta de regresión están los valores estimados de i
y.
El error estándar de estimación es denotado por SY.X y se calcula por medio:

n
∑ −
ˆ
( )2 y y
ii
S
n
=
−
i 1
YX. = 2
⎛⎞ ⎛⎞⎜⎟ ∑∑∑⎜⎟⎝⎠⎝⎠⎝⎠⎜⎟ ⎜⎟⎜⎟⎜⎟ ⎜⎟⎝⎠
⎛⎞⎛⎞⎛⎞ ⎜⎟⎜⎟⎜⎟ ∑∑−− ⎜⎟ ⎝⎠
yxy
nnn
n
yxy
iiinn
i=1 i=1 i=1
2
nn
iii
i=1 i=1
2 β
1
YX
ˆ
_
S =
n −
i=1
.
2
Esta medida trata de resumir la disparidad entre lo observado y lo estimado, es decir,

trata de medir la diferencia promedio entre lo observado y lo estimado ó esperado de acuerdo
al modelo, puede considerarse como un indicador del grado de precisión con que la ecuación
de regresión, describe la relación entre las dos variables. Este error estándar se ve afectado
por las unidades y sus cambios ya que es una medida absoluta, pues, se da en la misma
unidad de medida que esta dada la variable Y; razón por la cual no es posible comparar con
las relaciones de variables dadas en distinta unidad de medida. Es necesario entonces
calcular una medida que interprete o mida mejor el grado de relación entre las variables.
CORRELACIÓN
Obtener el modelo de regresión no es suficiente para establecer la regresión, ya que es
necesario cuantificar al mismo tiempo el grado de asociación lineal existente entre las
variables en cuestión, es decir evaluar que tan adecuado es el modelo de regresión obtenido.
Para esto se hace uso del coeficiente de correlación r, el cual mide el grado de correlación
existente entre las variables. El valor de r varia entre -1 y 1, pero en la práctica se trabaja con
el valor absoluto de r, entonces, a medida que r se aproxime a 1, más grande es el grado de
correlación entre los datos, de acuerdo con esto el coeficiente de correlación se puede
clasificar de varias formas, como se observa en la Tabla:
CORRELACIÓN VALOR O RANGO
Perfecta |r| = 1
Excelente 0.9 <= |r| < 1
Buena 0.8 <= |r| < 0.9
Regular 0.5 <= |r| <0.8
Mala |r|< 0.5
Por lo tanto el análisis de regresión es una herramienta estadística que permite

analizar y predecir o estimar observaciones futuras de dos o más variables relacionadas entre
sí, es decir una herramienta útil para la planeación y el análisis de correlación se encuentra
estrechamente vinculado con el análisis de regresión y ambos pueden ser considerados de
hecho como dos aspectos de un mismo problema.
La correlación entre dos variables es el grado de asociación entre las mismas. Cuando
“r” es negativo, ello significa que una variable (ya sea “x” o “y”) tiende a decrecer cuando la
otra aumenta (se trata entonces de una “correlación negativa o inversa”, correspondiente a un
ˆ
valor negativo de 1 βen el análisis de regresión). Cuando “r” es positivo, en cambio, esto
significa que una variable se incrementa al hacerse mayor la otra (lo cual corresponde a un
valor positivo de 1ˆβen el análisis de regresión) existiendo una correlación positiva o directa.
En el siguiente diagrama se resume la magnitud y la dirección de la correlación, según el

coeficiente de correlación de Pearson.
Correlación
Correlación Ninguna Correlación
negativa correlación Correlación positiva
negativa correlación positiva
perfecta Correlación perfecta
perfecta Correlación perfecta
Correlación Correlación
Ninguna Correlación
fuerte Correlación positiva positiva Correlación
negativa positiva positiva positiva
negativa negativa débil débil moderada positiva
negativa débil débil fuerte
negativa moderada Correlación Correlación moderada fuerte
negativa fuerte moderada Correlación Correlación Correlación
-1.00 -0.50 0 + 0.50 + 1.00 -1.00 -0.50 0 + 0.50 + 1.00
Correlación negativa Correlación positiva

Correlación negativa Correlación positiva
Para determinar el valor numérico del coeficiente de correlación de Pearson se utiliza

la siguiente ∑∑
fórmula:
⎛⎞⎛⎞⎜⎟⎜⎟⎝⎠⎝⎠
−
xy
nn
xy
nii n
∑ ∑∑
ii
i=1 i=1
i=1
r
⎞⎛⎞⎛⎞ ⎟⎜⎟⎜⎟⎝⎠ 22 xy
⎛⎞⎛ ⎜⎟⎜ nn
⎝⎠
−−=
∑∑
nnii
xy
22
i=1 i=1
nn
ii
i=1 i=1
⎝⎠⎝⎠
ˆ
En este caso el coeficiente r tiene signo positivo ya que toma el valor de 1 β . La
correlación entre los valores de dos variables es un hecho. El que lo consideremos

satisfactorio o no, depende de la interpretación. Otro problema que representa la correlación
es cuando se pregunta si una variable, de algún modo causa o determina a la otra. La
correlación no implica causalidad. Si las variables X e Y están correlacionadas, esto puede
ser por que X causa a Y, o porque Y causa a X o porque alguna otra variable afecta tanto a X
como Y, o por una combinación de todas estas razones; o puede ser que la relación sea una
coincidencia.
Correlación positiva perfecta Correlación negativa perfecta
Correlación positiva fuerte Correlación cero
COEFICIENTE DE DETERMINACIÓN.
Una vez que se ha realizado el ajuste por mínimos cuadrados, conviene disponer de
algún indicador que permita medir el grado de ajuste entre el modelo y los datos. En el caso
de que se haya estimado varios modelos alternativos podría utilizarse medidas de este tipo, a
las que se denomina medidas de la bondad del ajuste, para seleccionar el modelo más
adecuado. Existen numerosas medidas de la bondad del ajuste. La más conocida es el
coeficiente de determinación.
Según hemos visto, el coeficiente de correlación lineal puede interpretarse como una
medida de la bondad del ajuste del modelo lineal, concretamente, un valor del coeficiente
igual a 1 o -1 indica dependencia lineal exacta, en cuyo caso el ajuste es perfecto. No
obstante, para cuantificar la bondad del ajuste de un modelo, lineal o no, se utiliza una
medida que se denomina coeficiente de determinación lineal r², que es la proporción de
variabilidad de la variable Y que queda explicada por el modelo.
El coeficiente de determinación mide o interpreta la cantidad relativa de la variación

que ha sido explicada por la recta de regresión, es decir, la proporción de cambio en Y
explicado por un cambio en la variable X ( X es el factor que se utiliza para calcular la recta
de ajuste o ecuación de regresión) r²x 100%

Análisis de Regresión y Correlación

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Análisis de Regresión y Correlación

Cargado por

Copyright:

Formatos disponibles

Estadística Económica I Mgt.

Rina Maricela Zamalloa Cornejo

ANÁLISIS DE REGRESIÓN Y CORRELACIÓN

ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

El término regresión se utilizó por primera vez en el estudio de variables

El modelo probabilístico que relaciona Y con X es uno que contemple la variación

ESTIMACIÓN DE LOS PARÁMETROS POR MÍNIMOS CUADRADOS Los

01 y x = + + β β ε, es la ecuación de un modelo de regresión poblacional.

observado de Y es yi y el valor predicho se obtendrá sustituyendo i xen la

y las desviaciones estándares del i-ésimo valor de y respecto a su valor predicho. ˆ

Estadística Económica I Mgt. Rina Maricela Zamalloa Cornejo

β =es el coeficiente de regresión SCX

La diferencia entre el valor observado i ˆ ˆ

Los residuales juegan un papel importante en la investigación del adecuado modelo

PRUEBA DE HIPÓTESIS DE LOS PARÁMETROS.

2.- Nivel de significación α = 0,05

Total SCT n-1

ERROR ESTÁNDAR DE ESTIMACIÓN

El error estándar de estimación es denotado por SY.X y se calcula por medio:

Esta medida trata de resumir la disparidad entre lo observado y lo estimado, es decir,

CORRELACIÓN VALOR O RANGO

Excelente 0.9 <= |r| < 1

Buena 0.8 <= |r| < 0.9

Regular 0.5 <= |r| <0.8

Mala |r|< 0.5

Por lo tanto el análisis de regresión es una herramienta estadística que permite

Estadística Económica I Mgt. Rina Maricela Zamalloa Cornejo

En el siguiente diagrama se resume la magnitud y la dirección de la correlación, según el

-1.00 -0.50 0 + 0.50 + 1.00 -1.00 -0.50 0 + 0.50 + 1.00

Correlación negativa Correlación positiva

Para determinar el valor numérico del coeficiente de correlación de Pearson se utiliza

correlación entre los valores de dos variables es un hecho. El que lo consideremos

Correlación positiva fuerte Correlación cero

El coeficiente de determinación mide o interpreta la cantidad relativa de la variación

También podría gustarte