Está en la página 1de 26

REGRESIN

Y CORRELACIN
ANALISIS DE DATOS BIDIMENSIONALES. CUANTITATIVOS
El anlisis de estos datos puede hacerse considerando que entre estas dos variables pueden presentarse
los siguientes tipos de relacin:

a. Una variable X puede influir en otra variable Y.


X Y
Ejemplo. Las horas de estudio influyen en el rendimiento de un escolar.

b. Las dos variables pueden estar influenciadas entre s:


X <---------> Y

Ejemplo. Ingreso familiar condiciona al consumo, pero a la vez el consumo influye en la


modificacin del Ingreso.
- Precio de un bien y produccin

c. Dos variables sin estar influenciadas entre s pueden estar relacionadas, por estar ambas
influenciadas por una tercera variable, esto es:
X.
Z
Y.
Ejemplo. El aumento del costo de vida es una variable que influye en los precios de 2
bienes A y B. haciendo que estos varen siguiendo la misma tendencia o una
tendencia inversa.
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
TECNICAS DE ANALISIS: REGRESIN Y
CORRELACIN
La primera forma del estudio de la sociacin entre las variables X e Y es la Regresin, que consiste en
determinar una relacin funcional entre ellas, con el fin de que se pueda predecir el valor de
una variable en base a la otra. La variable que se va a predecir se denomina variable
dependiente y la variable que es la base de la prediccin se denomina variable independiente.

La segunda forma del estudio de la asociacin entre las variables X e Y, es denominada


correlacin, que consiste en determinar la variacin conjunta de las dos variables, su grado de
relacin, y su sentido (positivo o negativo). La medida del grado de relacin se denomina coeficiente o
ndice de correlacin
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
CLASES DE REGRESIN
Regresin simple lineal
Y= a+ bx + ei

REGRESION SIMPLE Regresin simple no lineal


(2 variables) Y= axb + ei

Y= abx + ei

Regresin mltiple lineal


REGRESIN MLTIPLE Y= b1 + b2 X1 + b3 X2 + ei
(Ms de 2 variables)
Regresin mltiple no lineal
Y= b1 + b2X1+ b3X2 + b4x1x2 +ei

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


ANALISIS DE REGRESION

La teora de la regresin pretende hacer un anlisis sobre


la relacin que existe entre las variables explicativas
dentro de un conjunto de valores observados.

NATURALEZA DEL ANALISIS DE REGRESION


Est relacionado con el estudio de la dependencia de una
variable, la var. dependiente, est en funcin de una o ms
var. explicativas con la perspectiva de estimar y/o predecir
el valor (poblacional) medio o promedio de la primera en
trminos de valores conocidos o fijos (en muestreos
repetidos) de las segundas.
5
Diagrama de Dispersin

1500

E ( y / x) a bX
1250
Gasto de Consumo Mensual S/.

1000

750

500

250

650 800 950 1100 1250 1400 1550 1700 1850 2000
Ingreso Mensual S/.

7
FUNCION DE REGRESION POBLACIONAL (FRP)

La regresin poblacional nos muestra cmo el valor promedio


de Y vara en relacin a las variables de X.

En el ejemplo anterior se trata de los valores promedios de


consumo en cada valor fijo del ingreso.

FRP E(y/x) = A+ Bx
Yi = A +Bxi + i
Donde:
A : Interseccin
B: Coeficiente de la pendiente

E(y/x = 800) = 600. Valor promedio de y para x =800


FUNCION DE REGRESION POBLACIONAL (FRP)

La diferencia entre el valor promedio obtenido y cada


valor observado se debe al trmino de perturbacin (i).

La regresin poblacional para un valor particular de la


variable dependiente es:

FRP Yi A BX i i
La FRP incluye al termino de perturbacin
FUNCION DE REGRESION MUESTRAL
Se obtiene a partir de una muestra de observaciones
Permite estimar los parmetros de una FRP, a partir de la
informacin proporcionada por la muestra.
Su forma estocstica es la siguiente:

FRM Yi a bxi ei
E(Y/X) = Yi a bxi
A ecuacin promedio es
Diferencias con( A
la, BFRP
)
En la FRP los valores de
(ei )los parmetros son de los datos
poblacionales
El trmino de perturbacin est referido a la diferencia de los
valores promedios poblacionales respecto a cada uno de los
FUNCION DE REGRESION MUESTRAL (MCO)
Podemos afirmar lo siguiente:

es un estimador de A
a
es un estimador de B
b
ei es un estimador de i

11
SUPOSICIONES DEL METODO DE REGRESION SIMPLE LINEAL

Las suposiciones fundamentales del modelo de regresin lineal simple son las
siguientes:

1. La variable X puede ser no aleatoria (Matemtica o fija) o una variable


aleatoria. El mtodo usado en la recoleccin de los datos deciden si X
es o no aleatoria.
2. La variable Y es aleatoria, por cada valor de X surge una subpoblacin
de valores de Y.
3. Las medias de estas subpoblaciones estn colocadas todas en la misma
lnea recta.
4. Los valores de Y correspondientes a diferentes valores de X, se recogen
en forma independiente.
5. La variable X se mide sin error.
6. Las subpoblaciones de valores de Y estn normalmente distribuidas.
12

7. Las subpoblaciones de valores de Y tienen la misma varianza.


SIGNIFICADO DEL TERMINO DE PERTURBACION (i)

Sea modelo general:


Yi 1 2 X 2 3 X 3 ...... i

Los valores de los parmetros () son referidos a la


poblacin. Si se tuviera los , faltara contar el valor del
trmino de perturbacin (i).

El i se simboliza como una bolsa donde estn las otras


variables respectivas del modelo y que no estn
incluidas en el mismo. Representa efectos aleatorios de
la misma naturaleza de las i

13
En el caso del consumo por ejemplo i estara
representando al efecto de otras variables: riqueza,
tamao de la familia,etc.

El i siempre est a partir de los residuales.


Y A Bx
Sea el modelo:

A=10; B=2 iN(0, 25)

X Valor Terico (Yi) ei Valor Emprico (Yi)

2 14 -2 12
5 20 5 25
4 18 0 18
6 22 -3 19
ESTIMACION DE LA VARIANZA DEL TERMINO DE
PERTURBACION

Un estimador del trmino de perturbacin sera el residual.


La varianza residual podra utilizarse como estimador de la
varianza del trmino de perturbacin.
Sin embargo la esperanza del transpuesto ee es
insesgada.
Se expresa como la suma de las diferencias cuadrticas
entre el valor observado (Y) y el estimado().

S e
2 2 (Yi Yi )
e 2 2
i

n2 n2
15
Ejercicio Ilustrativo de Estimacin de Parmetros en un Modelo Lineal
Simple (MCO)
Se dispone de informacin de los ingresos totales y gastos en alimentacin
de 12 familias
Familia Gasto alimentacin Ingreso Total
(nuevos soles) (nuevos soles)
1 830 2100
2 510 1100
3 420 900
4 560 1600
5 1250 3200
6 840 2300
7 720 1800
8 490 700
9 690 1300
10 850 2400
11 550 1200
12 780 1700

16
ANALISIS DE REGRESIN
a)Construir un diagrama de dispersin
b)Proponer la ecuacin de regresin
c)Estimar la ecuacin de regresin
d)Estimar la bondad de ajuste de la ecuacin de
regresin
e)Determinar e interpretar el coeficiente de
correlacin
f) Determinar e interpretar el coeficiente de
determinacin
g)Realizar las inferencias correspondientes a los
17
parmetros de la ecuacin de regresin
DIAGRAMA DE DISPERSIN

18
ESTIMACIN DE LA ECUACION PROPUESTA
Familia Yi Xi X i Yi X2 Yi ei Yi Yi
1 830 2,100 1,743,000 4,410,000 830.22 -0.22

2 510 1,100 561,000 1,210,000 529.69 -19.69

3 420 900 378,000 810,000 469.58 -49.58

4 560 1,600 896,000 2,560,000 679.95 -119.95

5 1,250 3,200 4,000,000 10,240,000 1160.80 89.20

6 840 2,300 1,932,000 5,290,000 890.32 -50.32

7 720 1,800 1,296,000 3,240,000 740.06 -20.06

8 490 700 343,000 490,000 409.48 80.52

9 690 1,300 897,000 1,690,000 589.79 100.21

10 850 2,400 2,040,000 5,760,000 920.37 -70.37

11 550 1,200 660,000 1,440,000 559.74 -9.74


12 780 1,700 1,326,000 2,890,000 710.00 70.00
19
PROPONEMOS LA ECUACIN DE REGRESIN SIMPLE LINEAL
Como los parmetros a estimar son 1 y 2 se establece las ecuaciones
normales siguientes:

Y n1 2 Xi (1)

YX 1 Xi 2 Xi2 ( 2)
HACIENDO CALCULOS EOMO EN LA TABLA ANTERIOR

Y reemplazando, se tiene:
8490 12 1 20300 2
En (1)
16072000 20300 1 40030000 2
En (2)

Si se despeja de la primera ecuacin el intercepto y se reemplaza dicho


valor en le segunda se obtienen los siguientes estimadores:

1 = 199.108 2 = 0.301

20
La funcin de regresin muestral, es decir la regresin de Y con
respecto a X:

Yi 199.108 0.301Xi
Sustituyendo las observaciones muestrales de X en la ecuacin
anterior se obtiene la columna 6 de la tabla.

Comparando estos valores con aquellos observados para la


variable dependiente hallamos los errores correspondientes a
cada observacin de la muestra. Se verifica que la suma de
errores estimados es 0. (Columna i)

21
Medida de bondad de ajuste
ERROR ESTNDAR DE LA RECTA DE REGRESIN: SY/X
1/2 1/2
y/x={[(i)]/(n-2)} ={[(Yi-a-bx)]/(n-2)}
Donde:
Sy/x: Error estndar de la ecuacin Y=a+bX
n: Tamao muestral.
n-2: No. Grados de libertad; los 2 gl

SY/X =
aY b XY
Y 2

n2

Mientras menor sea este valor ms confiable sern las estimaciones


hechas con la ecuacin.
Error estndar de la ecuacin de regresin

Sy/x ={[(i)]/(n-2)}1/2={[(Yi-Yc)]/(n-2)}1/2

Cuando se tiene la ecuacin estimada, se puede calcular el error estndar usando la frmula
siguiente:

SXY =
Y 2
aY b XY
=73.89
n2
Mientras menor sea este valor ms confiable sern las estimaciones hechas con la ecuacin
CORRELACIN LINEAL
1.- Objetivo del anlisis de correlacin.

El objetivo bsico del anlisis de correlacin es el de proporcionar un indicador cuantitativo del


grado de asociacin entre dos o ms variables y que respalde la Ec. de regresin que se pretende
utilizar como instrumento de prediccin y estimacin

2.- Tipos de correlacin.


Podemos distinguir los siguientes:

2.1.- Atendiendo al nmero de variables.- Tenemos:

a. Correlacin Simple.- Cuando se estudia el grado de asociacin entre dos variables, pasando
por alto cualquier otra variable que pueda variar simultneamente

b Correlacin Mltiple.- Cuando se estudia el grado de asociacin que simultneamente existe


entre la variable dependiente y dos o ms variables independientes.

c Correlacin Parcial.- En el caso de correlacin mltiple, la cuantificacin de la asociacin neta


entre dos variables, una vez que se elimina estadsticamente la influencia de otras variables
independientes.

2.2.- Atendiendo a la forma de la funcin.- Tenemos:


a.- Correlacin Lineal.
b.- Correlacin no Lineal.

2.3.- Atendiendo a la relacin entre variables.- Tenemos:


a.- Correlacin directa o positiva.
C O R R ELA C IN SIM PLE LIN EA L .
Coeficiente de correlacin simple lineal. Es una medida en que ambas variables
X e Y estn asociadas a travs de una lnea recta.

Su clculo se hace mediante la siguiente frmula:


n XY X Y
R =
n n
(n X ( X i ) )( n Yi 2 ( Yi ) 2 )
i
2 2

1 1

tambin puede usarse la sgte. frmula:

R = b (Sx/Sy).

Donde:
b es la pendiente de la recta de regresin
Sx y Sy son las desviaciones estndar de las variables X e Y, respectivamente.

La interpretacin de R depende el problema especfico, pero en forma general


se sugiere la siguiente regla:

Si: 0 r < 0.25 Escasa o nula relacin


0.25 r < 0.50 Considerable grado de relacin
0.50 r < 0.75 Relacin entre moderada y buena
r 0.75 Relacin entre buena y excelente
Se dispone de informacin de los ingresos totales y gastos en alimentacin de 12 familias
Famlia Gasto de alimentacin Ingreso Total
(Nuevos soles) (Nuevos soles)
1 830 2100
2 510 1100
3 420 900
4 560 1600
5 1250 3200
6 840 2300
7 720 1800
8 490 700
9 690 1300
10 850 2400
11 550 1200
12 780 1700

a) Determinar e interpretar el coeficiente de correlacin


b) Determinar e interpretar el coeficiente de determinacin
Solucin
El coeficiente de correlacin lineal se estima segn la formula siguiente:
n XY X Y
R=
n n
(n X ( X i ) )( n Yi 2 ( Yi ) 2 )
i
2 2

1 1

Sustituyendo datos se tiene:


R = 0.9507
Coeficiente de Determinacin
R2 = 0.9039 = 90.39%.

También podría gustarte