Está en la página 1de 16

1

Ing. Mario Marañón Álvarez

RESUMEN DE FORMULAS DE REGRESION LINEAL

LA COVARIANZA: La covarianza indica el sentido de la correlación entre las variables


Si σxy > 0 la correlación es directa.
Si σxy < 0 la correlación es inversa.
La covarianza presenta como inconveniente, el hecho de que su valor depende de la escala elegida para los
ejes. Es decir, la covarianza variará si expresamos la altura en metros o en centímetros. También variará si
el dinero lo expresamos en euros o en dólares.
COV XY =
∑ XY − X́ Ý = ( X − X́ )(Y −Ý ) ¿ ¿
n
∑ n

COEFICIENTE DE CORRELACION LINEAL

El Coeficiente de correlación lineal “r” mide el grado de intendsidad de la relación lineal entre las variables X, Y
Formulas del coeficiente de correlacion lineal:
n ∑ XY −∑ X ∑ Y
r= 2 2
√ √
n ∑ X 2−( ∑ X) n ∑ Y 2−( ∑ Y )

∑ (X − X́ )2( Y −Ý )2
∑ XY −n X́ Ý COV XY Cov XY n
r= r= = =
σXσY SX SY
√ n ∑ X 2−n X́ 2 √∑ Y 2−n Ý 2 ∑ (X− X́ ) ∑ (Y −Ý )2
2

√ n √ n

∑ ( Y^ −Ý )2 SX
r =±
√ Variaqción Explicada
Variacióntotal √

SCR
SCT

√ ∑ ( Y −Ý )2
r =B
SY

METODO DE MINIMOS CUADRADOS (Demostración sistema normal ecuaciones)

Cuando se tiene un diagrama de dispersión, se comprende por ajustar a una curva o


ajuste de curva, el obtener una ecuación de dicha curva tal que se aproxime a todos los
puntos.

Para el ajuste de curvas de un diagrama de dispersión a una curva, se emplea el método


matemático llamado: “mínimos cuadrados”.

Dado el diagrama de dispersión, formado por los pares de puntos: (Xi , Yi)

Observación en la gráfica; para cierto valor de


( X 1 , Y 1 ) se tiene una diferencia D1; (X2,Y2) tiene
la diferencia D2,…, en algunos casos la
diferencia es positiva y en otros es negativa.

Una medida de la separación entre los puntos


y curva obtenida es:
2
Ing. Mario Marañón Álvarez

S= D 21+ D 22+ D 23 +…+ D 2n

El cuadrado asegura que las diferencias serán siempre positivas, además se debe tratar
que S sea siempre lo más pequeño o mínimo posible, se llama curva de mínimos
cuadrados, porque se está considerando el mínimo del cuadrado de la desviación S. Si se
ajusta una curva con el criterio de que S sea el mínimo, se llama curva de mínimos
cuadrados.

Se llama recta de ajuste por mínimos cuadrados a aquella recta que se obtiene bajo el
procedimiento de que la suma de desviaciones al cuadrado

S= D 21+ D 22+ D 23 +…+ D 2n sea mínima.

Demostración:

Demostrar que para obtener la recta que representa el mínimo error respecto a los
puntos del diagrama de dispersión, debe satisfacer el sistema normal de ecuaciones.

S= D21+ D 22+ D23 +…+ D2n

S=( y− ^y )2

S=( y−( A+ Bx))2=( y −A−Bx)2

Considerando a S como una función continúa de dos variables (A, B).

Luego

Para la ecuación 1 tenemos:

∂S
Derivar parcialmente e igualar a cero. = 2 ( y− A−Bx )(−1 ) =0
∂A ∑

Luego tenemos ∑ 2 ( y− A−Bx ) (−1 )=0


Multiplicar 2 (-1) ∑ −2 ( y −A−Bx )=0
Constante fuera de Σ −2 ∑ ( y− A−Bx )=0

Luego – 2 pasa al otro miembro ∑ ( y −A−Bx )=0(−2)


Propiedad de Σ, transponer el término ∑ y=∑ ( A +Bx )
Propiedad de Σ ∑ y=∑ A+ ∑ Bx
3
Ing. Mario Marañón Álvarez

Constante fuera Σ ∑ y=A ∑ 1+B ∑ x


La Σ de constante es n ∑ y=An+ B ∑ x Ecuación 1

Par la ecuación 2 tenemos:

∂S
= 2 ( y− A−Bx ) (−x )=0
∂B ∑
En la otra derivada

El signo por 2 ∑ −2 ( y −A−Bx )( x )=0


Constante fuera de Σ −2 ∑ ( yx− Ax−B x 2 )=0

Multiplicando ∑ ( yx− Ax−B x 2 )=0


Factorizando signo ∑ ( yx−( Ax+ B x 2 ))=0
Propiedad de Σ ∑ yx−∑ ( Ax+ B x2 ) =0
Transposición ∑ yx=∑ ( Ax+ B x2 )
Propiedad Σ ∑ yx=∑ Ax+ ∑ B x2
Constante fuera de Σ ∑ yx=A ∑ x+ B ∑ x 2 Ecuación 2

Luego el sistema normal de ecuaciones es:

Ecuación 1: ∑ y=An+ B ∑ x
Ecuación 2: ∑ yx=A ∑ x+ B ∑ x 2

Si resolvemos este sistema obtenemos los valores A, B que son los parámetros de la
ecuación lineal y= A + B x

FORMULAS DE LOS PARAMETROS


Para hallar A, B tenemos: Resolviendo el sistema normal de ecuaciones:
∑ Y = An+ B ∑ X
∑ XY = A ∑ X + B ∑ X 2
De este sistema obtenemos fórmulas para los parámetros A, B
Si la ecuación ∑ Y = An+ B ∑ X la dividimos entre “n” tenemos: A=Ý −B X́

Luego A=Ý −B X́ sustituyendo en ∑ XY = A ∑ X + B ∑ X 2 tenemos:

B=
∑ XY −n X́ Ý
n ∑ X 2−n X́ 2
4
Ing. Mario Marañón Álvarez

se
ERROR ESTANDA DE LA PENDIENTE S B= 2 2
√∑ X −n X́
∑ X2 ¿
ERROR ESTANDAR DE LA ORDENADA
Luego la ecuación de estimación es: Ŷ= A + BX. Otras fórmulas:
S A =Se
√ n ∑ X 2−¿¿ ¿

n ∑ XY −∑ X ∑ Y ∑ XY −n X́ Ý COV XY Cov XY S XY ∑ ( X− X́ ¿)(Y −Ý ) ¿


B= 2 B= B= 2
= 2
= 2 B=
n ∑ X 2−( ∑ X ) n ∑ X 2−n X́ 2 σ X S X S X ∑ ¿¿¿

A=
∑ Y −B ∑ X A=Ý −B X́
n

LA RECTA DE REGRESION SIEMPRE CONTIENE AL PUNTO ( X́ , Ý ) , PUNTO LLAMADO CENTROIDE

Interpretación de los coeficientes ordenada al origen y pendiente:


Interpretación de la ordenada al origen A:
Indica el valor promedio de la respeuesta Y cuando X es cero.
Interpretación de la pendiente B:
Indica el cambio promedio en la variable respuesta Y cuando X se incrementa en una unidad.

ECUACIONES DE REGRESION LINEAL:


Y^ = A +B X Y^ =B ( X − X́ ) + Ý

( Y −Ý )=B ( X− X́ )

COV XY
( Y −Ý )= ( X− X́ )
σ 2X

SY SY
Y^ =Ý + r ( ) ( )
SX
X −r
SX

FORMULAS REGRESION LINEAL CON DESVIACIONES (varianzas)

El método de mínimos cuadrados hace que la suma de cuadrados de errores sea mínima; es decir:
∑ (Y −Ý )2=Mínima Y= A + B X

SCX =SSX= Suma de Cuadrados de X


SCY =SSY= suma de Cuadrados de Y
SCXY=SSXY= Suma de Cuadrados Cruzados
2
2 (∑ X )
2
SCX =SSX =∑ ( X − X́ ) =∑ X −
n
2
2 2 (∑ Y )
SCY =SSY =∑ ( Y −Ý ) =∑ Y −
n
5
Ing. Mario Marañón Álvarez

SCXY =SSXY =∑ ( X − X́ )(Y −Ý )=∑ XY −


∑ X∑ Y =
n
∑ XY −n X́ Ý
Varianzas
2 2 ∑ (Y −Y^ )2
VR= Varianza Residual (poblacional): VR=S =S
e yx =
n

(Y −Y^ )2
VR= Varianza Residual ( con n-2 grados de libertad) VR=S 2e =S 2yx = ∑
n−2

VT= Varianza Total: VT =


∑ (Y −Ý )2
n

∑ ( Y^ −Ý )2
VE= Varianza Explicada VE=
n
2 ∑ (Y −Y^ )2
S yx =
n

∑ (Y −Y^ )2 ∑ (Y −Y^ )2
√S 2
yx =
√ n
SYX =
√ n

Cálculo de los parámetros:

SSXY COV XY σX SY
B= A=Ý −B X́ B= 2 r =B B=r =¿
SSX σ X
σY SX

Error estándar de estimación= Se o Error típico de estimación= Se

MSE= ECM= Error Cuadrático Medio SSE= SCE= Suma Cuadrados Error= Σ (Y – Ŷ)2

2
SSE
SSE=SCE=SSY −¿ ¿ MSE=
n−2 Se =
√ ∑ (Y −Y^ ) =√ MSE
n−2

Interpretación del error estándar de estimación Se

Por ejemplo: Si tenemos: Y= 4,4 + 1,08 X y se calculo: S e= 0,907 y para X=10, se estimo : Ŷ= 15,2; entonces
obtenemos el intervalo: Ŷ ± Se: I= [16.11 , 14.29 ]

Ŷ ± Se  15,2 ± 0,907 Implica que 68,3 % de los puntos caen entre estas rectas paralelas a Y= 4,4 + 1,08 X.
31,7% restante de las observaciones estarían fuera de este intervalo [16.11 , 14.29 ].

El error típico “Se” es similar a la desviación estándar,


mientras más dispersos esten los datos originales mayor
será Se.
68,3% es Ŷ ±1Se,
95,5% es Ŷ ±2Se,
99,7% es Ŷ ±3Se
6
Ing. Mario Marañón Álvarez

BONDAD DE AJUSTE r, R2

Descomposición de la varianza: (Variación= Desviación).

Desviación Total = Desviación Explicada + Desviación No Explicada


( Y −Ý )=( Y^ −Ý ) +(Y −Y^ )

En la gráfica veremos las desviaciones respectivas

SST =SCT =∑ (Y −Ý )2


SSR=SCR=∑ ( Y^ −Ý )2
SSE=SCT=∑ (Y −Y^ )2
SST = SSR + SSE

Si dividimos entre “n” se dice varianza.


2 2
Desviación Explicada SSR ∑ ( Y^ −Ý ) ( SSXY ) SSR
R=2
Variación Total
= = =
SST ∑ (Y −Ý )2 SSX SSY
r =±
√ SST
=√ R 2

SIGNIFICADO DE LOS COEFICIENTES r y R2

R2 Mide el poder explicativo del modelo de regresión lineal; es decir, la parte de la variación de Y explicada
por la variación de X.

El r= coeficiente de correlación mide el grado de relación entre X, Y con la ecuación de regresión.


7
Ing. Mario Marañón Álvarez

ESTIMACIONES CON INTERVALOS

1° Estimación del intervalo para para el valor medio de Y, dado un vaor de X; es decir, podría interesarnos
estimar la media poblacional para todos los valores de Y (y no solo “n=15” como la muestra) cuando X es
igual a un valor dado.

Por ejemplo podría interesarnos el promedio de todos ventas de todos los meses en que gastamos 1000 $us en
publicidad (es decir X= 1000) es lo que se llama la media condicional. Este intervalo es una estimación del
valor medio o promedio de Y para todos los valores en que X es igual a una cantidad específica

2° Estimación de un intervalo de confianza para estimar un valor único de Y cuando X toma un valor
específico. A este estimador se llama INTERVALO PREDICTIVO. Este intervalo estima Y en cualquier
valor único de X.

1° INTERVALO PREDICTIVOS PARA MEDIA CONDICIONAL DE Y


Estimación de intervalo para la media condicional de Y,  Y|X = Media poblacional de todos los valores de Y
con la condición de que X sea igual a un valor específico. El intervalo que calculamos aquí es una
estimación de la media de todos los numerososo valores de Y con la condición de que X= 10 muchas veces
(por ejemplo).
Tenemos dos interpretaciones:
a) Si hacemos X= la misma cantidad muchas veces obtendremos muchos valores distintos de Y.
Entonces podremos confiar en un 95% en que la media de esoso valores de Y ( Y|X)caerá dentro del
intervalo especificado.
b) Si tomaramos muchas muestras diferentes de valores de X, Y y construyeramos intervalos de
confianza a partir de cada muestra, el 95% de ellos contendría a  Y|X , valor medio verdadero, pero
desconocido de Y cuando X= 10
Para hallar este intervalo primero obtenemos EL ERROR TIPICO DE LA MEDIA CONDICIONAL, la
misión de Sy es tener en cuenta los valores diferentes de los parámetros A, B que resultan del error de
muestreo, y se calcula:
1

SY =Se = +¿ ¿ ¿
n

Se= Es el error estándar o típico de la estimación


X= Es un valor dado de la variable independiente
El intervalo de confianza para la media condicional es: IC para μY ∨ X =Y^ ± t n−2 SY

Interpretación se puede confiar al 95% en que la media poblacional verdadera de Y se encuentra entre
Y^ ±t n−2 S Y Para todo aquellos valores de X

2° INTERVALO PREDICTIVO PARA UN VALOR ÚNICO DE Y


2
( X − X́ )
√ 1
Y^ ∓t n−2 S YX 1+ +
n ∑ X 2−¿ ¿ ¿ ¿ ¿
¿

Implica predecir un valor único de Y si X es una cantidad dada una sola vez. El IC predictivo de Y también se presta a
dos interpretaciones, en el caso que los calculos son con el nivel de confianza del 95%:
8
Ing. Mario Marañón Álvarez

a) Si ponemos X= a una cantidad s´solo una vez, obtendríamos un único valor resultante de Y. Podemos estar
seguros al 95% de que dicho valor de Y cae dentro del intervalo espacificado.

b) Si tomamos muechas muestra y se utilizase cada una para construir un intervalo de confianza predictivo el
95% de esos intervalos contendrían el verdadero valor de Y.

Para hallar este intervalo predictivo primero se calcula el error típico o estandar de la predicción S Yi la fórmula de
cálculo es:
2
1 (X − X́ )
SYi =Se
√ 1+ +
n SSX

Luego el intervalo predictivo de un solo valor de Y, YX, es entonces: Y X =Y^ ±t n−2 SYi

Interpretación: Podemos estar seguros en un 95% que con un solo valor de X, el valor único resultante de Y
se encontrará entre Y^ ±t n−2 S Yi

OTROS AUTORES UTILIZAN LA FORMULA


S S
Y^ ± Z e Y^ ±t n−2 e
√n √n
COMO EL INTERVALO PREDICTIVO PARA UN VALOR ÚNICO DE Y

FORMULAS MODELO REGRESION DATOS AGRUPADOS


Sistema normal de ecuaciones, para obetner A, B

Ecuación 1 ∑ fy =A ∑ f + B ∑ fx
Ecuación 2 ∑ fxy=A ∑ fx + B ∑ f x 2
n ∑ fxy−∑ fx ∑ fy
B=
n ∑ f x 2−¿ ¿

A=
∑ fy ∑ f x 2−∑ fx ∑ fxy
n ∑ f x 2−¿ ¿

n ∑ fxy−∑ fx ∑ fy
r= 2
√ n ∑ f x −¿ ¿ ¿
∑ f ( x−x́)( y− ý ) ∑ f (x −x́)2 ∑ f ( y− ý )2
COVxy=
n
σ x=
√ n
σ x=
√ n

∑ f ( ^y − ý )2 = COVxy
r =±
√ Variación explicada
Variación total

√ ∑ f ( y− ý )2 σ x σ y
1
Se =S xy=
√ n(n−2)
¿¿
9
Ing. Mario Marañón Álvarez

FORMULAS COVARIANZAS

DATOS AGRUPADOS

COV XY =
∑ f ( X− X́)(Y −Ý ¿) = ∑ fXY −n X́ Ý = ∑ fXY − X́ Ý =¿ ¿
N N N

VARIANZAS

σ 2X =∑ f ¿ ¿ ¿

DATOS NO AGRUPADOS

COV XY =
∑ (X − X́ )(Y −Ý ¿) =¿ ¿
N

COV XY =¿
∑ XY −n X́ Ý =¿ COV =
∑ XY − X́ Ý =¿
XY
N N

COV XY =
∑ (X − X́ )(Y −Ý ¿) = ∑ XY −n X́ Ý = ∑ XY − X́ Ý =¿ ¿
N N N

DATOS NO AGRUPADOS

σ 2X =∑ ¿¿ ¿ σ 2X =
∑ X 2 −N X́ 2 =¿ σ 2 = ∑ X 2 − X́ 2
X
N N

σ 2X =∑ ¿¿ ¿

CALCULO DE LOS PARAMETROS B y A

CALCULO DEL PARAMETRO B

COV XY COV XY n ∑ XY −∑ X ∑ Y SY
B= 2
=¿ B= 2 B= 2
B=r =¿
S X σ X n ∑ X −¿ ¿ ¿ SX
σX
r =B
σY

∑ XY − X́ Ý
B=
∑ XY −n X́ Ý =¿ B=
∑ ( X− X́)(Y −Ý ¿) ¿ B=
N
=¿
2 2
∑ X −n X́ ∑ ¿¿¿ ∑ X 2 − X́ 2
N

COV XY n ∑ XY −∑ X ∑ Y
Resumen B= 2
=
SX n ∑ X 2−¿ ¿ ¿

PARAMETRO A
10
Ing. Mario Marañón Álvarez

A=
∑ Y −B ∑ X =¿ A=Ý −B X́=¿ A=
∑ Y −B ∑ X =Ý −B X́ =¿
n n

OTRA MANERA DE OBTENER LA RECTA DE REGRESION

σY σY COV XY
Y^ =Ý + R X −r X́ Y −Ý = (X − X́ )
σX σX σ2

BONDAD DE AJUSTE

σ X CO V XY ∑ ( Y^ −Ý )2 =
r =B
σY
=
σXσY

Variación explicada

VariaciónTotal

√ ∑ ( Y −Ý )2 √ SST
SSR

También son los coeficientes dedeterminación R 2 e indeterminación ( 1 - R2)

VARIANZA RESIDUAL= VARIANZA NO EXPLICADA= SUMA DE LOS CUADRADOS DEL ERROR


SCE:

(Se usan para calcular el grado de variación o dispersión que presentan los datos que no quedaron explicados por
la recta de regresión)

2 ∑ (Y −Y^ )2 2 2 ∑ (Y −Y^ )2
VR=S YX = VR=S =S e yx =
n n−2

2 ∑ Y 2 −A ∑ Y −B ∑ YX
S YX = =¿
n

S2YX =S 2Y ( 1−R 2) =¿

2 ∑ (Y −Y^ )2 ∑ Y 2−A ∑ Y −B ∑ YX
S YX = = =S 2 (1−R2 ) Y
n n

ERROR ESTANDAR DE ESTIMACION

∑ (Y −Y^ )2 =¿ ∑ Y 2− A ∑ Y −B ∑ YX =¿
Se =SYX =
√ n
Se =SYX =
√ n
Se =SYX =√ S 2Y (1−R2)=¿

∑ (Y −Y^ )2 = ∑ Y 2− A ∑ Y −B ∑ YX =
Se =SYX =
√ n √ n √S 2
Y (1−R 2)=¿

RESUMEN DE COTRASTE DE HIPOTESIS PARA LA PENDIENTE Y COEFICENTE DE


CORRELACION LINEL
11
Ing. Mario Marañón Álvarez

RESUMEN DE FORMULAS DE LA REGRESION NO LINEAL Y POLINOMICA

RESUMEN DE FORMULAS DE LA REGRESION LINEAL MULTIPLE

Y= f (Xi), i= 1, n

SI LA ECUACIÓN ES Y= A + B1x1 + B2x2

El sistema normal de ecuaciones es:

ΣY =An + B1 ΣX1 + B2ΣX2

ΣYX1 = A ΣX1 + B1ΣX12 + B2 ΣX1X2

ΣYX2 = A ΣX2 + B1 ΣX1X2 + B2ΣX22

SI LA ECUACIÓN ES Y= A + B1X1 + B2X2 + B3 X2

El sistema normal de ecuaciones es:

ΣY = An + B1 ΣX1 + B2 ΣX2 + B3 ΣX3

ΣYX1 = A ΣX1 + B1 ΣX12 + B2 ΣX1X2 + B3 ΣX3 X1

ΣYX2 = A ΣX2 + B1 ΣX1X2 + B2 ΣX22 + B3 ΣX3X2

ΣYX3 = A ΣX3 + B1 ΣX1X3 + B2 ΣX2X3 + B3 ΣX32

EL COEFICIENTE DE ESTIMACIÓN

Se emplea para medir la aproximación a un conjunto de datos, o para comparar una


aproximación.

Σ( y− ŷ )2
Coeficiente e estimación: SYX =
√ n−2
Σ ( y− ŷ )2
Coeficiente de estimación múltiple poblacional SP yx =
√ N
12
Ing. Mario Marañón Álvarez

(Y −Ý )2
Desviación estándar respecto a y σY =
√ N

COEFICIENTE DE CORRELACIÓN, se usa para estimar el grado de relación entre las


variables que se utilizan:

2
SPYX ∑ ( ^y − ý )2
r = 1−
√ ( )
σY
r =±
√ Variación explicada
Variación total

√ ∑ ( y− ý )2
COEFICIENTES DE CORRELACIÓN PARCIAL ENTRE VARIABLES

n ∑ yx 1−∑ y ∑ x1
ry x =1 2 2
√ n ∑ x −(∑ x ) √n ∑ y −(∑ y )
2
1 1
2

n ∑ yx 2−∑ y ∑ x2
ry x =2 2 2
√ n ∑ x −(∑ x ) √n ∑ y −(∑ y )
2
2 2
2

n ∑ x1 x 2−∑ x 1 ∑ x 2
rx x =
1 2 2 2
√n ∑ x −(∑ x ) √n ∑ x −(∑ x )
2
1 1
2
2 2

CORRELACIÓN PARCIAL ENTRE VARIABLES MATENIENDO CONSTANTE LAS OTRAS


VARIABLES
Ocasionalmente se puede requerir un coeficiente de correlación entre la variable Y con solo
una de la variables independientes considerando constantes las restantes variables
independientes, se puede calcular también el coeficiente de correlación entre un par de
variables independientes.
Para el caso de la ecuación Y= A + Bx1 + Cx2

Tenemos el coeficiente de correlación parcial de y respecto a x 1 manteniendo constante a x2


o ignorando absolutamente a x2 es:

r y x −r y x r x x2
r yx , x = 1

2
2 1

√(1−r )(1−r 2x x )
1 2

y x2 1 2

Coeficiente de correlación parcial de y respecto a x 2 manteniendo constante a x1 o


ignorando absolutamente a x1 es:

r y x −r y x r x x2
r yx , x = 2

2
1 1

√(1−r )(1−r 2x x )
2 1

y x1 1 2

Coeficiente de correlación parcial de x 1 respecto a x2 manteniendo constante a y o


ignorando absolutamente a y es:
13
Ing. Mario Marañón Álvarez

r x x −r y x r y x
rx x , y=
1 2

2
1 2

√(1−r )(1−r 2y x )
1 2

y x1 2
14
Ing. Mario Marañón Álvarez
15
Ing. Mario Marañón Álvarez
16
Ing. Mario Marañón Álvarez

También podría gustarte