Está en la página 1de 13

ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION

ANALISIS DE REGRESION
El análisis de regresión es un proceso que permite establecer una relación funcional o ecuación
matemática entre dos variables, así como la fuerza de esa relación. En la terminología de la regresión, hay
dos tipos de variables:

Variable Dependiente.- Es la variable que se va a predecir, explicar y se denota por “Y”. Esta variable está
influenciado por los valores tomados por una o más variables diferentes. La variable aleatoria Y se
denomina variable respuesta o endógena.

Variable Independiente.- Es la variable o las variables que se usan para predecir el valor de la variable
dependiente. Las variables independientes se denominan variables predictores, regresores o exógenas.

Diagrama de Dispersión.- Es una gráfica de puntos representados en el plano cartesiano, donde se ubica
como pares ordenados o puntos, de la siguiente forma:
( x , y ) =(variable independiente , variable dependiente ) de la muestra observada. En el eje X se ubica la
variable independiente y en el eje Y se ubica la variable dependiente.
Por ejemplo: Sean X = gastos de investigación (millones de soles) y Y = ganancia anual (millones de soles)

X (millones de soles) 2 3 4 5 6 4 7
Y(millones de soles) 4 7 4 11 14 10 16

Existen varias formas en que las variables se pueden relacionar,


a) Relación lineal directa.- Se caracteriza porque, cuando el valor de la variable X aumenta (o crece), la
variable dependiente Y también aumenta y porque los puntos forman una línea recta.
b) Relación lineal inversa.- Se caracteriza porque, cuando el valor de la variable X aumenta (o crece), la
variable dependiente Y disminuye (o decrece) y porque los puntos forman una línea recta.
c) Relación no lineal directa.- Se caracteriza porque, cuando el valor de la variable X aumenta (o crece), la
variable dependiente Y también aumenta y porque los puntos forman una curva.
d) Relación no lineal inversa.- Se caracteriza porque, cuando el valor de la variable X aumenta (o crece), la
variable dependiente Y disminuye (o decrece) y porque los puntos forman una curva.

1
ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION

Regresión Lineal Simple.- Es la relación que se aproxima por medio de una línea recta. El modelo de
regresión lineal simple es:
y=α + βx +e

Dónde: x es la variable independiente.


y: variable dependiente.
αEs el intercepto de la recta en el eje Y.
β: Es la pendiente de la recta.
e : Error aleatorio y cumple los siguientes supuestos:

Supuestos de regresión lineal

Ecuación de regresión
E( y)=α + βx
Los valores α y β se llaman parámetros del modelo y generalmente no se conocen y deben estimarse a partir
de los datos de la muestra. Estos parámetros se calculan usando las observaciones de la muestra y son
valores conocidos como regresores (estimadores de los parámetros). La ecuación estimada de regresión es:

^y =a+bx

2
ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION

Rectas posibles de regresión en la regresión lineal simple

Sección A. La gráfica (a) siguiente muestra cómo la pendiente de la recta sube cuando X toma valores cada
vez más grandes. Se dice que la pendiente de esta recta es positiva, porque Y crece si X crece.
Sección B. La gráfica (b) de la siguiente figura ilustra este tipo de relación, que se caracteriza por una
pendiente negativa (la variable dependiente Y disminuye al aumentar la variable independiente X).

3
ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION

METODO DE MINIMOS CUARDRADOS PARA ESTIMAR a y b

Este método emplea los datos de la muestra para determinar las características de la recta que hacen mínima
la suma de los cuadrados de las desviaciones:
n n
2 2
min ∑ ( ei ) =min ∑ ( y i−^y i )
i=1 i=1
Donde: y i : Valor observado de la variable dependiente para la i−esima observación
y i :Valor estimado de la variable dependiente para la i−esima observacion .
^

Reemplazando ^y =a+bx
n n
2 2
min ∑ ( y i− ^y i ) =min ∑ ( y i−(a+ bx) )
i=1 i=1
Minimizar la ecuación del lado derecho de la ecuación anterior implica calcular las derivadas parciales de la
expresión con respecto a los coeficientes de regresión e igualar a cero las dos derivadas. Al finalizar este
procedimiento se llega a las siguientes ecuaciones, conocidas como ecuaciones normales.
n n

∑ yi =na+ ∑ x i
i=1 i=1

4
ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION
n n n

∑ x i y i=a ∑ x i +b ∑ x i2
i=1 i=1 i=1

De donde se obtiene:
a= ý−b x́
n n n n

b=
n ∑ xi y i−
i=1
( )(∑ )
∑ xi
i=1 i =1
yi ∑ xi y i−n x́ ý
= i=1n
n n 2

n ∑ x i2−
i=1
(∑ ) i=1
xi ∑ x i2−n x́ 2
i=1

Interpretación de los Estimadores


 El coeficiente b corresponde a la pendiente de la recta. En general, este coeficiente expresa la razón de
cambio entre la variable dependiente con respecto a un cambio unitario en la variable independiente. “Es
decir si la variable independiente x aumenta en una unidad entonces la variable dependiente y
pueden aumentar o disminuir b unidades, dependiendo del signo de b.”

 a: Cuando la variable independiente x es cero, la variable dependiente y es a unidades.

Ejercicio 1.- La distribución de edades y presión arterial de 10 estudiantes es:


a) Calcular la ecuación de regresión estimada.
b) Estimar la presión arterial de una persona de 60 años

n Edad X Tensión Y X*Y X*X =x 2i


1 30 11.5 345 900
2 28 11.3 316.4 784
3 35 12.5 437.5 1225
4 42 13.5 567 1764
5 51 14.6 744.6 2601
6 42 13 546 1764
6 63 16.6 1045.8 3969
7 32 12 384 1024
9 70 16.9 1183 4900
10 67 17 1139 4489
SUMA 460 138.9 6708.3 23420

a) Calcular la ecuación de regresión estimada.


460 138.9
x́= =46 años ý= =13.89
10 10
n

∑ xi y i−n x́ ý 6708.3−10(46)(13.89) 318.9


b= i=1n = 2
= =0.14
23420−10 ( 46 ) 2260
∑ x 2−n x́ 2
i=1

a= ý−b x́ =13.89−0.14 ( 46 )=7.45


La ecuación de regresión estimada es: ^y =a+bx Entonces
^y =7.45+ 0.14 x o
Presion arterial=7.45+ 0.14(Edad )
INTERPRETACIÓN
a=7.45 .Cuando la edad es cero la presión arterial es 7.45.
b=0.14 Si la edad aumenta en un año entonces la presión arterial aumentar en 0.14.

5
ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION

b) Estimar la presión arterial de una persona de 60 años.


^y =a+bx=7.45+0.14 ( Edad )=7.45+ 0.14 ( 60 )=15.85.
Cuando la edad de una persona es 60 años, la presión arterial es 15.85.

Ejercicio 2. El ingreso anual de 5 empresas en millones de soles y el número de empleados de empleados en


miles, se muestran en la siguiente tabla.

n Empleados X Ingresos Y
1 16 5.7
2 29 3.8
3 17 1.9
4 6 1.0
5 9 1.0

a. Grafique el diagrama de dispersión, que tipo de relación observa en el diagrama.


b. Determinar la recta de regresión estimada de los ingresos respecto al número de empleados.
Interpretar los coeficientes.

SOLUCIÓN
Diagrama de dispersión: Ingresos respecto del número de empleados
6 Se observa una
5 relación lineal directa.
Ingreso anual

4
i Empleados X Ingresos Y X*Y X*X
3
1 16 5.7 91.2 256
2
2 29 3.8 110.2 841
1
3 17 1.9 32.3 289
0
0 5 4 10 15 6 20 25 1 30 6 35 36
5 9
Número de empleados 1 9 81
SUMAS 77 13.4 248.7 1503

Ecuación de Regresión Estimada: ^y =0.68+0.13 x

Interpretación:
a=0.68. Si el número de empleados es cero, entonces el ingreso anual será 0.68 millones de soles.

b=0.13>0. Si el número de empleados aumenta en 1000 empleados, entonces el ingreso anual aumenta
en 0.13 millones de soles.

VARIANZA Y DESVIACION ESTANDAR DE LA REGRESIÓN


Para la i-ésima observación de la muestra, la desviación entre el valor observado de la variable dependiente
y i y el valor estimado de la variable dependiente ^y i, se llama i-ésimo residual (error, desviación). Representa
el error que se comete al usar para estimar y i.
desviación=error aleatorio=ei= y i−^y i

6
ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION

La suma de los cuadrados de errores es lo que se minimiza por el método de mínimos cuadrados. También
se le conoce como la suma de los cuadrados debidos al error (SCE)
n n
2 2
SSE=SCE=∑ ( yi −^y i ) =∑ ( ei )
i=1 i=1
El valor de SCE es una medida del error que se comete al usar la ecuación de regresión para calcular los
valores de las variables de la muestra. La medida del error ocurrido al usar la ecuación de regresión para
estimar y i, se llama SCT (suma de cuadrado total):
n n
2 2
SCT=∑ ( y i− ý ) =∑ ( y i− ý + ^
y i− ^
yi )
i=1 i=1
n n n
2 2 2
∑ ( y i− ý ) =∑ ( ^y i− ý ) +∑ ( y i −^y i )
i=1 i i
SCT=SCReg+ SCE
La suma de cuadrados debida a la regresión denotada por SCR, mide cuánto se desvían los valores ^y i
medidos en la línea de regresión de los valores ý.
SCR=SCT−SCE
2 SCE SSE
La varianza de la regresión: s = = ,
n−2 n−2
SCE
La deviación estándar de la estimación es s=
n−2 √
En la aplicación: SCE=SSE

Ejercicio 3.- El ingreso anual de 5 empresas en millones de soles y el número de empleados de empleados
en miles, se muestran en la siguiente tabla. Calcular la varianza y la desviación estándar.

2
i Empleados X Ingreso Y    ^y i=0.68+ 0.13 x i  e i= y i− ^yi  ( y i− ^y i)
1 16 5.7 2.76 2.94 8.643
2 29 3.8 4.45 -0.65 0.481

7
ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION
3 17 1.9 2.89 -0.99 0.986
4 6 1 1.46 -0.46 0.181
5 9 1 1.85 -0.85 0.682
Suma 77 13.4 0 10.976

n
2
SCE=∑ ( y i− ^y i) =10.976=10.98
i=1
SCE 10.976
2
La varianza de la regresión es: s = = =3.6588
n−2 5−2
SCE
La desviación estándar es: s=
n−2
=√3.6588=1.9128

ANALÍSIS DE CORRELACIÓN
Dos variables están asociadas cuando una variable nos da información acerca de la otra.
Por el contrario, cuando no existe asociación, el aumento o disminución de una variable no nos dice nada
sobre el comportamiento de la otra variable.

 La correlación es un tipo de asociación entre dos variables, específicamente evalúa una tendencia


(creciente o decreciente) en los datos.
 Dos variables se correlacionan cuando muestran una tendencia creciente o decreciente.

El coeficiente de correlación lineal se denota por r, el coeficiente de correlación mide la fuerza de


asociación lineal entre dos variables. Es la segunda medida que se usa para describir qué tan bien explica
una variable a la otra.

COVARIANZA.- Es la medida de asociación lineal más simples de dos variables. Viene dada por:
n n

∑ ( x i− x́ ) ( y i− ý ) ∑ xi yi
i=1
COV ( x , y )=s xy = = i=1 − x́ ý
n n
n

∑ xi yi
COV ( x , y )= i=1 −x́ ý
n

El inconveniente de la covarianza como medida de la asociación lineal entre dos variables es que depende de
las unidades de X e Y, por ello se define el coeficiente de correlación entre dos variables,r xy por:
n

s ∑ ( x i−x́ ) ( y i− ý )
r xy = xy = i=1
s x ∗s y n n

n
√∑ ( i=1
x i− x́ ) ∗
n
2
√∑ (i =1
y i− ý )
2

∑ xi y ∑ yi
i=1
x́= ý= i=1
n n
n

∑ x 2i Varianza para la variable “x” y su desviación estándar es: s x =√ s 2x


2 i =1 2
s=
x −x́
n

8
ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION
n

∑ y 2i Varianza para la variable “y” y su desviación estándar es: s y = √ s2y


2 i=1 2
s=
y − ý
n

Propiedades del coeficiente de correlación


1. Este número no tiene dimensiones y su valor esta entre −1 ≤r xy ≤1.
2. Los valores extremos 1 y -1 se alcanzan solamente si todos los datos se sitúan exactamente sobre una
recta.

INTERPRETACIÓN
 Si el coeficiente de correlación lineal toma valores cercanos a −1 entonces la correlación es fuerte e
inversa, y será tanto más fuerte cuanto más se aproxime r xy a −1.
 Si el coeficiente de correlación lineal toma valores cercanos a 1 la correlación es fuerte y directa, y
será tanto más fuerte cuanto más se aproxime r a 1.
 Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación es débil.
 Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o decreciente. Entre ambas
variables hay dependencia funcional.

O de otra forma
Observación
El signo de r tiene que ver sólo con la dirección de la relación entre dos variables, ya sea directa o inversa y
la magnitud del coeficiente tiene que ver con la intensidad o estrechez de la relación. El valor de r puede ser
positivo, negativo o cero.

Nota:

9
ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION
 Si r ≥ 0.75 la recta de regresión será una buena estimación.
 Todo r ≠ 0 indica cierto grado de relación entre dos variables
 Una correlación baja no siempre significa ausencia de relación ya que puede existir una correlación
curvilínea muy estrecha.
 r =+ 1 Existe una relación lineal directa perfecta (positiva) entre las dos variables. Es decir, las
puntuaciones bajas de X se asocian con las puntuaciones bajas de Y, mientras las puntuaciones altas
de X se asocian con los valores altos de la variable Y.
r
 =−1 Existe una relación lineal inversa perfecta (negativa) entre las dos variables. Es decir, las
puntuaciones bajas en X se asocian con los valores altos en Y, y las puntuaciones altas en X se
asocian con los valores bajos en Y.

Valor Significado
-1 Correlación negativa perfecta
-0.70 a -0.99 Correlación negativa alta
-0.50 a -0.69 Correlación negativa moderada
-0,20 a -0.49 Correlación negativa baja
-0.01 a -0.19 Correlación negativa muy baja
0 Correlación nula No es recomendable
aplicar regresión lineal
+0.01 a +0.19 Correlación positiva muy baja
+0,20 a +0.49 Correlación positiva baja
+0.50 a +0.69 Correlación positiva moderada
+0.70 a +0.99 Correlación positiva alta

En el gráfico vemos diferentes valores del coeficiente de correlación y sus diagramas de dispersión
correspondientes.

COEFICIENTE DE DETERMINACIÓN ( R2)


Proporción de la variación total en la variable dependiente Y que se explica, o contabiliza, por la variación
en la variable independiente X. Este se calcula elevando al cuadrado el coeficiente de correlación.

10
ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION
2 2
R =r
n n
b 0 ∑ y i +b 1 ∑ x i y i −n ý 2
R 2= i=1 i=1
n

∑ y 2i −n ý 2
i=1

R2=r 2*100

Descomposición de la Variabilidad

Ejercicio 4. Los siguientes datos muestran la relación anual entre los gastos en investigación y ganancias.

Año Gastos en Investigación (Millones de $) Ganancia anual (Millones dólares)


1995 5 31
1994 11 40
1993 4 30
1992 5 34
1991 3 25
1990 2 20

SOLUCION

11
ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION
xi yi xi yi x 2i y 2i
1 5 31 155 25 961
2 11 40 440 121 1600
3 4 30 120 16 900
4 5 34 170 25 1156
5 3 25 75 9 625
6 2 20 40 4 400
SUMAS 30 180 1000 200 5642

a) DIAGRAMA DE DISPERSION Y LA ECUACIÓN DE REGRESIÓN ESTIMADA

b) ESTIMACION DE LA ECUACION DE REGRESION


n n

∑ xi
30 y ∑ yi 180
i=1
x́= = =5 ý= i=1 = =30
n 6 n 6
n

∑ xi y i−n x́ ý 1000−6(5)(30) 100


b= i=1n = 2
= =2
200−6 ( 5 ) 50
∑ x 2−n x́ 2
i=1

a= ý−b x́ =30−2 ( 5 )=20


Ecuación de regresión estimada es:
^y =20+ 2 x
Interpretación:
 Cuando la inversión en investigación y desarrollo aumente en 1 millón de dólares entonces la
ganancia anual aumentara en 2 millones de dólares.
 Cuando la inversión en investigación y desarrollo es cero entonces la ganancia anual es 20 millones
de dólares.

c) COEFICIENTE DE CORRELACION
n

∑ x i yi 1000
COV ( x , y )=s xy = i=1 − x́ ý= −5∗30=166.667−150=16.667
n 6

12
ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION
n

∑ x 2i200 2 Entonces s x =√ s 2x = √ 8.333=2.887


2 i =1 2
s=
x −x́ = −( 5 ) =33.333−25=8.333
n 6
n

∑ y 2i 5642 2 Entonces s y = √ s2y =√ 40.333=6.351


2 i=1 2
s=
y − ý = −( 30 ) =940.333−900=40.333
n 6
s 16.667
r xy = xy = =0.9090=0.91
s x ∗s y 2.887∗6.351

Interpretación.- Se observa una relación fuerte y directa entre los gastos de investigación y desarrollo y las
ganancias anuales.

d) Coeficiente de Determinación: R2=r 2=( 0.91 )2=0.828 → 82.8 %

Interpretación.- Así, podemos concluir que la variación en los gastos en investigación y desarrollo (la
variable independiente X) explica el 82.8% de la variación en las ganancias anuales (la variable dependiente
Y).

Ejercicio 1: Los siguientes datos son las mediciones de la velocidad del aire y del coeficiente de
evaporación de las gotitas de combustible en una turbina de propulsión:

Ejercicio 2. Las pruebas acerca del consumo de combustible de un vehículo que viaja a diferentes
velocidades produjeron los siguientes resultados:
Velocidad : 20 30 40 50 60 70 80
Consumo : 18,3 18,8 19,1 19,3 19,5 19,7 19,8
a) Trazar el diagrama de esparcimiento.
b) ¿Qué porcentaje de las variaciones en el consumo se pueden atribuir a otros factores o a efectos
aleatorios?
c) Los pronósticos que se realicen con un modelo lineal, ¿serán cercanos a la realidad?
d) Hallar los valores estimados.
e) Calcular los errores de estimación.
Ejercicio 3. Pesos de automóviles y consumo de combustible. Calcule la mejor cantidad predicha de
combustible consumido en carretera (en mi/gal), para un automóvil que pesa 3000 libras.

13

También podría gustarte