Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ANALISIS DE REGRESION
El análisis de regresión es un proceso que permite establecer una relación funcional o ecuación
matemática entre dos variables, así como la fuerza de esa relación. En la terminología de la regresión, hay
dos tipos de variables:
Variable Dependiente.- Es la variable que se va a predecir, explicar y se denota por “Y”. Esta variable está
influenciado por los valores tomados por una o más variables diferentes. La variable aleatoria Y se
denomina variable respuesta o endógena.
Variable Independiente.- Es la variable o las variables que se usan para predecir el valor de la variable
dependiente. Las variables independientes se denominan variables predictores, regresores o exógenas.
Diagrama de Dispersión.- Es una gráfica de puntos representados en el plano cartesiano, donde se ubica
como pares ordenados o puntos, de la siguiente forma:
( x , y ) =(variable independiente , variable dependiente ) de la muestra observada. En el eje X se ubica la
variable independiente y en el eje Y se ubica la variable dependiente.
Por ejemplo: Sean X = gastos de investigación (millones de soles) y Y = ganancia anual (millones de soles)
X (millones de soles) 2 3 4 5 6 4 7
Y(millones de soles) 4 7 4 11 14 10 16
1
ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION
Regresión Lineal Simple.- Es la relación que se aproxima por medio de una línea recta. El modelo de
regresión lineal simple es:
y=α + βx +e
Ecuación de regresión
E( y)=α + βx
Los valores α y β se llaman parámetros del modelo y generalmente no se conocen y deben estimarse a partir
de los datos de la muestra. Estos parámetros se calculan usando las observaciones de la muestra y son
valores conocidos como regresores (estimadores de los parámetros). La ecuación estimada de regresión es:
^y =a+bx
2
ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION
Sección A. La gráfica (a) siguiente muestra cómo la pendiente de la recta sube cuando X toma valores cada
vez más grandes. Se dice que la pendiente de esta recta es positiva, porque Y crece si X crece.
Sección B. La gráfica (b) de la siguiente figura ilustra este tipo de relación, que se caracteriza por una
pendiente negativa (la variable dependiente Y disminuye al aumentar la variable independiente X).
3
ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION
Este método emplea los datos de la muestra para determinar las características de la recta que hacen mínima
la suma de los cuadrados de las desviaciones:
n n
2 2
min ∑ ( ei ) =min ∑ ( y i−^y i )
i=1 i=1
Donde: y i : Valor observado de la variable dependiente para la i−esima observación
y i :Valor estimado de la variable dependiente para la i−esima observacion .
^
Reemplazando ^y =a+bx
n n
2 2
min ∑ ( y i− ^y i ) =min ∑ ( y i−(a+ bx) )
i=1 i=1
Minimizar la ecuación del lado derecho de la ecuación anterior implica calcular las derivadas parciales de la
expresión con respecto a los coeficientes de regresión e igualar a cero las dos derivadas. Al finalizar este
procedimiento se llega a las siguientes ecuaciones, conocidas como ecuaciones normales.
n n
∑ yi =na+ ∑ x i
i=1 i=1
4
ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION
n n n
∑ x i y i=a ∑ x i +b ∑ x i2
i=1 i=1 i=1
De donde se obtiene:
a= ý−b x́
n n n n
b=
n ∑ xi y i−
i=1
( )(∑ )
∑ xi
i=1 i =1
yi ∑ xi y i−n x́ ý
= i=1n
n n 2
n ∑ x i2−
i=1
(∑ ) i=1
xi ∑ x i2−n x́ 2
i=1
5
ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION
n Empleados X Ingresos Y
1 16 5.7
2 29 3.8
3 17 1.9
4 6 1.0
5 9 1.0
SOLUCIÓN
Diagrama de dispersión: Ingresos respecto del número de empleados
6 Se observa una
5 relación lineal directa.
Ingreso anual
4
i Empleados X Ingresos Y X*Y X*X
3
1 16 5.7 91.2 256
2
2 29 3.8 110.2 841
1
3 17 1.9 32.3 289
0
0 5 4 10 15 6 20 25 1 30 6 35 36
5 9
Número de empleados 1 9 81
SUMAS 77 13.4 248.7 1503
Interpretación:
a=0.68. Si el número de empleados es cero, entonces el ingreso anual será 0.68 millones de soles.
b=0.13>0. Si el número de empleados aumenta en 1000 empleados, entonces el ingreso anual aumenta
en 0.13 millones de soles.
6
ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION
La suma de los cuadrados de errores es lo que se minimiza por el método de mínimos cuadrados. También
se le conoce como la suma de los cuadrados debidos al error (SCE)
n n
2 2
SSE=SCE=∑ ( yi −^y i ) =∑ ( ei )
i=1 i=1
El valor de SCE es una medida del error que se comete al usar la ecuación de regresión para calcular los
valores de las variables de la muestra. La medida del error ocurrido al usar la ecuación de regresión para
estimar y i, se llama SCT (suma de cuadrado total):
n n
2 2
SCT=∑ ( y i− ý ) =∑ ( y i− ý + ^
y i− ^
yi )
i=1 i=1
n n n
2 2 2
∑ ( y i− ý ) =∑ ( ^y i− ý ) +∑ ( y i −^y i )
i=1 i i
SCT=SCReg+ SCE
La suma de cuadrados debida a la regresión denotada por SCR, mide cuánto se desvían los valores ^y i
medidos en la línea de regresión de los valores ý.
SCR=SCT−SCE
2 SCE SSE
La varianza de la regresión: s = = ,
n−2 n−2
SCE
La deviación estándar de la estimación es s=
n−2 √
En la aplicación: SCE=SSE
Ejercicio 3.- El ingreso anual de 5 empresas en millones de soles y el número de empleados de empleados
en miles, se muestran en la siguiente tabla. Calcular la varianza y la desviación estándar.
2
i Empleados X Ingreso Y ^y i=0.68+ 0.13 x i e i= y i− ^yi ( y i− ^y i)
1 16 5.7 2.76 2.94 8.643
2 29 3.8 4.45 -0.65 0.481
7
ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION
3 17 1.9 2.89 -0.99 0.986
4 6 1 1.46 -0.46 0.181
5 9 1 1.85 -0.85 0.682
Suma 77 13.4 0 10.976
n
2
SCE=∑ ( y i− ^y i) =10.976=10.98
i=1
SCE 10.976
2
La varianza de la regresión es: s = = =3.6588
n−2 5−2
SCE
La desviación estándar es: s=
n−2
=√3.6588=1.9128
√
ANALÍSIS DE CORRELACIÓN
Dos variables están asociadas cuando una variable nos da información acerca de la otra.
Por el contrario, cuando no existe asociación, el aumento o disminución de una variable no nos dice nada
sobre el comportamiento de la otra variable.
COVARIANZA.- Es la medida de asociación lineal más simples de dos variables. Viene dada por:
n n
∑ ( x i− x́ ) ( y i− ý ) ∑ xi yi
i=1
COV ( x , y )=s xy = = i=1 − x́ ý
n n
n
∑ xi yi
COV ( x , y )= i=1 −x́ ý
n
El inconveniente de la covarianza como medida de la asociación lineal entre dos variables es que depende de
las unidades de X e Y, por ello se define el coeficiente de correlación entre dos variables,r xy por:
n
s ∑ ( x i−x́ ) ( y i− ý )
r xy = xy = i=1
s x ∗s y n n
n
√∑ ( i=1
x i− x́ ) ∗
n
2
√∑ (i =1
y i− ý )
2
∑ xi y ∑ yi
i=1
x́= ý= i=1
n n
n
8
ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION
n
INTERPRETACIÓN
Si el coeficiente de correlación lineal toma valores cercanos a −1 entonces la correlación es fuerte e
inversa, y será tanto más fuerte cuanto más se aproxime r xy a −1.
Si el coeficiente de correlación lineal toma valores cercanos a 1 la correlación es fuerte y directa, y
será tanto más fuerte cuanto más se aproxime r a 1.
Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación es débil.
Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o decreciente. Entre ambas
variables hay dependencia funcional.
O de otra forma
Observación
El signo de r tiene que ver sólo con la dirección de la relación entre dos variables, ya sea directa o inversa y
la magnitud del coeficiente tiene que ver con la intensidad o estrechez de la relación. El valor de r puede ser
positivo, negativo o cero.
Nota:
9
ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION
Si r ≥ 0.75 la recta de regresión será una buena estimación.
Todo r ≠ 0 indica cierto grado de relación entre dos variables
Una correlación baja no siempre significa ausencia de relación ya que puede existir una correlación
curvilínea muy estrecha.
r =+ 1 Existe una relación lineal directa perfecta (positiva) entre las dos variables. Es decir, las
puntuaciones bajas de X se asocian con las puntuaciones bajas de Y, mientras las puntuaciones altas
de X se asocian con los valores altos de la variable Y.
r
=−1 Existe una relación lineal inversa perfecta (negativa) entre las dos variables. Es decir, las
puntuaciones bajas en X se asocian con los valores altos en Y, y las puntuaciones altas en X se
asocian con los valores bajos en Y.
Valor Significado
-1 Correlación negativa perfecta
-0.70 a -0.99 Correlación negativa alta
-0.50 a -0.69 Correlación negativa moderada
-0,20 a -0.49 Correlación negativa baja
-0.01 a -0.19 Correlación negativa muy baja
0 Correlación nula No es recomendable
aplicar regresión lineal
+0.01 a +0.19 Correlación positiva muy baja
+0,20 a +0.49 Correlación positiva baja
+0.50 a +0.69 Correlación positiva moderada
+0.70 a +0.99 Correlación positiva alta
En el gráfico vemos diferentes valores del coeficiente de correlación y sus diagramas de dispersión
correspondientes.
10
ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION
2 2
R =r
n n
b 0 ∑ y i +b 1 ∑ x i y i −n ý 2
R 2= i=1 i=1
n
∑ y 2i −n ý 2
i=1
R2=r 2*100
Descomposición de la Variabilidad
Ejercicio 4. Los siguientes datos muestran la relación anual entre los gastos en investigación y ganancias.
SOLUCION
11
ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION
xi yi xi yi x 2i y 2i
1 5 31 155 25 961
2 11 40 440 121 1600
3 4 30 120 16 900
4 5 34 170 25 1156
5 3 25 75 9 625
6 2 20 40 4 400
SUMAS 30 180 1000 200 5642
∑ xi
30 y ∑ yi 180
i=1
x́= = =5 ý= i=1 = =30
n 6 n 6
n
c) COEFICIENTE DE CORRELACION
n
∑ x i yi 1000
COV ( x , y )=s xy = i=1 − x́ ý= −5∗30=166.667−150=16.667
n 6
12
ESTADÍSTICA GENERAL ______________________ ANALISIS REGRESION Y CORRELACION
n
Interpretación.- Se observa una relación fuerte y directa entre los gastos de investigación y desarrollo y las
ganancias anuales.
Interpretación.- Así, podemos concluir que la variación en los gastos en investigación y desarrollo (la
variable independiente X) explica el 82.8% de la variación en las ganancias anuales (la variable dependiente
Y).
Ejercicio 1: Los siguientes datos son las mediciones de la velocidad del aire y del coeficiente de
evaporación de las gotitas de combustible en una turbina de propulsión:
Ejercicio 2. Las pruebas acerca del consumo de combustible de un vehículo que viaja a diferentes
velocidades produjeron los siguientes resultados:
Velocidad : 20 30 40 50 60 70 80
Consumo : 18,3 18,8 19,1 19,3 19,5 19,7 19,8
a) Trazar el diagrama de esparcimiento.
b) ¿Qué porcentaje de las variaciones en el consumo se pueden atribuir a otros factores o a efectos
aleatorios?
c) Los pronósticos que se realicen con un modelo lineal, ¿serán cercanos a la realidad?
d) Hallar los valores estimados.
e) Calcular los errores de estimación.
Ejercicio 3. Pesos de automóviles y consumo de combustible. Calcule la mejor cantidad predicha de
combustible consumido en carretera (en mi/gal), para un automóvil que pesa 3000 libras.
13