Documentos de Académico
Documentos de Profesional
Documentos de Cultura
y
y bx
y5
y4
y3
y2
y1
x1 x2 x3 x4 x5 x
Dependencia estadística: Relación aproximada entre los valores de dos variables. A la función que
expresa matemáticamente esa “relación aproximada”se la conoce como línea de regresión.
Para que sea interesante el estudio estadístico debe haber un PLANTEAMIENTO TEÓRICO
Regresión y Correlación
Cuando se analiza la dependencia estadística entre dos
caracteres (X,Y), entran en juego dos aspectos:
En primer lugar, la medida de la intensidad de esa
dependencia, a lo que se denomina Correlación.
En segundo lugar, la Regresión estudia como esta
dependencia se plasma de manera que pueda utilizarse para
predecir un carácter a partir del comportamiento de otro.
Sólo estudiaremos dependencia entre variables estadísticas
en este curso.
Así pues, el objetivo es aprovechar la intensidad de la
dependencia entre dos variables, para poder hacer
predicciones de la variable endógena a partir de la exógena.
Dependiendo de la elección de las mismas, hay dos modelos
distintos de regresión SIEMPRE: Y/X y X/Y.
Dr. José Javier Núñez Velázquez.
Departamento de Economía 10/31/2022
Estadística Empresarial I. Tema 5:Regresión y Correlación
.
ANÁLISIS DE REGRESIÓN
- Como ya se ha indicado, tratamos de aprovechar la dependencia
entre las variables (X,Y), para hacer predicciones sobre una a
partir de la otra (Y/X o X/Y). Esto puede hacerse de dos maneras:
REGRESIÓN DE TIPO I o CONDICIONADA:
En este caso, las predicciones se realizan calculando la media
condicionada de la distribución correspondiente:
Y / X : y / X x1, y / X x2 ,..., y / X x r ( x i , y / X x i ), i 1,2,..., r
X / Y : x / Y y1, x / Y y 2 ,..., x / Y y s ( x / Y y j , y j ), j 1,2,..., s
REGRESIÓN MÍNIMO-CUADRÁTICA
Se representa la nube de puntos dada por los valores observados y se elige una forma funcional compatible con
la forma de dicha nube
Y
yi
ei
yi*
xi X
Para cada observación (xi, yi ) se define un error. Como medida global del error calculamos la suma de sus
cuadrados.
residuo ei yi yi *
S ei2 yi yi*
2
i i
Se obtiene la combinación de valores de los parámetros de la función elegida que hace mínima esta suma de
errores.
y* a bx
Pasos:
Se representa la nube de puntos dada por las observaciones.
Se ajusta la recta de regresión de forma que se minimicen los errores al cuadrado:
S e yi y y a bx
N N N
2 * 2 2
i i i i
i 1 i 1 i 1
y
i 1
i Na b xi
i 1
N N N
x y
i 1
i i a xi b xi2
i 1 i 1
S N N
a
2
i 1
( y i a bx i ).( 1) ( 2)
i 1
( y i a bx i ) 0
S N N
2 ( y i a bx i ).( x i ) ( 2) ( x i y i ax i bx i ) 02
b i 1 i 1
N N N N N
i 1
y i a bx i 0 y i Na b x i
i 1 i 1 i 1 i 1
N N N N N N
i 1
x i y i i 1
ax i
i 1
bx 2
i 0
i 1
x i y i a
i 1
x i b
i 1
x i2
N
2N 2 x i
S
2
S
2 N
S
2 N
S
2 N
2N; 2 x i ;
2
2 x i ; 2 x i H N i 1
a 2 b 2 a b b a N
2 x i 2 x i2
i 1 i 1 i 1
i 1 i 1
Dr. José Javier Núñez Velázquez.
Departamento de Economía 10/31/2022
Estadística Empresarial I. Tema 5:Regresión y Correlación
.
Sx y
b bY X 2
Coeficiente de regresión
S x
a Y b X Y S x y X Ordenada en el origen
Y X
S x2
x X
Sx y
y Y
S x2
Determina en cuánto varía la variable dependiente cuando la independiente varía en una unidad.
y i Na b xi y a bx a y bx
i 1 i 1
N
N
x y a x b x2
N
11
a a. x b.a 11
a ( y bx ) x b.a
i 1 i i
i 1
i i 1
i
20 20
s
a11 xy bx 2 b.a20 a11 xy b.(a20 x 2 ) s xy b.s x2 b xy2
sx
sxy
Y / X : Y a bX ( y bx ) bX y b( X x ) (Y y ) (X x)
sx2
Puede observarse que:
- El signo de la pendiente coincide con el de la covarianza, puesto que la
varianza es no negativa. Por tanto, ambas rectas son crecientes o ambas
son decrecientes dependiendo del sentido de su dependencia.
- Ambas rectas se cortan en el punto ( x , y )
- Los coeficientes de regresión respectivos son las pendientes de las
rectas de regresión: b y x
, b
x y
Y/X X /Y
Dr. José Javier Núñez Velázquez.
Departamento de Economía 10/31/2022
Estadística Empresarial I. Tema 5:Regresión y Correlación
.
S e xi x x a´b´ y
N N N
2 * 2 2
i i i i
i 1 i 1 i 1
Las ecuaciones normales son:
N N
xi Na´ b´ yi
i 1 i 1
N N N
x y
i 1
i i a´ yi b´ yi2
i 1 i 1
Sx y
b´ bX Y S 2
y Y
Sx y
x X
y
S y2
a´ X S x y Y
S 2
y
S N N
a '
2
i 1
( x i a ' b ' y i ).( 1) ( 2)
i 1
( x i a ' b ' y i ) 0
S N N
2 ( x i a ' b ' y i ).( y i ) ( 2) ( x i y i a ' y i b ' y i ) 0 2
b ' i 1 i 1
N N N N N
i 1
x i a ' b ' y i 0 x i Na ' b ' y i
i 1 i 1 i 1 i 1
N N N N N N
i 1
x i y i
i 1
a ' y i
i 1
b ' y 2
i 0
i 1
x i y i a '
i 1
y i b '
i 1
y i2
N
2N 2 y i
S
2
S
2 N
S
2 N
S
2 N
2N; 2 y i ;
2
2 y i ; 2 y i H ' N i 1
a '2 b '2 a ' b ' b ' a ' N
2 y i 2 y i2
i 1 i 1 i 1
i 1 i 1
Dr. José Javier Núñez Velázquez.
Departamento de Economía 10/31/2022
Estadística Empresarial I. Tema 5:Regresión y Correlación
.
EJEMPLO 2: En 10 familias se han observado sus ingresos (x) y sus gastos (y) semanales expresados en
cientos de euros dando lugar a las siguientes cantidades (x; 2,3,4,5,6,7,8,8,9,10) e (y; 2,3,3,4,4,5,6,5,7,9).
Obtener la recta de regresión del gasto en función de los ingresos e interpretar los valores estimados del
coeficiente de regresión y de la ordenada en el origen.
xi yi xiyi xi2 y i2
2 2 4 4 4
3 3 9 9 9
4 3 12 16 9
5 4 20 25 16
6 4 24 36 16
7 5 35 49 25
8 6 48 64 36
8 5 40 64 25
9 7 63 81 49
10 9 90 100 81
62 48 345 448 270
10
8
gastos 6
4
2
0
0 5 10 15
ingresos
10 10 10 10 10
48 10a 62b
x
i 1
i 62, y i 48, x 448, y 270, xi y i 345
i 1 i 1
2
i
i 1
2
i
i 1
=> 345 62a 448b
b= 0.745, a= 0.179, Y/X y=0.179+0.745x
Hablaremos de correlación lineal cuando se estudia el grado de dependencia de tipo lineal, y simple
cuando sólo hay una variable exógena.
Descomposición de la Varianza
Se parte de la expresión:
yi yi* ei
Haciendo las correspondientes operaciones se llega a la descomposición de la varianza:
S y2 S *2y S e2
La variable endógena tiene una dispersión parte de la cual se explica por la forma del propio modelo
(varianza explicada por la regresión).
La varianza de la distribución de residuos se conoce como varianza residual.
Se2 0 S y2 S y2t
b) La varianza total de la variable dependiente no puede ser explicada en ningún grado por el modelo,
(incorrelación)
En cualquier otro caso, la variación total de la variable dependiente es explicada sólo en parte por la
variación de la variable independiente. Por ello, dos conceptos importantes:
- COEFICIENTE DE DETERMINACIÓN
- COEFICIENTE DE CORRELACIÓN LINEAL
Coeficiente de determinación:
Parte de la varianza de la variable dependiente explicada por la regresión:
Propiedades:
- 0 R2 1
- Si R2 1 la dependencia entre las variables es exactamente funcional.
- Si R
2
0 la línea teórica obtenida no representa en absoluto la posible dependencia entre las
variables.
- R 2 b b´
R 2 0.75
Se2 S
r 1 2 xy b b´
S y Sx S y
Este coeficiente mide el grado de dependencia lineal de la variable endógena ante los valores de la variable
exógena.
Propiedades:
- Se verifica que: r 2 R2
- 1 r 1
- Si r 1 Se 0, Sxy 0 entre las variables hay una dependencia lineal exacta y directa.
2
- Si r 1 Se2 0, Sxy 0 entre las variables hay una dependencia lineal exacta e inversa.
- Si r=0 no hay relación lineal aunque sí puede haberla de otro tipo.
- Si las variables son independientes, entonces Se=0 y por o tanto, r=0.
1
b b
1
b´ b´
En este gráfico se observa qué recta está por encima en cada cuadrante.
DESCOMPOSICIÓN DE LA VARIANZA
y i* a bxi y * a bx y
2
1 N * 1 N 1 N 2 sxy
s 2
y* (y i y *) (a bxi a bx ) b ( x i x ) b s x 2
2 2 2 2 2
N i 1 N i 1 N i 1 sx
ei y i y i* e y y * 0
ei y i a bxi y i ( y bx ) bx i ( y i y ) b( x i x )
1 N 1 N 1 N 2b N b2 N
s (ei e ) ( y i y ) b( xi x ) ( y i y )
2
2
e
2 2
( y i y )( xi x ) ( xi x )2
N i 1 N i 1 N i 1 N i 1 N i 1
2 2 2
sxy sxy sxy
s 2bsxy b s s 2
2
y
2 2
x
2
y s s
2
x
2
y
sx2 (sx2 )2 sx2
COEFICIENTE DE DETERMINACIÓN
2 2
sxy sxy
sy2 * sx2
2
sxy sy2 sx2*
R 2
Y/X 2 R X2 / Y R 2
sy2 sy2 sx2sy2 sx2 sx
2
sxy sxy sxy
bY / X 2
; bX / Y 2
bY / X bX / Y 2 2
R2
Dr. José Javier Núñez Velázquez. s s ss
x y x y
Departamento de Economía 10/31/2022
Estadística Empresarial I. Tema 5:Regresión y Correlación
.
EJEMPLO 2: En 10 familias se han observado sus ingresos (x) y sus gastos (y) semanales
expresados en cientos de euros, dando lugar a las siguientes cantidades (x; 2,3,4,5,6,7,8,8,9,10) e
(y; 2,3,3,4,4,5,6,5,7,9). Obtener la recta de regresión del gasto en función de los ingresos e
interpretar los valores estimados del coeficiente de regresión y de la ordenada en el origen.
x 6.2; y 4.8; a11 34.5; a20 44.8; a02 26.6 s xy 34.5 (6.2)(4.8) 4.74
sx2 a20 x 2 44.8 (6.2)2 6.36; sy2 a02 y 2 26.6 (4.8)2 3.56
Descomposición de la Varianza de Y:
2
(4.74)2 sxy
Explicada por la regresión: s 2 3.5327
2
y*
sx 6.36
2
sxy (4.74)2 sy2 * 3.5327
Residual: se sy 2 3.56
2 2
0.4273 R2
Y/X 2
0.9923
sx 6.36 s y 3.56
Varianza Total: sy2 3.56
2
sxy
Descomposición de la Varianza de X: R2
Y/X R 2
X /Y R 2
bY / X bX / Y 0.9923
sx2sy2
2
(4.74)2
sxy
Explicada por la regresión: s s 2 3.56 6.3111
2
x*
2 y sx2* 6.3111
s (4.74)2 R 2
2 0.9923
Residual: se sx s 2 6.36 3.56 0.0489
2 2 xy
X /Y
sx 6.36
y
PREDICCIÓN
Se realizan las predicciones utilizando la recta de regresión estimada:
yi* a bxi
Propiedades:
- Cuanto mayor sea la varianza explicada por la regresión (mayor coeficiente de determinación) mejor
es la predicción.
EJEMPLO : Utilizando los datos del ejemplo 2, predecir el gasto para una familia con unos ingresos de 7
millones anuales y comentar la fiabilidad de dicha predicción.
SOLUCIÓN:
Del ejemplo 2 sabemos que:
y=0,179+0,745x
Por lo que sustituyendo en la recta de regresión estimada tenemos que:
y=0,179+0,745*7=5,394
Para una familia con esos ingresos el consumo esperado es de 5,394 millones anuales.
Para ver la fiabilidad de la regresión hemos de calcular el coeficiente de determinación:
S *2y 3,5327
R2 0,89
S y2 3,96
Al ser el coeficiente de determinación mayor que 0,75 y estar el valor de predicción cerca de la media
consideramos que la predicción es fiable.
PREDICCIONES Y FIABILIDAD
Para efectuar y valorar en fiabilidad una predicción obtenida por
un modelo de regresión, han de tenerse en cuenta los siguientes
aspectos :
- Ha de elegirse el modelo adecuado, de acuerdo con el objetivo de
predicción. Es decir, ha de decidirse si utilizar Y/X o X/Y, puesto
que NO SON IGUALES.
- Si el modelo muestra poca fiabilidad porque la intensidad de la
dependencia es escasa, entonces las predicciones tampoco serán
fiables. Para valorar este aspecto, se debe utilizar el
COEFICIENTE DE CORRELACIÓN LINEAL (r) o,
preferentemente por su significado más concreto el
COEFICIENTE DE DETERMINACIÓN (R2).
- La cercanía a la media del valor para el que se desea predecir,
puesto que las rectas de regresión se comportan mejor cuanto más
cerca se esté de ( x, y )
Dr. José Javier Núñez Velázquez.
Departamento de Economía 10/31/2022
Estadística Empresarial I. Tema 5:Regresión y Correlación
.
REGRESIÓN NO LINEAL
Cuando la fiabilidad de un modelo lineal de regresión sobre (X,Y) no sea lo
suficientemente buena, puede intentarse la utilización de:
- MODELOS NO LINEALES.
En este caso, se trata de ajustar funciones no lineales para expresar la
dependencia entre las variables. Entre ellos, pueden destacarse los
siguientes:
1. MODELOS LINEALIZABLES
Se convierten en lineales mediante un cambio de variable adecuado. Los
modelos más utilizados son el HIPERBÓLICO, el LOGARÍTMICO, el
POTENCIAL y el EXPONENCIAL.
2. MODELOS POLINÓMICOS
Consisten en utilizar un polinomio de orden superior a 1. Entre ellos, el
modelo más utilizado es el PARABÓLICO: Y=a+bX+cX2
3. OTROS MODELOS MÁS COMPLEJOS (Logístico, etc.)
- MODELOS DE REGRESIÓN MÚLTIPLE
Aparecen aumentando el número de variables exógenas en el modelo y son
del tipo: Y=a+b1X1+b2X2+…+bnXn
REGRESIÓN LINEALIZABLE
S
N N N
0 y i Na b xi c xi2
a i 1 i 1 i 1
S N N N N
0 ... xi y i a xi b xi2 c xi3
b i 1 i 1 i 1 i 1
S N N N N
c
0
i 1
x 2
i y i a
i 1
x 2
i b i 1
x 3
i c i 1
x i
4