Documentos de Académico
Documentos de Profesional
Documentos de Cultura
En los temas anteriores se estudió el comportamiento de una variable sin hacer mención a otra variable que
puede estar directamente relacionada
Ahora analizaremos una situación en la que se hacen mediciones simultáneas de dos o más variables: una
dependiente y otra independiente a veces llamada explicativa
El propósito del análisis de regresión es estimar o predecir el valor medio o promedio de la variable
dependiente con base en los valores fijos o conocidos de la(s) variable(s) explicativa(s).
Ejemplo: se obtienen datos de ingresos mensuales (X) y los gastos de consumo familiar (Y) en Bolivianos
de una muestra de 60 familias, en la que se está interesado en estudiar la relación entre los gastos del
consumo familiar y los ingresos disponibles
Ingresos Familiares en Bs
2000 2500 3000 3400 3800 4300 4700 5000 5500 7000
1600 1690 2380 2310 3400 3760 4410 3900 5000 6320
1700 1780 2450 2400 3510 3820 4470 4420 5180 6500
Gastos 1800 2000 2600 2500 3600 3900 4530 4200 5210 6700
Familiares 1900 2100 2700 2750 3640 4000 4600 4500 5300 6710
(Bs) 2300 3000 3700 4120 4620 5400 6800
3200 4800 6500
6000
5000
Gastos (Bs)
4000
3000
2000
1000
1000 2000 3000 4000 5000 6000 7000
Ingresos (Bs)
El Concepto de Regresión
En el ejemplo anterior vimos que se
tomaron varias medidas en la variable
dependiente y, a un mismo valor de la
variable de control x; de tal manera que los
resultados realmente constituyen una
distribución.
En el diagrama se ve que es posible trazar una línea recta que obedezca a una función lineal, tal que dicha
línea describa el comportamiento de los gastos en función al ingreso.
En el ejemplo, los Gastos son la Variable Dependiente o Variable de Respuesta (Y) y los Ingresos son la
Variable Independiente o la Variable de Control (X)
La regresión consiste en encontrar, con base en los datos experimentales, una línea (ecuación lineal o
recta) que pueda predecir el valor medio de la variable dependiente (Y), para cualquier valor dado de la
variable de control (X).
Una ecuación como: 𝑦 = 𝑎0 + 𝑎1 𝑥
Considérese pares de datos (x1,y1), (x2,y2) ………. (xn,yn) donde los yi son valores dispersos (aleatorios)
pero los valores xi son controlados y no dispersos
Con los pares de datos, se puede encontrar estimadores de a0 y a1, de tal manera que reemplazándoles en
la ecuación lineal, puedan reproducir con buena aproximación los valores yi.
𝒏
𝝏𝑺
= 𝟐 𝒚𝒊 − 𝒂𝟎 − 𝒂𝟏 𝒙𝒊 (−𝟏)
𝝏𝒂𝟎
𝒊=𝟏
𝒏
𝝏𝑺
= 𝟐 𝒚𝒊 − 𝒂𝟎 − 𝒂𝟏 𝒙𝒊 (−𝒙𝒊 )
𝝏𝒂𝟏
𝒊=𝟏
La suma S puede ser minimizada derivado la función respecto a a0 y a1 e igualando dichas derivadas a
cero
Cuando las derivadas se igualan a cero, los valores de a0 y a1 que se calculan son los estimadores que se
identifican por 𝑎0 y 𝑎1
𝟐 𝒚𝒊 − 𝒂𝟎 − 𝒂𝟏 𝒙𝒊 −𝟏 = 𝟎
𝒊=𝟏
𝟐 𝒚𝒊 − 𝒂𝟎 − 𝒂𝟏 𝒙𝒊 −𝒙𝒊 = 𝟎
𝒊=𝟏
𝒙𝒊 − 𝒙 𝒚𝒊 − 𝒚
𝒂𝟏 =
𝒙𝒊 − 𝒙 𝟐
𝒂 𝟎 = 𝒚 − 𝒂𝟏 𝒙
En el ejemplo anterior:
Ingresos Familiares en Bs
2000 2500 3000 3400 3800 4300 4700 5000 5500 7000
1600 1690 2380 2310 3400 3760 4410 3900 5000 6320
1700 1780 2450 2400 3510 3820 4470 4420 5180 6500
Gastos 1800 2000 2600 2500 3600 3900 4530 4200 5210 6700
Familiares 1900 2100 2700 2750 3640 4000 4600 4500 5300 6710
(Bs) 2300 3000 3700 4120 4620 5400 6800
3200 4800 6500
Media 1750 1995 2540 2755 3550 3940 4505 4350 5200 6410
Ingresos 2000 2500 3000 3400 3800 4300 4700 5000 5500 7000
Gastos 1750 1995 2540 2755 3550 3940 4505 4350 5200 6410
En el ejemplo anterior:
Ingresos 2000 2500 3000 3400 3800 4300 4700 5000 5500 7000
Gastos 1750 1995 2540 2755 3550 3940 4505 4350 5200 6410
6000
5000
Gastos Medios (Bs)
4000
3000
2000
1000
0
1000 2000 3000 4000 5000 6000 7000
Ingresos (Bs)
En el ejemplo anterior:
6000
y = 0,9776x - 328,24
5000
Gastos Medios (Bs)
4000
3000
2000
1000
0
1000 2000 3000 4000 5000 6000 7000
Ingresos (Bs)
Coeficiente de Determinación
Un importante aspecto a considerar es el grado en el cual la curva de regresión concuerda con los
daos observados. Este concepto se lo examina a partir de la suma de las desviaciones al cuadrado, de
los datos observados respecto de la media de los mismos:
𝑛
La desviación total de los datos observados, 𝑦𝑖 − 𝑦 2
respecto de la media viene dada por:
𝑖=1
La desviación o variación total de los datos observados, respecto de la media viene dada por:
𝑛 𝑛 𝑛
2 2 2
𝑦𝑖 − 𝑦 = 𝑦𝑖 − 𝑦𝑖 + 𝑦𝑖 − 𝑦
𝑖=1 𝑖=1 𝑖=1
Coeficiente de Determinación
𝑛
2
El término: 𝑦𝑖 − 𝑦 Se lo conoce como la variación o desviación explicada.
𝑖=1
Si el coeficiente de determinación es uno, entonces todos los valores observados caen dentro de la
curva (recta) de regresión.
Si ninguna de las variables es “controlada”, es decir que ambas: X y Y son aleatorias, entonces se
emplea el Coeficiente de Correlación.
Coeficiente de Correlación
Se lo calcula mediante
𝑥𝑖 𝑦𝑖
𝑥𝑖 𝑦𝑖 −
r= 𝑛
𝑥𝑖 2 𝑦𝑖 2
𝑥𝑖2 − 𝑦𝑖2 −
𝑛 𝑛
6000
y = 0,9776x - 328,24
5000 R² = 0,9869
Gastos Medios (Bs)
4000
3000
2000
1000
0
1000 2000 3000 4000 5000 6000 7000
Ingresos (Bs)
Cuadrática: 𝑦 = 𝑎0 + 𝑎1 𝑥 + 𝑎2 𝑥 2
Exponencial: 𝑦 = 𝑎0 𝑒 𝑥
EXCEL permite escoger entre: polinomial, logarítmica, lineal, exponencial y media móvil
EXCEL calcula los estimadores de las ecuaciones y el valor del coeficiente de correlación