Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. GENERALIDADES
Podemos mencionar que el termino de regresión fue introducida por primera vez en el año 1877
por Sir Francis Galton quien encontró en sus estudios sobre la herencia de los padres altos tenían
que tener hijos altos y que los padres bajos tenían que tener hijos bajos. Pero con el estudio el
promedio de los hijos de padres muy altos era menor que la estatura promedio de sus padres, pero
los hijos de padres muy bajos en promedio eran más altos que sus padres, Galton llamo esta
tendencia hacia la estatura promedio de todos los hombres con el nombre de “regresión”
2. CONCEPTO DE REGRESIÓN
La palabra regresión procede etimológicamente del latín “regressionis”. Una regresión es una
vuelta hacia atrás, un retroceso hacia el pasado pudiéndose aplicar en varios contextos.
En estadística existe un proceso denominado análisis de regresión que trata de explicar el
comportamiento entre variables, especialmente el cambio que se produce en la variable
dependiente cambiando solo una variable independiente, con el objeto de realizar predicciones y
establecer cálculos de probabilidades.
2.1 EL AJUSTAMIENTO
ajuste lineal es un modelo matemático usado para aproximar la relación de dependencia entre una
variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede
ser expresado como:
El ajuste hay que entender el grado de acoplamiento que existe entre los datos originales y los
valores teóricos que se obtienen de la regresión. Obviamente cuanto mejor sea el ajuste, más útil
será la regresión a la pretensión de obtener los valores de la variable regresando a partir de la
información sobre la variable regresora .
3. MÉTODOS DE AJUSTAMIENTO
Consiste en explicar una de las variables en función de la otra a través de un determinado tipo de
función (lineal, parabólica, exponencial, etc.), de forma que la función de regresión se obtiene
ajustando las observaciones a la función elegida, mediante el método de Mínimos-Cuadrados
(M.C.O.).
Puede probarse que es equivalente ajustar por mínimos cuadrados la totalidad de las observaciones
(toda la nube de puntos) que realizar el ajuste de los puntos obtenidos por la regresión de la media; de
forma que la regresión mínimo-cuadrática viene ser, en cierto modo, la consecución de una expresión
analítica operativa para la regresión en sentido estricto.
Sea X= Ingresos
Y= gastos
↓ ↑Y =f ( X )↑ ↓ Donde el gasto está en función del ingreso
X Y
X1 Y1
X2 Y2
El método de mínimos
X3 Y3
cuadrados desarrollado por
∙ ∙
∙ ∙ Carl Gauss en 1777-1855
∙ ∙ proporciona valores
Xn yn numéricos con la condición de
que:
Es decir:
∑ e2i =¿ MINIMO ¿
Donde: e i= y i− ^y
Con el que obtendremos la mejor curva de ajuste. Una recta de mínimos cuadrados del conjunto de
puntos ( x 1 , y 1 ),( x 2 , y 2 ),………,( x n , y n ) se tiene la ecuación:
^y = α^ + β^ xi
Pero: ^y = α^ + β^ xi
2
De donde: ∑ e2i =¿ ∑ ( y i− α^ − β^ x i) ¿ III Función Mínimo Cuadrática
Para obtener los valores de α^ y ^β hacemos mínimo III igualando a cero las derivadas parciales. Es
decir:
∂ ∑ ei2
=2 ∑ ( yi −^α − ^β x i ) (−1 )=0
∂ α^
∑ ( y i−α^ − β^ )=0
∑ yi −α^ − ^β x i=0
∑ yi =n α^ + β^ ∑ x i I ECUACIÓN NORMAL
∂ ∑ ei2
=2 ∑ ( yi −^α − ^β x i ) (−x i )=0
∂ α^
∑ ( y i−α^ − β^ xi ) (− xi ) =0
∑ ( x i y i− α^ xi − ^β x 2i )=0
∑ x i y i−α^ x i− β^ xi2=0
∑ x i y i=α^ ∑ x i + ^β ∑ x2i II ECUACIÓN NORMAL
Llamamos línea de regresión a la curva que mejor se ajusta a nube de puntos, es una curva ideal en
torno a la que se distribuyen los puntos de la nube.
Se utiliza para predecir la variable dependiente (Y) a partir de la independiente (X).
La diferencia entre el valor real (yi) y el teórico (yi*) se llama residuo.
En nuestro caso esta línea es una recta que se calcula imponiendo dos condiciones:
coeficiente de regresión
En este caso obtendríamos la recta de regresión de X sobre Y. Es decir, en realidad hay dos
rectas de regresión, la de Y sobre X, que es la que hemos calculado y la de X sobre Y.
Intercambiando los papeles de X e Y obtenemos las dos ecuaciones
SSE
S yx =
√ n−2
∑ ( y − ^y )2
S yx =
√ n−2
∑ y 2−α ∑ y−β ∑ xy
S yx =
√ n−2
Que será una cantidad mayor o igual que cero. De forma que cuanto más baja sea mejor será el grado
de ajuste. Si la varianza residual vale cero el ajuste será perfecto (ya que no existirá ningún error).
Del hecho de que yi=y*i+ei ,y de que las variables y* ý e están correlacionadas se tiene
que:
Donde S2y* es la llamada varianza de la regresión y supone la varianza de la variable
regresión:
Igualdad fundamental anterior de la que se deduce que la varianza total de la variable y puede
descomponerse en dos partes una parte explicada por la regresión (la varianza de la regresión) y otra
parte no explicada (la varianza residual).
Considerando que la varianza nos mide la dispersión de los datos este hecho hay que entenderlo como
que la dispersión total inicial queda, en parte explicada por la regresión y en parte no. Cuanto mayor
sea la proporción de varianza explicada (y menor la no explicada) tanto mejor será el ajuste y tanto
más útil la regresión.
A la proporción de varianza explicada por la regresión se le llama coeficiente de determinación (en
Es sencillo probar que en el caso lineal que nos ocupa el coeficiente de determinación coincide con el
cuadrado del coeficiente de correlación: R2 = r2
Con lo cual la varianza residual y la varianza debida a la regresión pueden calcularse a partir del
coeficiente de correlación:
Consistirá en tomar como función que explica la variable X a partir de la Y a una función que para
cada valor de Y , yj, le haga corresponder (como valor de X ) el valor de la media de la distribución de
X condicionada a Yj .La función de regresión quedaría explicitada por el conjunto de puntos:
( x/yj ,yj ).