Está en la página 1de 7

REGRESIÓN

1. GENERALIDADES
Podemos mencionar que el termino de regresión fue introducida por primera vez en el año 1877
por Sir Francis Galton quien encontró en sus estudios sobre la herencia de los padres altos tenían
que tener hijos altos y que los padres bajos tenían que tener hijos bajos. Pero con el estudio el
promedio de los hijos de padres muy altos era menor que la estatura promedio de sus padres, pero
los hijos de padres muy bajos en promedio eran más altos que sus padres, Galton llamo esta
tendencia hacia la estatura promedio de todos los hombres con el nombre de “regresión”

2. CONCEPTO DE REGRESIÓN
La palabra regresión procede etimológicamente del latín “regressionis”. Una regresión es una
vuelta hacia atrás, un retroceso hacia el pasado pudiéndose aplicar en varios contextos.
En estadística existe un proceso denominado análisis de regresión que trata de explicar el
comportamiento entre variables, especialmente el cambio que se produce en la variable
dependiente cambiando solo una variable independiente, con el objeto de realizar predicciones y
establecer cálculos de probabilidades.

2.1 EL AJUSTAMIENTO
ajuste lineal es un modelo matemático usado para aproximar la relación de dependencia entre una
variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede
ser expresado como:

El ajuste hay que entender el grado de acoplamiento que existe entre los datos originales y los
valores teóricos que se obtienen de la regresión. Obviamente cuanto mejor sea el ajuste, más útil
será la regresión a la pretensión de obtener los valores de la variable regresando a partir de la
información sobre la variable regresora .

2.2 EL DIAGRAMA DE DISPERSIÓN


La representación gráfica más útil para describir el comportamiento conjunto de dos variables es el
diagrama de dispersión o nube de puntos, donde cada caso aparece representado como un punto en
el plano definido por las variables y para obtener un diagrama de dispersión la secuencia es:
El cuadro de diálogo siguiente:

El Diagrama de Dispersión tiene el propósito


de controlar mejor el proceso y mejorarlo, resulta
indispensable conocer cómo se comportan algunas
variables o características de calidad entre sí, esto es, descubrir si el comportamiento de unas depende
del comportamiento de otras, o no, y en qué grado.
El Diagrama de dispersión es una herramienta utilizada cuando se desea realizar un análisis gráfico de
datos bivariados, es decir, los que se refieren a dos conjuntos de datos. El resultado del análisis puede
mostrar que existe una relación entre una variable y la otra.
El estudio puede ampliarse para incluir una medida cuantitativa de tal relación.
Las dos variables pueden estar relacionadas de la siguiente manera:

 Una característica de calidad y un factor que incide sobre ella.


 Dos características de calidad relacionadas.
 Dos factores relacionados con una misma característica de calidad.

Para qué sirve el Diagrama de Dispersión

 Indica si dos variables (o factores o características de calidad) están relacionados.


 Proporciona la posibilidad de reconocer fácilmente relaciones Causa / efecto.

Cómo se construye el Diagrama de Dispersión


Paso 1.- Recolectar n parejas de datos de la forma (Xi, Yi), con i = 1, 2, 3,…n donde Xi y Yi
representan los valores respectivos de las dos variables. Los datos se suelen representar en una tabla.
Paso 2.- Diseñar las escalas apropiadas para los ejes X y Y.
Paso 3.- Graficar las parejas de datos. Si hay puntos repetidos, se mostrarán como círculos
concéntricos.
Paso 4.- Documentar el diagrama.
Lectura y uso del Diagrama de Dispersión
La lectura se hace en base al tipo de relación entre los datos; lo fuerte o débil de la relación, la forma
de la relación y la posible presencia de punto anómalos.
La relación entre los datos se denomina “correlación positiva” cuando a un aumento en el valor de la
variable X le acompaña un aumento en la otra variable.
El caso inverso da lugar a la llamada “correlación negativa”.

3. MÉTODOS DE AJUSTAMIENTO

3.1 EL MÉTODOS DE MÍNIMOS CUADRADOS

Consiste en explicar una de las variables en función de la otra a través de un determinado tipo de
función (lineal, parabólica, exponencial, etc.), de forma que la función de regresión se obtiene
ajustando las observaciones a la función elegida, mediante el método de Mínimos-Cuadrados
(M.C.O.).

Puede probarse que es equivalente ajustar por mínimos cuadrados la totalidad de las observaciones
(toda la nube de puntos) que realizar el ajuste de los puntos obtenidos por la regresión de la media; de
forma que la regresión mínimo-cuadrática viene ser, en cierto modo, la consecución de una expresión
analítica operativa para la regresión en sentido estricto.

Elegido el tipo de función f ( ) la función de regresión concreta se obtendrá

Sea X= Ingresos
Y= gastos
↓ ↑Y =f ( X )↑ ↓ Donde el gasto está en función del ingreso

X Y
X1 Y1
X2 Y2
El método de mínimos
X3 Y3
cuadrados desarrollado por
∙ ∙
∙ ∙ Carl Gauss en 1777-1855
∙ ∙ proporciona valores
Xn yn numéricos con la condición de
que:

e 21+ e 22+ e23 +…+ e2n es minimo

Es decir:

∑ e2i =¿ MINIMO ¿
Donde: e i= y i− ^y
Con el que obtendremos la mejor curva de ajuste. Una recta de mínimos cuadrados del conjunto de
puntos ( x 1 , y 1 ),( x 2 , y 2 ),………,( x n , y n ) se tiene la ecuación:
^y = α^ + β^ xi

Si: ∑ e2i =¿ MINIMO ⟹ ∑ e2i =¿ 2 ( y i −^y )2 ¿ ¿ II

Pero: ^y = α^ + β^ xi
2
De donde: ∑ e2i =¿ ∑ ( y i− α^ − β^ x i) ¿ III Función Mínimo Cuadrática

Para obtener los valores de α^ y ^β hacemos mínimo III igualando a cero las derivadas parciales. Es
decir:

∂ ∑ ei2
=2 ∑ ( yi −^α − ^β x i ) (−1 )=0
∂ α^

∑ ( y i−α^ − β^ )=0
∑ yi −α^ − ^β x i=0
∑ yi =n α^ + β^ ∑ x i I ECUACIÓN NORMAL

∂ ∑ ei2
=2 ∑ ( yi −^α − ^β x i ) (−x i )=0
∂ α^
∑ ( y i−α^ − β^ xi ) (− xi ) =0
∑ ( x i y i− α^ xi − ^β x 2i )=0
∑ x i y i−α^ x i− β^ xi2=0
∑ x i y i=α^ ∑ x i + ^β ∑ x2i II ECUACIÓN NORMAL

3.1 LA RECTA DE REGRESIÓN

Llamamos línea de regresión a la curva que mejor se ajusta a nube de puntos, es una curva ideal en
torno a la que se distribuyen los puntos de la nube.
Se utiliza para predecir la variable dependiente (Y) a partir de la independiente (X).
La diferencia entre el valor real (yi) y el teórico (yi*) se llama residuo.

En nuestro caso esta línea es una recta que se calcula imponiendo dos condiciones:

 Debe pasar por el punto (x,y), centro de gravedad de la distribución.


 La suma de los cuadrados de los residuos debe ser mínima.

Con esto obtenemos la ecuación de la

   RECTA de REGRESIÓN de Y sobre X: 

coeficiente de regresión

En este caso obtendríamos la recta de regresión de X sobre Y. Es decir, en realidad hay dos
rectas de regresión, la de Y sobre X, que es la que hemos calculado y la de X sobre Y.
Intercambiando los papeles de X e Y obtenemos las dos ecuaciones

Recta de Regresión de Y sobre X

Recta de Regresión de X sobre Y

3.2 LA DESVIACIÓN ESTÁNDAR DE REGRESIÓN


La desviación estándar de una estimación se denomina error estándar. El error estándar del coeficiente
mide la precisión con la que el modelo estima el valor desconocido del coeficiente. El error estándar
del coeficiente siempre es positivo.
El error estándar de la regresión es el valor que muestra la diferencia entre los valores reales y los
estimados de una regresión. Es utilizado para valorar si existe una correlación entre la regresión y los
valores medidos. Muchos autores prefieren este dato a otros como el coeficiente de correlación lineal,
ya que el error estándar se mide en las mismas unidades que los valores que se estudian.
El error estándar de estimación, simbolizado S yx , tiene el mismo concepto de la desviación estándar.
La desviación estándar mide la dispersión alrededor de la media, el error estándar de estimación mide
la dispersión alrededor de la línea de regresión

SSE
S yx =
√ n−2

∑ ( y − ^y )2
S yx =
√ n−2

∑ y 2−α ∑ y−β ∑ xy
S yx =
√ n−2

4. OTROS MÉTODOS DE AJUSTAMIENTO


4.1 BONDAD DEL AJUSTE
Varianza residual, varianza de la regresión y coeficiente de determinación
Por bondad del ajuste hay que entender el grado de acoplamiento que existe entre los datos originales y
los valores teóricos que se obtienen de la regresión. Obviamente cuanto mejor sea el ajuste, más útil
será la regresión a la pretensión de obtener los valores de la variable regresando a partir de la
información sobre la variable regresora.
Obtener indicadores de esta bondad de ajuste es fundamental a la hora de optar por una regresión de un
determinado tipo u otro.
Puesto que la media de los residuos se anula, el primer indicador de la bondad del ajuste (no puede ser
el error medio) será el error cuadrático medio, o varianza del residuo, o varianza residual:
Considerando la regresión Y/X:

                                                                    
Que será una cantidad mayor o igual que cero. De forma que cuanto más baja sea mejor será el grado
de ajuste. Si la varianza residual vale cero el ajuste será perfecto (ya que no existirá ningún error).
 
                        Del hecho de que yi=y*i+ei ,y de que las variables y* ý e están correlacionadas se tiene
que:

                                                                         
                    Donde S2y* es la llamada varianza de la regresión y supone la varianza de la variable
regresión:

                                                                        
Igualdad fundamental anterior de la que se deduce que la varianza total de la variable y puede
descomponerse en dos partes una parte explicada por la regresión (la varianza de la regresión) y otra
parte no explicada (la varianza residual).
Considerando que la varianza nos mide la dispersión de los datos este hecho hay que entenderlo como
que la dispersión total inicial queda, en parte explicada por la regresión y en parte no. Cuanto mayor
sea la proporción de varianza explicada (y menor la no explicada) tanto mejor será el ajuste y tanto
más útil la regresión.
A la proporción de varianza explicada por la regresión se le llama coeficiente de determinación (en

nuestro caso lineal):                 


que evidentemente estará siempre comprendido entre 0 y 1 y, en consecuencia, da cuenta del tanto por
uno explicado por la regresión.
Una consecuencia importante en la práctica es que la varianza residual será obviamente:

Es sencillo probar que en el caso lineal que nos ocupa el coeficiente de determinación coincide con el
cuadrado del coeficiente de correlación: R2 = r2
Con lo cual la varianza residual y la varianza debida a la regresión pueden calcularse a partir del
coeficiente de correlación:

4.2 REGRESIÓN DE LA MEDIA.

La primera aproximación a la determinación de la estructura de dependencia entre una variable Y y


otra u otras variables X (X1,X2,..., Xn) es la llamada regresión de la media (regresión I) (regresión en
sentido estricto).

Consideremos el caso bidimensional:

Regresión Y/X (en sentido estricto) (de la media).


Consistirá en tomar como función que explica la variable Y a partir de la X a una función que para
cada valor de X , xi, le haga corresponder (como valor de Y ) el valor de la media de la distribución de
Y condicionada a xi .La función de regresión quedaría explicitada por el conjunto de puntos: ( xi ,y/xi ).

Regresión X/Y (en sentido estricto) (de la media).

Consistirá en tomar como función que explica la variable X a partir de la Y a una función que para
cada valor de Y , yj, le haga corresponder (como valor de X ) el valor de la media de la distribución de
X condicionada a Yj .La función de regresión quedaría explicitada por el conjunto de puntos:
( x/yj ,yj ).

También podría gustarte