Está en la página 1de 5

Estadística I

Tema 10 / Parte 2

Análisis de Regresión Lineal

INTRODUCCIÓN
En esta parte del curso vamos a determinar la relación matemática que existe entre
una variable en estudio denominada variable dependiente y otra variable
denominada variable independiente.
Existen dos formas de estudiar la asociación o relación entre dos variables
cuantitativas.
La primera forma se denomina correlación, que como ya vimos en el capítulo
anterior, consiste en estudiar el tipo o sentido y el nivel o grado de relación que
presentan dos variables. La medida que indica el tipo o sentido de la relación se
denomina Covarianza, y la medida que indica el nivel o grado de relación se
denomina Coeficiente de Correlación.
La segunda forma se denomina regresión, que consiste en determinar una relación
matemática y funcional (denominada línea o ecuación de regresión), que nos
permita predecir el valor de una de las variables (denominada variable
dependiente), en base al valor de la otra variable (denominada variable
independiente o explicativa).
La ecuación de regresión será confiable si existe un alto grado de correlación entre
las variables indicado por el coeficiente de determinación.

REGRESIÓN LINEAL SIMPLE


Tiene como objetivo estimar y analizar una ecuación o modelo matemático, que
describa la relación funcional existente entre una variable en estudio Y,
denominada variable dependiente, y otra variable en estudio X, denominada
variable independiente o explicativa.

y = f(x) → ecuación o modelo de regresión


Es decir, se trata de encontrar un modelo o ecuación que permita utilizar la
información proporcionada por la variable explicativa o independiente X, para
describir adecuadamente el comportamiento de la variable dependiente Y.

Variable dependiente (Y): Es la variable que se desea predecir.


Variable independiente (X): Es la variable que proporciona los datos para la
predicción de la variable dependiente.
Ecuación o Modelo de regresión lineal simple.
Expresión matemática que define la relación lineal entre dos variables, una
dependiente y la otra independiente.

Modelo de regresión lineal simple Poblacional o Matemático o Paramétrico.


Se forma sobre el supuesto de linealidad, el que indica que todas las medias de la
variable Y para los diferentes valores de Xi, caerán sobre una línea recta, lo que
generará la siguiente línea o ecuación de regresión:
 y.x i = 0 + 1.X i

Donde:
 0 : Coeficiente de intersección poblacional. (Intercepto de la línea de regresión)

Expresa el valor de la media de Y cuando X = 0.


1 : Coeficiente de regresión poblacional. (Pendiente de la línea de regresión)
Mide el cambio promedio en Y cuando X aumenta una unidad.

Observaciones:
Si 1  0 entonces, la media de Y aumenta.

Si 1  0 entonces, la media de Y disminuye.

Modelo de regresión lineal simple Estadístico.


Es el que incluye un componente aleatorio.
El término aleatorio residual o del error, expresa el efecto del muestreo aleatorio y
el efecto de no haber incluido en el modelo a otras variables explicativas.
El valor observado de Y (Yi) será igual al valor medio o promedio de Y para cada
valor de X (  y  x i ), más una desviación i, es decir: Yi =  y  x i + i
Por lo tanto: Yi =  y x i + i = 0 + 1X i + i

Donde: Yi = Valor observado.


 y  x i = Valor medio de Y para cada valor de X.

 i = Término aleatorio residual o del error.

ESTIMACIÓN DE LOS PARÁMETROS 0 y 1


Para la estimación de los parámetros 0 y 1 solo se requiere el cumplimiento de
algunos de los supuestos establecidos anteriormente.
El objetivo es determinar las características de los estimadores b0 y b1 para los
parámetros 0 y 1, en base a un conjunto de n pares de observaciones o puntos
muestrales (Xi, Yi).
Es decir, se desea obtener la siguiente ecuación o línea de regresión lineal
estimada:

Ŷi = 
ˆ y x i = b0 + b1X i

Donde: b0: coeficiente de intersección muestral (estimador de  0 )


b1: coeficiente de regresión muestral (estimador de  1 )
Para el caso de una muestra, cada valor observado de Y (Yi) será:
ˆ i + ei = 
Yi = Y ˆ y  x i + ei  Yi = b0 + b1Xi + ei

Donde e i = y i − ŷ i mide la desviación de cada valor observado Y i con respecto a la


línea de regresión estimada.

(xi ,yi ) ŷ = bo + b1x


Yi •
(yi − yˆ i )
(yi − Y)
Ŷi •
ŷi − Y
Y •

X xi X

Lo que buscamos es determinar las características de los estimadores b 0 y b1 que


hacen más pequeñas las desviaciones ei: ei = Yi − b0 − b1Xi
SUPUESTOS sobre MODELO ESTADÍSTICO de RLS
1. La relación funcional entre X e Y puede ser expresada por:

Yi = 0 + 1Xi + i , i = 1, 2,...,k

Siendo:  y x i = 0 + 1X i  Yi =  y x i + i

2. Los términos aleatorios de error residual  i son independientes, y son tales


que:
i.   i = 0   i = E   i  = 0

ii. 2 = E  2 
i  i
iii. E[i   j ] = 0 i  j

iv. La distribución de los errores o residuales se ajusta a la distribución


Normal.

3. Los valores de Xi son fijados y medidos sin error.

4. Para cada valor de Xi, los valores de Y tienen una distribución normal:

Y  N ( y.x , 2y.x )

5. Las distribuciones de Y para los diferentes valores de X tienen igual variancia,


a esto se le denomina supuesto de Homogeneidad de Varianzas u
HOMOCEDASTICIDAD.

2y.x = 2y.x = ...... = 2y.x = 2



1 2 k

6. Los valores de Y, para cada valor de X, son obtenidos de una muestra


aleatoria.
Ecuación de Regresión Lineal Simple Estimada

Se expresa de la siguiente manera: Ŷ = b0 + b1X

A partir del Método de Mínimos Cuadrados Ordinarios se obtiene el sistema de


ecuaciones normales:

nbo + b1 Xi =  Yi (1)

b0  X i + b1  X2
i = X i Yi (2)

Donde b0 y b1 son las incógnitas.


La solución de este sistema genera los llamados: “estimadores mínimos
cuadráticos” que son los estimadores de los parámetros 0 y 1.
Así tenemos:

n Xi Yi −  X i . Yi  Yi − b1  X i
b1 = ; b0 =
n X 2
i − [ Xi ]
2 n

COEFICIENTE DE DETERMINACIÓN
El coeficiente de determinación se define como el cociente entre la variación
explicada por la regresión y la variación total del modelo.
Expresa la proporción de la variación total que es explicada por la línea de regresión
estimada.
El coeficiente de determinación r2 es una medida de la proximidad del ajuste de la
recta de regresión. Cuanto mayor sea r2, mejor será el ajuste a la recta de regresión
y más útil será dicha ecuación de regresión como instrumento de predicción de los
valores de Y.
Si su valor es 0, expresa que el 0 % de la variación total observada en la variable
Y, es explicada por la línea de regresión estimada.
Si su valor es 1, se expresa que el 100 % de la variación total observada en la
variable Y, es explicada por la línea de regresión estimada.

Coeficiente de Determinación = [Coeficiente de Correlación de Pearson]2

También podría gustarte