Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Zamalloa Cornejo
INTRODUCCION
El análisis de regresión es una técnica estadística, sirve para investigar y modelar la
relación entre variables, tiene muchas aplicaciones como por ejemplo en la ingeniera,
ciencias físicas y químicas, economía administración, ciencias biológicas, y en la vida de
hecho el análisis de regresión es la técnica más usada.
Los modelos de regresión son sensibles a varios fenómenos uno de ellos se debe a
la presencia de relaciones entre las variables independientes, en casi todas las aplicaciones
de regresión la ecuación de regresión es solo una aproximación a la verdadera relación
funcional entre las variables de interés, estas relaciones funcionales se basan con frecuencia
en una teoría física, química o de otra disciplina.
En general las ecuaciones de regresión son solo válidas dentro del rango de las
variables regresoras contenidas en los datos observados.
Un objetivo importante de regresión es estimar los parámetros desconocidos en el
modelo de regresión llamado también proceso de ajuste del modelo a los datos. Existen
varias técnicas de estimación de dichos parámetros una de ellas es el método de mínimos
cuadrados.
El análisis de regresión tiene una fase muy importante la cual es la comprobación
de la adecuación del modelo en donde se estudió lo apropiado del modelo y la calidad del
ajuste determinado. Mediante estos análisis se puede determinar la utilidad del modelo el
resultado de esta comprobación puede indicar que el modelo es razonable o que debe
modificarse al ajuste original. El análisis de regresión es un procedimiento iterativo en el
qué los datos conducen a un modelo y se produce un ajuste del modelo de datos. En un
modelo de regresión no implica que haya una relación de causa y efecto entre las variables,
aunque exista dicha relación no puede considerarse como prueba de que las variables
regresoras y la respuesta estén relacionadas en forma de causa y efecto.
Para establecer dicha causalidad la relación entre los regresoras y la respuesta deben
tener una base ajena a los datos de la muestra.
El análisis de regresión ayudara a confirmar la relación de causa y efecto pero no
puede ser la base única para esta.
1
Matemática Avanzada para Ingenieros Mgt. Rina M. Zamalloa Cornejo
USOS DE LA REGRESION
Los modelos de regresión se usan con varios fines, que incluye lo siguiente:
1.-Descripción de datos
2.-Predicción y estimación.
El análisis de regresión es útil para plantear ecuaciones, por lo cual es un modelo de
regresión que resume la información y es más conveniente y útil que una tabla o una gráfica.
Muchas aplicaciones de regresión requieren de la predicción de la variable respuesta,
estas predicciones pueden ser útiles y facilitar los problemas cotidianos.
Para poder realizar esta investigación, se debe postular una relación funcional entre las
variables. Debido a su simplicidad analítica, la forma funcional que más se utiliza en la
práctica es la relación lineal.
2
Matemática Avanzada para Ingenieros Mgt. Rina M. Zamalloa Cornejo
El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que
emplean modelos basados en cualquier clase de función matemática. Los modelos lineales
son una explicación simplificada de la realidad, mucho más ágil y con un soporte teórico por
parte de la matemática y la estadística mucho más extenso.
Definición:
La variable dependiente Y es la variable que se desea explicar, predecir o modelar.
También se le llama regresando ó variable de respuesta.
Definición:
Las variables que se utilizan para predecir, explicar o modelar Y se denominan
variables independientes y se denotan con por X1 , X 2 , ..., X k .
Diagrama De Dispersión
La primera forma de describir una distribución bivariada es representar los pares de
valores en el plano cartesiano. El gráfico obtenido recibe el nombre de nube de puntos o
diagrama de dispersión.
Por otro lado, también se aprecia por qué este gráfico se denomina un diagrama de
“dispersión”: no existe una relación matemáticamente exacta entre las variables. Si entre
3
Matemática Avanzada para Ingenieros Mgt. Rina M. Zamalloa Cornejo
estas variables existiera una relación lineal perfecta, entonces todos los puntos caerían a lo
largo de la recta de regresión, que también ha sido trazada y que muestra la relación
“promedio” que existe entre las dos variables.
En la práctica, se observa que la mayoría de los puntos no caen directamente sobre
la recta, sino que están “dispersos” en torno a ella. Esta dispersión representa la variación en
Y que no puede atribuirse a la variación en X.
Según sea la dispersión de los datos (nube de puntos) en el plano cartesiano, pueden
darse alguna de las siguientes relaciones, Lineal, Logarítmica, Exponencial, Cuadrática,
entre otras.
4
Matemática Avanzada para Ingenieros Mgt. Rina M. Zamalloa Cornejo
Si suponemos que los puntos se desvían por encima y por debajo de la línea de medias
siendo algunas positivas y otras negativas y con E = 0 entonces el valor medio de Y es:
E y = E 0 + 1 x + = 0 + 1 x + E
= 0 + 1 x
por tanto, el valor medio de Y para un valor dado de X representado por E y se grafica
como una línea recta con ordenada en el origen igual a 0 llamado coeficiente de intersección
existe una y solo una línea recta para lo cual la suma de los cuadrados de las desviaciones es
mínima. Esta línea recibe el nombre de línea de mínimos cuadrados, línea de regresión o
ecuación de predicción de mininos cuadrados, donde ̂ 0 y ˆ1 son estimadores de los
parámetros 0 y 1 respectivamente.
donde:
ŷ : Es un estimador de un valor medio de Y el cual predice algún valor futuro de Y.
̂ 0 y ˆ1 son estimadores de 0 y 1 respectivamente, para un punto de datos dado (xi, yi).
5
Matemática Avanzada para Ingenieros Mgt. Rina M. Zamalloa Cornejo
ecuación de predicción:
yˆ i = ˆ0 + ˆ1 .xi
entonces las sumas de cuadrados de las desviaciones de los valores de Y respecto a sus
valores estimados para todos los n puntos es:
n
SCE = ( yi − ˆ0 − ˆ1 xi ) 2
i =1
las desviaciones del i-ésimo valor respecto a su valor predicho y i − yˆ i donde el valor
entonces la suma de los cuadrados de las desviaciones de los valores de respecto a sus valores
estimados para todos los n puntos es:
n
SCE = ( yi − ˆ0 − ˆ1 xi ) 2
i =1
los valores de ̂ 0 y ˆ1 que minimiza se obtiene derivando parcialmente la SCE respecto a
n n
yi − nˆ0 − ˆ1 xi = 0 ………………………….(1)
i =1 i =1
SCE n
= −2 ( yi − ˆo − ˆ1 xi ) xi = 0
ˆ1 i =1
n n n
xi yi − ˆ0 xi − ˆ1 xi2 = 0 ……………………..(2)
i =1 i =1
6
Matemática Avanzada para Ingenieros Mgt. Rina M. Zamalloa Cornejo
las ecuaciones (1) y (2) se les llama ecuaciones normales mínimo cuadráticas desarrollando
y simplificando se obtiene:
n n
yi x i
ˆ0 = i =1
− ˆ1 i =1
n n
ˆ0 = Y − ˆ1 X
y i x i
ˆ0 = i =1
− ˆ1 i =1
, es la ordenada en el origen.
n n
SPXY
Y ˆ1 = es el coeficiente de regresión
SCX
donde:
2
n
xi
SCX = xi − i=1
n
2
i=1 n
n n
xi yi
SPXY = xi yi − i=1 i=1
n
i=1 n
n n
xi yi
xi yi − i=1 i=1
n
n
ˆ1 = i=1
2
n
xi
xi − i=1
n
i=1
2
n
n: tamaño de la muestra.
yˆ i = ˆ 0 + ˆ1 .xi
7
Matemática Avanzada para Ingenieros Mgt. Rina M. Zamalloa Cornejo
PROPIEDADES
Los estimadores mínimos cuadráticos ̂ 0 y ˆ1 tienen algunas propiedades importantes:
1° Los estimadores mínimos cuadráticos ̂ 0 y ˆ1 son combinaciones lineales de los valores
de Y; y1 , y2 ,..., yn . Dado que se ha supuesto que los errores aleatorios asociados a estos
con media 0 y varianza 2 . Además, los valores de Y tienen distribución normal con media
E y = 0 + 1 x y varianza 2 y ̂ 0 y ˆ1 tienen distribuciones muestrales.
SPXY
ˆ1 =
SCX
n
SPXY = ( xi − X )( yi − Y )
i =1
= ( xi − X ) yi − ( xi − X ) Y
n
i =1
n n
= ( xi − X )yi − Y ( xi − X )
i =1 i =1
n n
n n
pero ( x − X ) = x − nX = x − n x
i =1
i
i =1
i
i =1
i
i =1
i n = 0
n
entonces SPXY = ( xi − X )yi
i =1
de similar manera:
n n
= ( xi − X ) = ( xi − X )( xi − X )
2
SCX
i =1 i =1
= ( xi − X )xi − X ( xi − X )
n n
i =1 i =1
n
= ( xi − X )xi
i =1
observamos que en la suma de cuadrados de X ( SCX ) sólo intervienen los valores de X que
se suponen conocidos, es decir no aleatorios. Por tanto, a la SCX se le puede tratar como
constante al calcular el valor esperado de ˆ1 , en cambio la SPXY es función de los valores
y1 , y2 ,..., yn .
8
Matemática Avanzada para Ingenieros Mgt. Rina M. Zamalloa Cornejo
de aquí que:
( x − X )y
n
i i n
ˆ1 = i =1
= ci yi donde ci = (xi − X ) SCX para i =1, 2, ..., n , esto demuestra
SCX i =1
que ˆ1 es una función lineal de las variables aleatorias normalmente distribuidas y1 , y2 ,..., yn
( ) n n
E ˆ1 = E ci yi = ci E ( yi )
i =1 i =1
n n n
= ci E ( 0 + 1 xi ) = 0 ci + 1 ci xi
i =1 i =1 i =1
n n n
ya que ( xi − X ) = 0 entonces
i =1
ci = 0 y
i =1
c x
i =1
i i =1
por lo tanto
( )
E ˆ1 = ˆ1
( ) n n
Var ˆ1 = Var ci yi = ci2Var ( yi )
i =1 i =1
Ya que las observaciones y1 , y2 ,..., yn no son correlacionadas, la varianza de la suma es igual
( x − X )
2
( )
n i
Var ˆ1 = 2 ci2 = 2 i =1
i =1 SCX 2
2
( )
Var ˆ1 =
SCX
9
Matemática Avanzada para Ingenieros Mgt. Rina M. Zamalloa Cornejo
E y = 0 + 1 x
ˆ1
tc =
CME
SCX
4.- Establecer la Región Crítica
H1 : 1 0 ; t0 = t ( , n − 2 gl ) Prueba de dos colas
5.- Conclusión
Se acepta H0 si −t0 tC t0 y se rechaza H0 si tC −t0 ó tC t0 .
PARA 0
10
Matemática Avanzada para Ingenieros Mgt. Rina M. Zamalloa Cornejo
5.- Conclusión
Se acepta H0 si −t0 tC t0 y se rechaza H0 si tC −t0 ó tC t0
ANÁLISIS DE VARIANZA
El modelo de regresión presenta una descripción de la naturaleza entre las variables
dependiente e independiente, el procedimiento del ANVA mide la cantidad de variación en
el modelo de muestreo, existen tres formas de variación en un modelo de regresión: la
variación explicada por la regresión (SCR), la variación que permanece sin explicar debido
a error (SCE) y la variación total (SCT).
Para realizar una prueba de hipótesis respecto a que existe una relación lineal entre
las variables x y y se debe utilizar el análisis de varianza para una prueba de significancia
del modelo de regresión:
1.- Formular las hipótesis:
H 0 : 1 = 0
H1 : 1 0
2.- Nivel de significación
3.- Estadístico de prueba:
11
Matemática Avanzada para Ingenieros Mgt. Rina M. Zamalloa Cornejo
VARIANZA RESIDUAL
Nuestro objetivo es medir la bondad del ajuste de la recta de regresión a los datos
observados. A mejor ajuste, mejores serán las predicciones realizadas con el modelo. La
evaluación global de una recta de regresión puede hacerse mediante la varianza residual, que
como sabemos es un índice de la precisión del modelo. Sin embargo, esta medida no es útil
para comparar rectas de regresión de variables distintas, o comparar el grado de asociación
lineal entre distintos pares de variables, ya que depende de las unidades de medida de las
variables.
n n
( y − yˆ )
2 2
i i i
SY2. X = i =1
= i =1
n−2 n−2
elevando al cuadrado y desarrollando las sumatorias se obtiene:
n
ny
2
n x n y
n
i n i i
yi −
2 i=1 _ 1 xi yi − i=1 i=1
ˆ
i=1 n i=1 n
SY2. X = i=1
n−2
( y − yˆ )
2
i i
SY . X = i =1
n−2
12
Matemática Avanzada para Ingenieros Mgt. Rina M. Zamalloa Cornejo
n
2
n n
n
i
y xi yi
yi2 − i=1 _ ˆ1 xi yi − i=1 i=1
n
i=1 n i=1 n
SY . X = i=1
n−2
CORRELACIÓN
Obtener el modelo de regresión no es suficiente para establecer la regresión, ya que
es necesario cuantificar al mismo tiempo el grado de asociación lineal existente entre las
variables en cuestión, es decir evaluar que tan adecuado es el modelo de regresión obtenido.
Para esto se hace uso del coeficiente de correlación r, el cual mide el grado de correlación
existente entre las variables. El valor de r varía entre -1 y 1, pero en la práctica se trabaja
con el valor absoluto de r, entonces, a medida que r se aproxime a 1, más grande es el grado
de correlación entre los datos, de acuerdo con esto el coeficiente de correlación se puede
clasificar de varias formas, como se observa en la Tabla:
CORRELACIÓN VALOR O RANGO
Perfecta |r| = 1
13
Matemática Avanzada para Ingenieros Mgt. Rina M. Zamalloa Cornejo
significa que una variable se incrementa al hacerse mayor la otra (lo cual corresponde a un
valor positivo de ˆ1 en el análisis de regresión) existiendo una correlación positiva o directa.
n n
xi yi
xi yi − i=1 i=1
n
n
r= i=1
n
2
n
2
n xi n yi
x2 − i=1 y2 − i=1
i
n i
n
i=1
i=1
En este caso el coeficiente r tiene signo positivo ya que toma el valor de ˆ1 .
14
Matemática Avanzada para Ingenieros Mgt. Rina M. Zamalloa Cornejo
COEFICIENTE DE DETERMINACIÓN.
Una vez que se ha realizado el ajuste por mínimos cuadrados, conviene disponer de
algún indicador que permita medir el grado de ajuste entre el modelo y los datos. En el caso
de que se haya estimado varios modelos alternativos podría utilizarse medidas de este tipo,
a las que se denomina medidas de la bondad del ajuste, para seleccionar el modelo más
adecuado. Existen numerosas medidas de la bondad del ajuste. La más conocida es el
coeficiente de determinación.
15
Matemática Avanzada para Ingenieros Mgt. Rina M. Zamalloa Cornejo
Según hemos visto, el coeficiente de correlación lineal puede interpretarse como una
medida de la bondad del ajuste del modelo lineal, concretamente, un valor del coeficiente
igual a 1 o -1 indica dependencia lineal exacta, en cuyo caso el ajuste es perfecto. No
obstante, para cuantificar la bondad del ajuste de un modelo, lineal o no, se utiliza una
medida que se denomina coeficiente de determinación lineal r², que es la proporción de
variabilidad de la variable Y que queda explicada por el modelo.
El coeficiente de determinación mide o interpreta la cantidad relativa de la variación
que ha sido explicada por la recta de regresión, es decir, la proporción de cambio en Y
explicado por un cambio en la variable X ( X es el factor que se utiliza para calcular la recta
de ajuste o ecuación de regresión) r²x 100%
Donde:
Y: Variable dependiente o respuesta.
X1 , X2 , X3 ,....., Xk : variables independientes o explicativas.
Escribiendo el modelo para cada una de las observaciones puede ser considerando
como un sistema de ecuaciones lineales de la forma:
y1 = 0 + 1 x11 + 2 x2 2 ................. + K x1 k + 1
16
Matemática Avanzada para Ingenieros Mgt. Rina M. Zamalloa Cornejo
y 2 = 0 + 1 x21 + 2 x2 2 ................. + K x2 k + 2
………………………………………………
y n = 0 + 1 xn1 + 2 xn 2 ................. + K xnk + n
y1
y 1 x11 x12 ... x1k 0 1
2 1 x
... 12 x22 .... x2k 1 2
Y = ; X = . . .. .. ... .. ; = .. y = ...
....
.... . .. .. ... .. ... ....
1 xn1 xn 2 ... x nk k n
yn
Donde
Y: Vector de observación de la variable dependiente
: Vector de parámetros
X: matriz de valores observados de las variables independientes (x1 , x2 .x3 ,......, xk −1 )
: Vector de errores, que mide el desajuste entre el modelo y la realidad.
17
Matemática Avanzada para Ingenieros Mgt. Rina M. Zamalloa Cornejo
Q( ) n
= −2 (Yi − ˆo − ˆ1 X i1 − ..... − ˆ K X 1K ) X ij = 0
j i =1
Donde j=1,2,…k
El estimador de los parámetros se obtiene al minimizar Q(β)
Q( )
Sea = 0 , entonces se tiene,
( )
ˆ = ˆ0 , ˆ1 ,....., ˆ k −1 .
Y (
N X , 2 I ) Y
• ESPERANZA
La esperanza de ˆ es:
()
E ˆ =
18
Matemática Avanzada para Ingenieros Mgt. Rina M. Zamalloa Cornejo
• VARIANZA
()
La varianza de ˆ es: Var ˆ = 2 ( X ' X )
−1
INTERVALOS DE CONFIANZA j
ˆ j − j
con N(0,1)
qij
Como
(n − k − 1) , con n2− k −1 entonces
2
ˆ j − j
qij
t= con t (n − k − 1)
1 (n − k − 1)Sˆ 2
n − k −1 2
ˆ1 − j
Concluyendo que t = con t (n − k − 1)
S qij
El intervalo de confianza para j , con (1- ). 100% del nivel de confianza se obtiene
mediante.
ˆ j − j
= 1−
P − t ( ,n−k −1) t
S ˆ
, n − k −1
2
j 2
19
Matemática Avanzada para Ingenieros Mgt. Rina M. Zamalloa Cornejo
P ˆ j − t ( ,n −k −1)Sˆ j j ˆ j + t Sˆ j = 1 −
, n − k −1
2
2
Por tanto j ˆ j t
Sˆ j , con un nivel de confianza (1- ). 100%.
, n − k −1
2
H1 : j 0
ˆ j ˆ j
t=
Sˆ qij
=
( ) con t(n − k − 1)
S ˆ j
( )
Donde: S ˆ j = Sˆ qij
Si t t
entonces se rechaza la hipótesis caso contrario se acepta.
, n − k −1
2
H 1 : j 0 para al menos un j.
El rechazo de la hipótesis nula implica que al menos uno de los regresores contribuye
al modelo de la forma significativa.
20
Matemática Avanzada para Ingenieros Mgt. Rina M. Zamalloa Cornejo
Como:
E (CME ) = 2
* X c' X c *
E (CMR ) = 2 +
k 2
Siendo * = (1 , 2 ,..., k ) y X c es la matriz centrada del modelo, definida por.
'
X 11 − X 1 X 12 − X 2 ... X 1k − X k
X 21 − X 2 X 22 − X 2 ... X 2 k − X k
Xc= .. .. .. ...
.. .. ... ...
X − X X n2 − X 2 ... X nk − X k
n1 1
entonces F0 tiene una distribución F no central. Con k y n-k-1 grados de libertad y parámetro
de centralidad definido por:
* xc' xc *
=
k 2
Este parámetro de centralidad también indica que el valor observado de F 0 debe ser
grande para que al menos j 0 . Por consiguiente, para probar la hipótesis
F0 F ,k ,n − k −1
21
Matemática Avanzada para Ingenieros Mgt. Rina M. Zamalloa Cornejo
i =1 n n
O bien,
SCE=SCT-SCR
Por consiguiente, la suma de cuadrados de la regresión es:
2
n
Yi
SCR = X Y − i =1
ˆ ' '
n
La suma de cuadrados del error, o suma de residual de cuadrados es:
SCE = Y 'Y − ̂ ' X 'Y
Y la suma de cuadrados del total es:
2
n ˆ
Yi
SCT = Y Y − i =1
'
22
Matemática Avanzada para Ingenieros Mgt. Rina M. Zamalloa Cornejo
COEFICIENTE DE DETERMINACION
El coeficiente de determinación R 2 proporciona la cantidad de variabilidad de Y que
explica las variables independientes y se obtiene:
(Yˆ − Y ) (Yˆ − Y )
n 2 n 2
i i
SCR
R2 = = i =1
= i =1
(Y −Y )
n
SCT 2 nS y2
i
i =1
(
R 2 = 1− 1− R2 ) n −n −k 1− 1
Este coeficiente R 2 no tiene los inconvenientes de R 2 ya que al introducir más
variables en el modelo no aumenta necesariamente su valor.
23