Regresion

Matemática Avanzada para Ingenieros Mgt. Rina M.
Zamalloa Cornejo
ANALISIS DE REGRESION Y CORRELACIÓN
INTRODUCCION
El análisis de regresión es una técnica estadística, sirve para investigar y modelar la
relación entre variables, tiene muchas aplicaciones como por ejemplo en la ingeniera,
ciencias físicas y químicas, economía administración, ciencias biológicas, y en la vida de
hecho el análisis de regresión es la técnica más usada.
Los modelos de regresión son sensibles a varios fenómenos uno de ellos se debe a
la presencia de relaciones entre las variables independientes, en casi todas las aplicaciones
de regresión la ecuación de regresión es solo una aproximación a la verdadera relación
funcional entre las variables de interés, estas relaciones funcionales se basan con frecuencia
en una teoría física, química o de otra disciplina.
En general las ecuaciones de regresión son solo válidas dentro del rango de las
variables regresoras contenidas en los datos observados.
Un objetivo importante de regresión es estimar los parámetros desconocidos en el
modelo de regresión llamado también proceso de ajuste del modelo a los datos. Existen
varias técnicas de estimación de dichos parámetros una de ellas es el método de mínimos
cuadrados.
El análisis de regresión tiene una fase muy importante la cual es la comprobación
de la adecuación del modelo en donde se estudió lo apropiado del modelo y la calidad del
ajuste determinado. Mediante estos análisis se puede determinar la utilidad del modelo el
resultado de esta comprobación puede indicar que el modelo es razonable o que debe
modificarse al ajuste original. El análisis de regresión es un procedimiento iterativo en el
qué los datos conducen a un modelo y se produce un ajuste del modelo de datos. En un
modelo de regresión no implica que haya una relación de causa y efecto entre las variables,
aunque exista dicha relación no puede considerarse como prueba de que las variables
regresoras y la respuesta estén relacionadas en forma de causa y efecto.
Para establecer dicha causalidad la relación entre los regresoras y la respuesta deben
tener una base ajena a los datos de la muestra.
El análisis de regresión ayudara a confirmar la relación de causa y efecto pero no
puede ser la base única para esta.
1
Matemática Avanzada para Ingenieros Mgt. Rina M. Zamalloa Cornejo
Es importante recordar que el análisis de regresión es una parte de un método más

amplio de análisis de datos para resolver problemas. Esto es la ecuación misma de regresión
puede no sirve, el objetivo principal de estudio y apreciar el sistema que genera los datos.
La regresión y la correlación son las herramientas muy importantes, sirven para
solucionar para solucionar problemas comunes, muchos estudios se pueden identificar y
cuantificar la relación funcional entre dos o más variables, se dice que una variable depende
de otra.
USOS DE LA REGRESION
Los modelos de regresión se usan con varios fines, que incluye lo siguiente:
1.-Descripción de datos
2.-Predicción y estimación.
El análisis de regresión es útil para plantear ecuaciones, por lo cual es un modelo de
regresión que resume la información y es más conveniente y útil que una tabla o una gráfica.
Muchas aplicaciones de regresión requieren de la predicción de la variable respuesta,
estas predicciones pueden ser útiles y facilitar los problemas cotidianos.
ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

Si dos variables evolucionan de modo tal que en alguna medida se siguen entre ellas,
podemos decir que existe una asociación o covarianza estadística entre ellas. Por ejemplo,
la altura y peso de la gente están estadísticamente asociadas: aunque el peso de nadie esté
causado por su altura ni la altura por el peso es, no obstante, habitual que las personas altas
pesen más que las personas bajas. Por otro lado, los datos habitualmente incluyen también
excepciones, lo que significa que una asociación estadística es inherentemente estocástica.
Si, al analizar los datos, se descubre alguna asociación entre las variables, esto no
significa que necesariamente alguna de ellas dependa causalmente de la otra.
El objeto de un análisis de regresión es investigar la relación estadística que existe
entre una variable dependiente (Y) y una o más variables independientes ( X1 , X 2 , ..., X k ).
Para poder realizar esta investigación, se debe postular una relación funcional entre las
variables. Debido a su simplicidad analítica, la forma funcional que más se utiliza en la
práctica es la relación lineal.
2
El término regresión se utilizó por primera vez en el estudio de variables

antropométricas: al comparar la estatura de padres e hijos, resultó que los hijos cuyos padres
tenían una estatura muy superior al valor medio tendían a igualarse a éste, mientras que
aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la estatura
media; es decir, "regresaban" al promedio. La constatación empírica de esta propiedad se
vio reforzada más tarde con la justificación teórica de ese fenómeno.
El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que
emplean modelos basados en cualquier clase de función matemática. Los modelos lineales
son una explicación simplificada de la realidad, mucho más ágil y con un soporte teórico por
parte de la matemática y la estadística mucho más extenso.
Definición:
La variable dependiente Y es la variable que se desea explicar, predecir o modelar.
También se le llama regresando ó variable de respuesta.
Definición:
Las variables que se utilizan para predecir, explicar o modelar Y se denominan
variables independientes y se denotan con por X1 , X 2 , ..., X k .
En un análisis de regresión simple los valores de X y las magnitudes resultantes de Y se

muestran en una gráfica llamada diagrama de dispersión
Diagrama De Dispersión
La primera forma de describir una distribución bivariada es representar los pares de
valores en el plano cartesiano. El gráfico obtenido recibe el nombre de nube de puntos o
diagrama de dispersión.
Por otro lado, también se aprecia por qué este gráfico se denomina un diagrama de
“dispersión”: no existe una relación matemáticamente exacta entre las variables. Si entre
3
estas variables existiera una relación lineal perfecta, entonces todos los puntos caerían a lo
largo de la recta de regresión, que también ha sido trazada y que muestra la relación
“promedio” que existe entre las dos variables.
En la práctica, se observa que la mayoría de los puntos no caen directamente sobre
la recta, sino que están “dispersos” en torno a ella. Esta dispersión representa la variación en
Y que no puede atribuirse a la variación en X.
Según sea la dispersión de los datos (nube de puntos) en el plano cartesiano, pueden
darse alguna de las siguientes relaciones, Lineal, Logarítmica, Exponencial, Cuadrática,
entre otras.
El modelo matemático llamado también ajuste de curvas es una ecuación dada en un

gráfico, dependiendo del grado de correlación que más se ajuste al conjunto de datos.
Los modelos de regresión son usados para diferentes propósitos, incluyendo las siguientes:
1. Descripción de datos.
2. Estimación de los parámetros.
3. Predicción y estimación.
4. Control.
El modelo probabilístico que relaciona Y con X es uno que contemple la variación

aleatoria de los puntos de datos a los lados de una línea recta.
Un tipo de modelo probabilístico es el modelo de regresión lineal simple que, supone
que el valor medio de Y para un valor dado de X se grafica como una línea recta y que los
puntos se desvían de esta línea de medias en una cantidad aleatoria (positiva o negativa)
igual a  , es decir:
y = 0 + 1 x + 
4
donde  0 y 1 son parámetros desconocidos de la porción determinística (no aleatoria) del
modelo y  0 + 1 x es el valor medio de Y para un X dado.
Si suponemos que los puntos se desvían por encima y por debajo de la línea de medias
siendo algunas positivas y otras negativas y con E   = 0 entonces el valor medio de Y es:
E  y  = E   0 + 1 x +   =  0 + 1 x + E  
=  0 + 1 x
por tanto, el valor medio de Y para un valor dado de X representado por E  y  se grafica
como una línea recta con ordenada en el origen igual a  0 llamado coeficiente de intersección
y pendiente igual a 1 llamado coeficiente de regresión.
ESTIMACIÓN DE LOS PARÁMETROS POR MÍNIMOS CUADRADOS

Los parámetros  0 y 1 tiene valores desconocidos y se deben estimar con los datos
de la muestra. Él método de mínimos cuadrados para estimar  0 y 1 nos muestra que
existe una y solo una línea recta para lo cual la suma de los cuadrados de las desviaciones es
mínima. Esta línea recibe el nombre de línea de mínimos cuadrados, línea de regresión o
ecuación de predicción de mininos cuadrados, donde ̂ 0 y ˆ1 son estimadores de los
parámetros  0 y 1 respectivamente.
La suma de los cuadrados de las desviaciones se denomina suma de cuadrados del

error y se denota por SCE.
y =  0 + 1 x +  , es la ecuación de un modelo de regresión poblacional.
y a ŷ = ˆ0 + ˆ1 x , se le conoce como modelo de regresión muestral.
La recta de medias está dada por: E  y  =  0 + 1 x y se quiere estimar los valores de
 0 y 1 así encontrar la recta de mejor ajuste al conjunto de datos observados representado

por:
ŷ = ˆ0 + ˆ1 x
donde:
ŷ : Es un estimador de un valor medio de Y el cual predice algún valor futuro de Y.
̂ 0 y ˆ1 son estimadores de  0 y 1 respectivamente, para un punto de datos dado (xi, yi).
5
El valor observado de Y es yi y el valor predicho se obtendrá sustituyendo xi .en la
ecuación de predicción:
yˆ i = ˆ0 + ˆ1 .xi
y las desviaciones estándares del i-ésimo valor de y respecto a su valor predicho.

yi − yˆ i = yi − ˆ0 + ˆ1 .xi
entonces las sumas de cuadrados de las desviaciones de los valores de Y respecto a sus
valores estimados para todos los n puntos es:
n
SCE =  ( yi − ˆ0 − ˆ1 xi ) 2
i =1
yî = ˆ0 + ˆ1 xi
las desviaciones del i-ésimo valor respecto a su valor predicho y i − yˆ i donde el valor
esperado es igual a la predicción.

Valor observado:
yî = ˆ0 + ˆ1 xi
yi − yî = yi − ˆ0 + ˆ1 xi
entonces la suma de los cuadrados de las desviaciones de los valores de respecto a sus valores
estimados para todos los n puntos es:
n
SCE =  ( yi − ˆ0 − ˆ1 xi ) 2
i =1
los valores de ̂ 0 y ˆ1 que minimiza se obtiene derivando parcialmente la SCE respecto a
̂ 0 y ̂ 0 luego igualándolas a cero para luego reducir el sistema lineal simultáneo de

ecuaciones de mínimos cuadrados:
SCE n
= −2 ( yi − ˆ0 − ˆ1 xi ) 2 = 0
ˆ0 i =1
n n
 yi − nˆ0 − ˆ1  xi = 0 ………………………….(1)
i =1 i =1
SCE n
= −2 ( yi − ô − ˆ1 xi ) xi = 0
ˆ1 i =1
n n n
 xi yi − ˆ0  xi − ˆ1  xi2 = 0 ……………………..(2)
i =1 i =1
6
las ecuaciones (1) y (2) se les llama ecuaciones normales mínimo cuadráticas desarrollando
y simplificando se obtiene:
n n
 yi x i
ˆ0 = i =1
− ˆ1 i =1
n n
ˆ0 = Y − ˆ1 X
despejando ˆ1 en (2), reemplazando por ̂ 0 se obtiene:

n n
y i x i
ˆ0 = i =1
− ˆ1 i =1
, es la ordenada en el origen.
n n
SPXY
Y ˆ1 = es el coeficiente de regresión
SCX
donde:
2
 n 
 xi 
SCX = xi −  i=1 
n
2
i=1 n
 n   n 
 xi   yi 
SPXY = xi yi −  i=1   i=1 
n
i=1 n
 n   n 
 xi    yi 
xi yi −  i=1   i=1 
n
 n
ˆ1 = i=1
2
 n 
 xi 
xi −  i=1 
n

i=1
2
n
n: tamaño de la muestra.
yˆ i = ˆ 0 + ˆ1 .xi
La diferencia entre el valor observado y i y el correspondiente valor ajustado ŷ i es
un residual. Matemáticamente el residual es:

ei = yi − yˆ i
ei = y i − ˆ0 − ˆ1 xi , con i=1, 2, 3,….,n .
7
Los residuales juegan un papel importante en la investigación del adecuado modelo

de regresión ajustado.
PROPIEDADES
Los estimadores mínimos cuadráticos ̂ 0 y ˆ1 tienen algunas propiedades importantes:
1° Los estimadores mínimos cuadráticos ̂ 0 y ˆ1 son combinaciones lineales de los valores
de Y; y1 , y2 ,..., yn . Dado que se ha supuesto que los errores aleatorios asociados a estos
valores de Y, 1 ,  2 ,...,  n son variables aleatorias independientes distribuidos normalmente
con media 0 y varianza  2 . Además, los valores de Y tienen distribución normal con media
E  y  =  0 + 1 x y varianza  2 y ̂ 0 y ˆ1 tienen distribuciones muestrales.
SPXY
ˆ1 =
SCX
n
SPXY =  ( xi − X )( yi − Y )
i =1
=  ( xi − X ) yi − ( xi − X ) Y 
n
i =1
n n
=  ( xi − X )yi − Y  ( xi − X )
i =1 i =1
n n
 n n

pero  ( x − X ) =  x − nX =  x − n   x
i =1
i
i =1
i
i =1
i
 i =1
i n = 0

n
entonces SPXY =  ( xi − X )yi
i =1
de similar manera:
n n
=  ( xi − X ) = ( xi − X )( xi − X )
2
SCX
i =1 i =1
=  ( xi − X )xi − X  ( xi − X )
n n
i =1 i =1
n
=  ( xi − X )xi
i =1
observamos que en la suma de cuadrados de X ( SCX ) sólo intervienen los valores de X que
se suponen conocidos, es decir no aleatorios. Por tanto, a la SCX se le puede tratar como
constante al calcular el valor esperado de ˆ1 , en cambio la SPXY es función de los valores
y1 , y2 ,..., yn .
8
de aquí que:
 ( x − X )y
n
i i n
ˆ1 = i =1
=  ci yi donde ci = (xi − X ) SCX para i =1, 2, ..., n , esto demuestra
SCX i =1
que ˆ1 es una función lineal de las variables aleatorias normalmente distribuidas y1 , y2 ,..., yn
Por lo tanto, el valor esperado de ˆ1 es:
( )  n  n
E ˆ1 = E   ci yi  =  ci E ( yi )
 i =1  i =1
n n n
=  ci E (  0 + 1 xi ) =  0  ci + 1  ci xi
i =1 i =1 i =1
n n n
ya que  ( xi − X ) = 0 entonces
i =1
 ci = 0 y
i =1
c x
i =1
i i =1
por lo tanto
( )
E ˆ1 = ˆ1
Entonces demostramos que ˆ1 es un estimador insesgado de 1 .
Para calcular la varianza tenemos:
( )  n  n
Var ˆ1 = Var   ci yi  =  ci2Var ( yi )
 i =1  i =1
Ya que las observaciones y1 , y2 ,..., yn no son correlacionadas, la varianza de la suma es igual
a la suma de las varianzas y como Var ( yi ) =  2 , se tiene:

n
( x − X )
2
( )
n i
Var ˆ1 =  2  ci2 =  2 i =1
i =1 SCX 2
2
( )
Var ˆ1 =
SCX
PRUEBA DE HIPÓTESIS DE LOS PARÁMETROS.

Supongamos que, Y no tiene relación alguna con X, entonces se podría decir que β0 y β1 del
modelo probabilístico de hipótesis:
y =  0 + 1 x + 
Si X no contribuye con información a la predicción de Y es decir la parte determinística del
modelo:
9
E y  =  0 + 1 x
No cambia cuando x cambia.

Sea cual sea el valor predicho de Y será el mismo o la relación existente no es lineal.
En el modelo de línea recta esto implica que la pendiente β1 es igual a cero. Por tanto, si
queremos probar la hipótesis nula de que X no contribuye a la predicción de Y contra la
hipótesis alterna de estas variables tienen una relación lineal con una pendiente distinta de
cero, probaremos:
PARA 1
1.- Formular las hipótesis:

H 0 : 1 = 0 No existe relación lineal entre las variables
H1 : 1  0 Si existe relación lineal entre las variables

2.- Establecer el nivel de significación  = 0,05 .
3.- Estadístico de Prueba:
ˆ1
tc =
CME
SCX
4.- Establecer la Región Crítica
H1 : 1  0 ; t0 = t ( , n − 2 gl ) Prueba de dos colas
5.- Conclusión
Se acepta H0 si −t0  tC  t0 y se rechaza H0 si tC  −t0 ó tC  t0 .
PARA  0

H 0 : 0 = 0
H1 :  0  0
2.- Establecer el nivel de significación  .

3.- Estadístico de Prueba:
ˆ0
tc =
1 X2 
CME  + 
n SCX 
4.- Establecer la Región Crítica

H1 : 0  0 ; t0 = t ( , n − 2 gl ) Prueba de dos colas
10
5.- Conclusión
Se acepta H0 si −t0  tC  t0 y se rechaza H0 si tC  −t0 ó tC  t0
ANÁLISIS DE VARIANZA
El modelo de regresión presenta una descripción de la naturaleza entre las variables
dependiente e independiente, el procedimiento del ANVA mide la cantidad de variación en
el modelo de muestreo, existen tres formas de variación en un modelo de regresión: la
variación explicada por la regresión (SCR), la variación que permanece sin explicar debido
a error (SCE) y la variación total (SCT).
Para realizar una prueba de hipótesis respecto a que existe una relación lineal entre
las variables x y y se debe utilizar el análisis de varianza para una prueba de significancia
del modelo de regresión:
H 0 : 1 = 0
H1 : 1  0
2.- Nivel de significación 
3.- Estadístico de prueba:
Fuente de Suma de Grados de Cuadros Valor de Sig

variación cuadrados libertad Medios F
Regresión SCR 1 CMTr = SCR
Error SCE n-2 CME =

SCE CM 
FC =
n−2 CME
Total SCT n-1
4.- Región crítica:

5.- Conclusión:
Se rechaza H0 , Fc  F0
SC
SCR = ̂1 SPXY SCT = SCY CM =
GL
Si Sig  0, 05 se acepta H 0 , es decir no existe relaciónlineal entrelas var iables
Si Sig  0, 05 se rechaza H 0 , es decir si existe relaciónlineal entrelas var iables
11
La razón CMR/CME proporciona una medida de exactitud del modelo ya que es la

razón de la desviación promedio al cuadrado que se explica con el modelo, entre mayor sea
esta razón el modelo tendrá mayor poder explicativo es decir una prueba F alta señala que el
modelo posee un poder explicativo significativo el cual debe compararse con un valor F de
la tabla.
VARIANZA RESIDUAL
Nuestro objetivo es medir la bondad del ajuste de la recta de regresión a los datos
observados. A mejor ajuste, mejores serán las predicciones realizadas con el modelo. La
evaluación global de una recta de regresión puede hacerse mediante la varianza residual, que
como sabemos es un índice de la precisión del modelo. Sin embargo, esta medida no es útil
para comparar rectas de regresión de variables distintas, o comparar el grado de asociación
lineal entre distintos pares de variables, ya que depende de las unidades de medida de las
variables.
n n
  ( y − yˆ )
2 2
i i i
SY2. X = i =1
= i =1
n−2 n−2
elevando al cuadrado y desarrollando las sumatorias se obtiene:
n
 ny 
2
  n x   n y 
n 
 i  n  i  i
  yi −
2  i=1   _ 1   xi yi −  i=1   i=1  
ˆ
 i=1 n   i=1 n 
   
 
SY2. X = i=1
n−2
ERROR ESTÁNDAR DE ESTIMACIÓN

El error estándar de estimación es una medida de dispersión de los valores observados
alrededor de la recta de regresión muestral, mientras más pequeño sea el valor del error
estándar de estimación más cercano a la recta de regresión están los valores estimados de yi
El error estándar de estimación es denotado por SY.X y se calcula por medio:

n
 ( y − yˆ )
2
i i
SY . X = i =1
n−2
12
  n  
2
  n   n 
 n 
 i 
y    xi    yi  
  yi2 −  i=1   _ ˆ1   xi yi −  i=1   i=1  
n
 i=1 n   i=1 n 
   
   
SY . X = i=1
n−2
Esta medida trata de resumir la disparidad entre lo observado y lo estimado, es decir,

trata de medir la diferencia promedio entre lo observado y lo estimado ó esperado de acuerdo
al modelo, puede considerarse como un indicador del grado de precisión con que la ecuación
de regresión, describe la relación entre las dos variables. Este error estándar se ve afectado
por las unidades y sus cambios ya que es una medida absoluta, pues, se da en la misma
unidad de medida que esta dada la variable Y; razón por la cual no es posible comparar con
las relaciones de variables dadas en distinta unidad de medida. Es necesario entonces calcular
una medida que interprete o mida mejor el grado de relación entre las variables.
CORRELACIÓN
Obtener el modelo de regresión no es suficiente para establecer la regresión, ya que
es necesario cuantificar al mismo tiempo el grado de asociación lineal existente entre las
variables en cuestión, es decir evaluar que tan adecuado es el modelo de regresión obtenido.
Para esto se hace uso del coeficiente de correlación r, el cual mide el grado de correlación
existente entre las variables. El valor de r varía entre -1 y 1, pero en la práctica se trabaja
con el valor absoluto de r, entonces, a medida que r se aproxime a 1, más grande es el grado
de correlación entre los datos, de acuerdo con esto el coeficiente de correlación se puede
clasificar de varias formas, como se observa en la Tabla:
CORRELACIÓN VALOR O RANGO
Perfecta |r| = 1
Excelente 0.9 <= |r| < 1
Buena 0.8 <= |r| < 0.9
Regular 0.5 <= |r| <0.8
Mala |r|< 0.5

Por lo tanto el análisis de regresión es una herramienta estadística que permite
analizar y predecir o estimar observaciones futuras de dos o más variables relacionadas entre
sí, es decir una herramienta útil para la planeación y el análisis de correlación se encuentra
13
estrechamente vinculado con el análisis de regresión y ambos pueden ser considerados de

hecho como dos aspectos de un mismo problema.
La correlación entre dos variables es el grado de asociación entre las mismas. Cuando
r es negativo, ello significa que una variable (ya sea “x” o “y”) tiende a decrecer cuando la
otra aumenta (se trata entonces de una “correlación negativa o inversa”, correspondiente a
un valor negativo de ˆ1 en el análisis de regresión). Cuando r es positivo, en cambio, esto
significa que una variable se incrementa al hacerse mayor la otra (lo cual corresponde a un
valor positivo de ˆ1 en el análisis de regresión) existiendo una correlación positiva o directa.
En el siguiente diagrama se resume la magnitud y la dirección de la correlación,

según el coeficiente de correlación de Pearson.
Correlación Ninguna Correlación
negativa correlación positiva
perfecta perfecta
Correlación Correlación Correlación Correlación Correlación Correlación

negativa negativa negativa positiva positiva positiva
fuerte moderada débil débil moderada fuerte
- 1.00 - 0.50 0 + 0.50 + 1.00
Correlación negativa Correlación positiva
Para determinar el valor numérico del coeficiente de correlación de Pearson se utiliza

la siguiente fórmula:
 n  n 
 xi  yi 
xi yi −  i=1  i=1 
n
 n
r= i=1
  n 
2
  n 
2

 n  xi   n  yi  
 x2 −  i=1    y2 −  i=1  
 i
n   i
n 
 i=1
 i=1

  
  
En este caso el coeficiente r tiene signo positivo ya que toma el valor de ˆ1 .
14
La correlación entre los valores de dos variables es un hecho. El que lo consideremos

satisfactorio o no, depende de la interpretación. Otro problema que representa la correlación
es cuando se pregunta si una variable, de algún modo causa o determina a la otra. La
correlación no implica causalidad. Si las variables X e Y están correlacionadas, esto puede
ser porque X causa a Y, o porque Y causa a X o porque alguna otra variable afecta tanto a X
como Y, o por una combinación de todas estas razones; o puede ser que la relación sea una
coincidencia.
Correlación positiva perfecta Correlación negativa perfecta
Correlación positiva fuerte Correlación cero
COEFICIENTE DE DETERMINACIÓN.
Una vez que se ha realizado el ajuste por mínimos cuadrados, conviene disponer de
algún indicador que permita medir el grado de ajuste entre el modelo y los datos. En el caso
de que se haya estimado varios modelos alternativos podría utilizarse medidas de este tipo,
a las que se denomina medidas de la bondad del ajuste, para seleccionar el modelo más
adecuado. Existen numerosas medidas de la bondad del ajuste. La más conocida es el
coeficiente de determinación.
15
Según hemos visto, el coeficiente de correlación lineal puede interpretarse como una
medida de la bondad del ajuste del modelo lineal, concretamente, un valor del coeficiente
igual a 1 o -1 indica dependencia lineal exacta, en cuyo caso el ajuste es perfecto. No
obstante, para cuantificar la bondad del ajuste de un modelo, lineal o no, se utiliza una
medida que se denomina coeficiente de determinación lineal r², que es la proporción de
variabilidad de la variable Y que queda explicada por el modelo.
El coeficiente de determinación mide o interpreta la cantidad relativa de la variación
que ha sido explicada por la recta de regresión, es decir, la proporción de cambio en Y
explicado por un cambio en la variable X ( X es el factor que se utiliza para calcular la recta
de ajuste o ecuación de regresión) r²x 100%
ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

El modelo de regresión lineal múltiple es más preciso al poseer mayor número de
variables explicativas.
Es una extensión del modelo de regresión lineal simple al desarrollo de un
procedimiento para predecir una variable de respuesta en base a los valores de 2 o más
variable independientes. Un modelo de regresión lineal múltiple es de la forma:
y=  0 + 1 x1 +  2 x2 ................. +  K x k + 
Donde:
Y: Variable dependiente o respuesta.
X1 , X2 , X3 ,....., Xk : variables independientes o explicativas.
 : Error aleatorio o perturbación

 i : Coeficiente del modelo y para i = 0,1,...., k
 k mide el cambio esperado en la variable respuesta cuando x k ha de aumentar una unidad

y el resto de las variables explicativas permanecen constantes.
Además la muestra aleatoria de tamaño n: ( xi1 .xi 2 , xi 3 ,......., xik , yi ) , i=1,2,3,…,n.
y n>k, satisface la ecuación de regresión poblacional.

y=  0 + 1 x1 +  2 x2 ................. +  K xk +  i
Escribiendo el modelo para cada una de las observaciones puede ser considerando
como un sistema de ecuaciones lineales de la forma:
y1 =  0 + 1 x11 +  2 x2 2 ................. +  K x1 k +  1
16
y 2 =  0 + 1 x21 +  2 x2 2 ................. +  K x2 k +  2
………………………………………………
y n =  0 + 1 xn1 +  2 xn 2 ................. +  K xnk +  n
Que puede ser escrita en forma matricial como:

 y1 
 y2   1 x11 x12 ... x1k    0    1 
  1 x x22 .... x2 k   1   2 
...   12
   
....  = . . .. .. ... ..  ..  + ... 
 
 
 . .. .. ... ..  ...  ....
....     
y   1 xn1 xn 2 ... x nk    k   n 
 n
Sea:
 y1 
y   1 x11 x12 ... x1k   0   1 
 2 1 x     
...   12 x22 .... x2k   1   2
Y =   ; X = . . .. .. ... ..  ;  = ..  y  = ... 
....       
....   . .. .. ... ..  ...  .... 
   1 xn1 xn 2 ... x nk    k   n 
 yn 
Donde
Y: Vector de observación de la variable dependiente
 : Vector de parámetros
X: matriz de valores observados de las variables independientes (x1 , x2 .x3 ,......, xk −1 )
 : Vector de errores, que mide el desajuste entre el modelo y la realidad.
El modelo de regresión lineal múltiple en su forma matricial esta dado por:

Y = X +  …………….. (1.1)
ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO POR EL MÉTODO DE

MÍNIMOS CUADRADOS
La suma de los cuadrados del error, se puede expresar matricialmente de la siguiente
forma:
Sea Q(  ) =   2 i =  ' , donde  = Y − X
17
Derivando parcialmente con respecto a β se tiene:

Q(  )
= −2 X 'Y + 2 X ' X

Luego tendremos:
Q( ) n
= −2 (Yi − ô − ˆ1 X i1 − ..... − ˆ K X 1K ) = 0
 0 i =1
Q( ) n
= −2 (Yi − ô − ˆ1 X i1 − ..... − ˆ K X 1K ) X ij = 0
 j i =1
Donde j=1,2,…k
El estimador de los parámetros se obtiene al minimizar Q(β)
Q( )
Sea = 0 , entonces se tiene,

X ' Y = X ' Xˆ
Se supone que existe ( X ' X )−1 entonces:

ˆ = ( X ' X )−1 XY
Observación
1. ˆ : Es el vector de parámetros estimados por mínimos cuadrados ordinarios
( )
ˆ = ˆ0 , ˆ1 ,....., ˆ k −1 .
2. Yˆ = Xˆ Representa el vector de valores ajustados.
PROPIEDADES DE LOS ESTIMADORES:

• NORMALIDAD
El vector de observaciones Y se distribuye como una normal multivariante de media Xβ y

de matriz de varianzas y covarianzas  2 I
Y (
N X  , 2 I ) Y
• ESPERANZA
La esperanza de ˆ es:
()
E ˆ = 
18
• VARIANZA
()
La varianza de ˆ es: Var ˆ =  2 ( X ' X )
−1
INTERVALOS DE CONFIANZA Y PRUEBAS DE HIPÓTESIS DE LOS

COEFICIENTES DE REGRESIÓN.
Podemos están interesados en contrastar hipótesis y obtener intervalos de confianza
para cada coeficiente de regresión, estos test son útiles para determinar la influencia de cada
variable explicativa en el modelo de regresión.
INTERVALOS DE CONFIANZA  j
Como ̂ j ( j ,  2 qij ) entonces:
ˆ j −  j
con N(0,1)
 qij
Por definición de la distribución t- Student se tiene:

N (0,1)
t= con t (n − k − 1) entonces:
1
 n2−k −1
n − k −1
Como
(n − k − 1) , con  n2− k −1 entonces
2
ˆ j −  j
 qij
t= con t (n − k − 1)
1 (n − k − 1)Sˆ 2
n − k −1 2
ˆ1 −  j
Concluyendo que t = con t (n − k − 1)
S qij
El intervalo de confianza para  j , con (1- ). 100% del nivel de confianza se obtiene
mediante.

 ˆ j −  j 
 = 1−
P − t ( ,n−k −1)   t 
 S ˆ
  , n − k −1  

 
2
j 2
19
 
P ˆ j − t ( ,n −k −1)Sˆ j   j  ˆ j + t   Sˆ j  = 1 − 
 
 , n − k −1  
 
2
2 
Por tanto  j  ˆ j  t   
Sˆ j , con un nivel de confianza (1- ). 100%.
 , n − k −1 
2 
PRUEBA DE HIPÓTESIS CON RESPECTO A LOS PARÁMETROS  j
En la mayoría de los casos estaremos interesados en saber si la variable x i afecta o no

a la respuesta, es decir, si debería desaparecer de la ecuación.
Esto es equivalente a contrastar:
H0 :  j = 0
H1 :  j  0
Si se cumple la hipótesis nula  j = 0 , entonces:
ˆ j ˆ j
t=
Sˆ qij
=
( ) con t(n − k − 1)
S ˆ j
( )
Donde: S ˆ j = Sˆ qij
Es el error estándar del parámetro  j
Si t  t   
entonces se rechaza la hipótesis caso contrario se acepta.
 , n − k −1 
2 
ANÁLISIS DE VARIANZA PARA LA REGRESIÓN LINEAL MÚLTIPLE

La prueba de significancia de la regresión es para determinar si hay relación lineal
entre la respuesta y y cualquiera de las variables regresoras x1,x2,…xp. Este procedimiento
suele considerarse como una prueba general o global de la adecuación del modelo. Las
hipótesis pertinentes son:
H 0 : 1 =  2 = ..... =  k = 0
H 1 :  j  0 para al menos un j.
El rechazo de la hipótesis nula implica que al menos uno de los regresores contribuye
al modelo de la forma significativa.
20
El procedimiento de la prueba es una generalización del análisis de varianza que se

usa en la regresión lineal simple. La suma de cuadrados del total (SCT) se divide en una
suma de cuadrados debido a la regresión (SCR) y a una suma de cuadrados del error (SCE).
Como se muestra.
SCR=SCR+SCE
Se sabe que:
SCR
k CMR
F0 = =
SCE CME
(n − k − 1)
Tiene la distribución Fk ,k − n − k −1 .
Como:
E (CME ) =  2
 * X c' X c  *
E (CMR ) =  2 +
k 2
Siendo  * = (1 ,  2 ,...,  k ) y X c es la matriz centrada del modelo, definida por.
'
 X 11 − X 1 X 12 − X 2 ... X 1k − X k 
 
 X 21 − X 2 X 22 − X 2 ... X 2 k − X k 
Xc= .. .. .. ... 
 
 .. .. ... ... 
X − X X n2 − X 2 ... X nk − X k 
 n1 1 
Estos cuadrados medios esperados indican que, si el valor observado de F0 es grande,

es probable que al menos un  j  0 , también se demuestra que si al menos un  j  0 ,
entonces F0 tiene una distribución F no central. Con k y n-k-1 grados de libertad y parámetro
de centralidad definido por:
 * xc' xc  *
=
k 2
Este parámetro de centralidad también indica que el valor observado de F 0 debe ser
grande para que al menos  j  0 . Por consiguiente, para probar la hipótesis
H 0 : 1 =  2 = ..... =  k = 0 , se calcula el estadístico de prueba F0 y se rechaza H 0 si:
F0  F ,k ,n − k −1
21
El procedimiento de prueba se resume normalmente en una tabla de análisis de

varianza, como se muestra a continuación.
Fuente de Suma de Grados de Cuadros Valor de Sig
variación cuadrados libertad Medios F
Regresión SCR K CMR
Error SCE n-k-1 CME CM 
FC =
CME
Total SCT n-1

La suma de cuadrados de regresión (SCR) tienen K grados de libertad que es igual al
número de variables predictoras en el modelo. La suma de cuadrados del total (SCT) tiene
(n-1) grados de libertad, la suma de cuadrados de error (SCE) tiene (n-k-1)gl. Si la hipótesis
nula es cierta.
Una fórmula de cálculo para SCR se deduce partiendo de:
SCE = Y 'Y − ̂ ' X 'Y
ya que:
2 2
 n   n 
  Yi    Yi 
  = Y Y −  i =1 
n
SCT =  Y 2 i − i =1 '
i =1 n n
O bien,
SCE=SCT-SCR
Por consiguiente, la suma de cuadrados de la regresión es:
2
 n 
  Yi 
SCR =  X Y −  i =1 
ˆ ' '
n
La suma de cuadrados del error, o suma de residual de cuadrados es:
SCE = Y 'Y − ̂ ' X 'Y
Y la suma de cuadrados del total es:
2
 n ˆ
  Yi 
SCT = Y Y −  i =1 
'
22
COEFICIENTE DE DETERMINACION
El coeficiente de determinación R 2 proporciona la cantidad de variabilidad de Y que
explica las variables independientes y se obtiene:
 (Yˆ − Y )  (Yˆ − Y )
n 2 n 2
i i
SCR
R2 = = i =1
= i =1
 (Y −Y )
n
SCT 2 nS y2
i
i =1
Sin embargo, el coeficiente de correlación así definido tiene el problema, que al

incluir nuevas variables aumente su valor, incluso cuando esas variables no sean
significativas. Este problema hace que R 2 no se pueda utilizar como criterio valido para
incluir o excluir variables.
Para evitar este problema se define el coeficiente de determinación corregido por
grados de libertad, R 2 se define como:
(
R 2 = 1− 1− R2 ) n −n −k 1− 1
Este coeficiente R 2 no tiene los inconvenientes de R 2 ya que al introducir más
variables en el modelo no aumenta necesariamente su valor.
23

Regresion

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion

Cargado por

Copyright:

Formatos disponibles

Matemática Avanzada para Ingenieros Mgt. Rina M.

ANALISIS DE REGRESION Y CORRELACIÓN

Es importante recordar que el análisis de regresión es una parte de un método más

ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

El término regresión se utilizó por primera vez en el estudio de variables

En un análisis de regresión simple los valores de X y las magnitudes resultantes de Y se

El modelo matemático llamado también ajuste de curvas es una ecuación dada en un

El modelo probabilístico que relaciona Y con X es uno que contemple la variación

donde  0 y 1 son parámetros desconocidos de la porción determinística (no aleatoria) del

modelo y  0 + 1 x es el valor medio de Y para un X dado.

y pendiente igual a 1 llamado coeficiente de regresión.

ESTIMACIÓN DE LOS PARÁMETROS POR MÍNIMOS CUADRADOS

de la muestra. Él método de mínimos cuadrados para estimar  0 y 1 nos muestra que

La suma de los cuadrados de las desviaciones se denomina suma de cuadrados del

y a ŷ = ˆ0 + ˆ1 x , se le conoce como modelo de regresión muestral.

La recta de medias está dada por: E  y  =  0 + 1 x y se quiere estimar los valores de

 0 y 1 así encontrar la recta de mejor ajuste al conjunto de datos observados representado

El valor observado de Y es yi y el valor predicho se obtendrá sustituyendo xi .en la

y las desviaciones estándares del i-ésimo valor de y respecto a su valor predicho.

yˆi = ˆ0 + ˆ1 xi

esperado es igual a la predicción.

yi − yˆi = yi − ˆ0 + ˆ1 xi

̂ 0 y ̂ 0 luego igualándolas a cero para luego reducir el sistema lineal simultáneo de

despejando ˆ1 en (2), reemplazando por ̂ 0 se obtiene:

La diferencia entre el valor observado y i y el correspondiente valor ajustado ŷ i es

un residual. Matemáticamente el residual es:

ei = y i − ˆ0 − ˆ1 xi , con i=1, 2, 3,….,n .

Los residuales juegan un papel importante en la investigación del adecuado modelo

valores de Y, 1 ,  2 ,...,  n son variables aleatorias independientes distribuidos normalmente

Por lo tanto, el valor esperado de ˆ1 es:

Entonces demostramos que ˆ1 es un estimador insesgado de 1 .

Para calcular la varianza tenemos:

a la suma de las varianzas y como Var ( yi ) =  2 , se tiene:

PRUEBA DE HIPÓTESIS DE LOS PARÁMETROS.

No cambia cuando x cambia.

1.- Formular las hipótesis:

H1 : 1  0 Si existe relación lineal entre las variables

1.- Formular las hipótesis:

2.- Establecer el nivel de significación  .

4.- Establecer la Región Crítica

Fuente de Suma de Grados de Cuadros Valor de Sig

Error SCE n-2 CME =

Total SCT n-1

4.- Región crítica:

La razón CMR/CME proporciona una medida de exactitud del modelo ya que es la

ERROR ESTÁNDAR DE ESTIMACIÓN

El error estándar de estimación es denotado por SY.X y se calcula por medio:

Esta medida trata de resumir la disparidad entre lo observado y lo estimado, es decir,

Excelente 0.9 <= |r| < 1

Buena 0.8 <= |r| < 0.9

Regular 0.5 <= |r| <0.8

Mala |r|< 0.5

estrechamente vinculado con el análisis de regresión y ambos pueden ser considerados de

En el siguiente diagrama se resume la magnitud y la dirección de la correlación,

Correlación Correlación Correlación Correlación Correlación Correlación

- 1.00 - 0.50 0 + 0.50 + 1.00

Correlación negativa Correlación positiva

Para determinar el valor numérico del coeficiente de correlación de Pearson se utiliza

La correlación entre los valores de dos variables es un hecho. El que lo consideremos

Correlación positiva perfecta Correlación negativa perfecta

Correlación positiva fuerte Correlación cero

ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE