Analisis de RegresionRes

ANÁLISIS DE REGRESIÓN
ANALISIS DE REGRESION LINEAL
La Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más
variables. En ocasiones se denomina a la variable dependiente (y) variable de respuesta y a la
variable independiente (x) variable de predicción.
En muchos problemas hay dos o más variables inherentemente relacionadas, y es necesario
explorar la naturaleza de esta relación. El análisis de regresión puede emplearse por ejemplo para
construir un modelo que exprese el rendimiento como una función de la temperatura. Este modelo
puede utilizarse luego para predecir el rendimiento en un nivel determinado de temperatura.
También puede emplearse con propósitos de optimización o control del proceso.
Comenzaremos con el caso más sencillo, la predicción de una variable (y) a partir de otra variable
(x).
REGRESIÓN LINEAL SIMPLE
Para las situaciones siguientes establezca cual es la variable dependiente y cual es la

independiente.
a) Un actuario quiere predecir el monto del seguro de vida alcanzado por los maestros a partir de
sus salarios mensuales.
Solución: la variable dependiente o de respuesta, es el monto del seguro de vida alcanzado por
un maestro, y la variable independiente o variable de predicción es el salario anual del docente.
b) El gerente de un restaurante quiere estimar el número de clientes que puede esperar cierta
noche a partir del número de reservaciones para cenar recibidas hasta las 5:00 PM
Solución: El número de clientes es la variable de respuesta, el número de reservaciones es la
variable independiente.
Supuestos para el modelo de regresión lineal1

1. Para cada valor de x, la variable aleatoria  se distribuye normalmente.
2. Para cada valor de x, la media o valor esperado de  es 0; esto es, E        0 .
3. Para cada valor de x, la varianza de  es la constante  2 (llamada varianza del error).
4. Los valores del término de error  son independientes.
5. Para un valor fijo de x, la distribución muestral de y es normal, porque sus valores dependen
de los de  .
6. Para un valor fijo x, es posible predecir el valor de y.

7. Para un valor fijo x, es posible estimar el valor promedio de y
Página 1
Ejemplo 1:
La revista Motor Trend presenta con frecuencia datos de rendimiento para automóviles, que
compara el tamaño del motor en pulgadas cúbicas de desplazamiento (pcd) y las millas por galón
(mpg) estimadas para ocho modelos representativos de automóviles subcompactos modelo 1984.
coches compactos tamaño del motor (pcd) x millas/galón (mpg), y

Chevrolet Cavalier 121 30
Datsun Nissan Stanza 120 31
Dodge Omni 97 34
Ford Escort 98 27
Mazda 626 122 29
Plymouth Horizon 97 34
Renault Alliance/Encore 85 38
Toyota Corolla 122 32
Graficando los datos de la tabla en el “diagrama de dispersión” podemos observar la colección de

los ocho pares de datos (x,y) como muestra de una población de pares, donde las medidas
pulgadas cúbicas de desplazamiento (pcd) “x” pueden tomar cualquier valor en el rango de valores
que se extiende de 85 a 122. Para cada pcd posible hay muchos millajes asociados con ella. Por
ejemplo para un tamaño del motor de 97 hay un gran número de millajes asociados, uno por cada
coche cuyo tamaño sea 97 pcd. Asumamos que existe una relación lineal para la población de
pares de datos de pcd y mpg. (Se entiende por relación lineal cuando la variable y tiene una
tendencia a crecer o decrecer, cuando la variable x aumenta).
Diagrama de dispersión
39
37
35
m 33
p 31
g 29
27
25
80 90 100 110 120 130
pcd
ddci
d
1
Estadística, Richard C.Weimer, CECSA, Segunda edición, 2000
Página 2
Usamos el modelo probabilístico siguiente para explicar el comportamiento de los millajes para
las ocho medidas de tamaño de motor, este se llama modelo de regresión lineal, y expresa la
relación lineal entre tamaño de motor (x) y millas por galón (y).
Modelo de regresión lineal
y   0  1 x  
Donde
y = variable dependiente
 0  ordenada al origen
 1 = pendiente
x = variable independiente
 = Error aleatorio
La expresión  0   1 x se denomina componente determinística del modelo de regresión lineal.
La muestra de pares de datos se usará para estimar los parámetros  0 y 1 de la componente
determinística.
La diferencia principal entre un modelo pobabilístico y uno determinístico es la inclusión de un
término de error aleatorio en el modelo probabilístico. En el ejemplo los diferentes rendimientos
para un mismo tamaño de motor se atribuyen al término de error en el modelo de regresión.
Cálculo de la ecuación de regresión

También es llamada ecuación de predicción de mínimos cuadrados. La ecuación de regresión
estimada es: yˆ  b0  b1 x.
Donde:
ŷ  Valor predicho de ŷ para un valor particular de x.
b0 = Estimador puntual de  0 .(ordenada al origen)
b1= Estimador puntual de  1. (pendiente)
Para el cálculo de b0 y b1 se utilizamos las siguientes fórmulas:
  x 2
SS x   x  2
 y 2
SS y   y  2
  x   y 
SS xy   xy 
n
Página 3
SS xy
b1 
SS x
b0  y  b1 x
Donde:
SS = suma de cuadrados
b1 = pendiente
b0 = ordenada al origen
n = número de pares de datos
En la tabla incluimos las sumatorias que utilizaremos para el cálculo de las fórmulas.
coches compactos tamaño del motor (pcd) x millas/galón (mpg), y x^2 y^2 xy
Chevrolet Cavalier 121 30 14641 900 3630
Datsun Nissan Stanza 120 31 14400 961 3720
Dodge Omni 97 34 9409 1156 3298
Ford Escort 98 27 9604 729 2646
Mazda 626 122 29 14884 841 3538
Plymouth Horizon 97 34 9409 1156 3298
Renault Alliance/Encore 85 38 7225 1444 3230
Toyota Corolla 122 32 14884 1024 3904
SUMAS 862 255 94456 8211 27264
Media 107.75 31.875
Calculando b0 y b1 tenemos:
SSx = 1575.50
SSy = 82.88
SSxy = -212.25
b1 = -0.13472
b0 = 46.39099
La ecuación de predicción de mínimos cuadrados es:

yˆ  b0  b1 x. => yˆ  46.39099  0.37472 x
Gráfica de la ecuación de regresión
50 y =46.391 -0.1347x
40
30
Y
20
Y
10
Lineal (Y)
0
0 50 100 150
Variable X
Error
Página 4
Los errores se denominan frecuentemente residuales. Podemos observar en la gráfica de

regresión los errores indicados por segmentos verticales.
¿Qué tan normales ¿Residuales individuales -

son los residuales? tendencias; o separados?
Diagnóstico del Modelo de Residuales
Gráfica Normal de Residuales Tabla de Residuales
20 50 3.0SL=43.26
40
10 30
20
Residual
Residual
0 10
0 X=0.000
-10 -10
-20
-20 -30
-40 -3.0SL=-43.26
-50
-2 -1 0 1 2 0 5 10
Marcador Normal Número de Observación
Histograma - Histograma de Residuales Residuales vs. Ajustes
¿curva de 3 20
10
Frecuencia
campana? 2
Residual
¿Aleatorio
1 -10
Ignórese 0
-20
para grupos
-25 -20 -15 -10 -5 0 5 10 15 450 500
Ajuste
550 alrededor de
pequeños de cero, sin
Buscar
Buscarlas
lasinconsistencias
inconsistencias tendencias?
información
mayores
mayores
(<30)
Página 5
Al usar el criterio de mínimos cuadrados para obtener la recta que mejor se ajuste a nuestros
datos, podemos obtener el valor mínimo para la suma de cuadrados del error (SSE)
SSE  SS y  b1 SS xy
2
A la varianza de los errores e se le llama varianza residual siendo denotada por s e , se encuentra
dividiendo SSE entre n-2
SSE
S e2 
n2
La raíz cuadrada positiva de la varianza residual se llama error estándar de estimación y se

denota por Se.
Aplicando las fórmulas en obtenemos la suma de cuadrados del error, la varianza residual y el
error estándar de la estimación:
SSE = 82.88-(-0.13472)(-212.25) =54.2849
54.2849
S e2   9.0475
6
Se = 3.007
Ejemplo 2: Una firma de renta de coches recabó los datos adjuntos sobre los costos de
mantenimiento y, y las millas recorridas x para siete de sus automóviles.
Automóvil Millas recorridas x Costos de manteni-

en miles miento y (dólares)
A 55 299
B 27 160
C 36 215
D 42 255
E 65 350
F 48 275
G 29 207
Encuentre:
a) Una estimación puntual para  0 .

b) Una estimación puntual para  1.
c) Una estimación puntual para la varianza del error  2 .
d) Una estimación puntual para el costo promedio del mantenimiento de un coche con 36,000
millas recorridas.
e) Prediga el costo para un coche con 29,000 millas recorridas.
Automóvil x y x^2 y^2 xy

A 55 299 3025 89401 16445
B 27 160 729 25600 4320
C 36 215 1296 46225 7740
D 42 255 1764 65025 10710
E 65 350 4225 122500 22750
F 48 275 2304 75625 13200
G 29 207 841 42849 6003
Suma 302 1761 14184 467225 81168
Media 43.14 251.57
Página 7
SSx = 1154.86
SSy = 24207.71
SSxy = 5193.43
b1 = 4.4970
b0 =57.5567
SSE = 852.70
S e2 = 170.54
y = 57.5567 + 4.497x
a) b0 =57.5567
b) b1 = 4.4970
c) S e2 = 170.54
d) 57.5567 + 4.497(36) = 219.44 usd
e) 57.5567 + 4.497(29) = 187.96 usd
Inferencias sobre el modelo de regresión lineal.
Para usar la ecuación de regresión yˆ   0   1 x , con propósitos de predicción, queremos estar

razonablemente seguros de que la pendiente 1 de la ecuación de regresión
E  y x    0   1 x no es cero. Ya que si  1  0 , entonces para cualquier valor de x, E  y x 
sería idéntica a  0 , como se muestra en la figura. Siendo este el caso el modelo no sería
apropiado.
Con el propósito de determinar si la pendiente de la regresión poblacional es diferente de cero,

separemos SSy en dos componentes, SSE y SSR.
Tenemos la siguiente relación:
SSy = SSE + SSR
Donde:
SSE = Suma de cuadrados del error
SSR = Suma de cuadrados de la regresión
SSE = SSy-b1SSxy
SSR = b1SSy
Página 8
Prueba de hipótesis utilizando la distribución F

Si fuera cierta H 0 :  1  0 , el estadístico F serviría como estadístico de prueba: F está definido
como:
SSR
F
S e2
Con gl = (1,n-2), se puede usar el estadístico F para determinar si  1 es diferente de cero. Si la

pendiente de la ecuación de regresión poblacional es diferente de cero, entonces la ecuación se
puede usar con propósitos de predicción.
Ejemplo 3: Para los datos del ejemplo 1 haga una prueba para determinar si  1  0 , usando
  0.05
H 0 : 1  0
H 1 : 1  0
En el ejemplo 1 y 2 obtuvimos los siguientes valores:

SSxy = -212.25
b1 = -0.13472
S e2  9.0475
La suma de cuadrados para la regresión SSR se calcula mediante:

SSR = b1SSxy = (-212.25)(-0.1347) =28.5901
Hallamos el estadístico de prueba F:
SSR 28.5901
F =  3.16
S e2 9.0475
Se encuentra el valor crítico F (1, n  2)  F0.05(1,6) = 5.99. Como F = 3.16<5.99, no

rechazamos H 0 :  1  0 . Concluimos que la ecuación yˆ  46.3889  0.1347 x no debe usarse
con propósitos de predicción, y no tenemos evidencia que apoye que el modelo lineal es correcto
para nuestros datos.
Prueba de hipótesis utilizando la distribución t
Otra manera de realizar la prueba de hipótesis H 0 :  1  0 es usando la distribución t.
El estadístico de prueba es:
b1
t , donde gl = n-2
Se SSx
Ejemplo 4: Usando los datos del ejemplo 1, haga una prueba para determinar si  1  0 usando la
prueba de t y   0.05 .
H 0 : 1  0
H 1 : 1  0
Página 9
b1  0.1347
t =  1.7775
Se SSx 9.0475 1575.5
Los valores críticos  t .025 para gl = 6 son  2.447 . Como –t.025 < t no rechazamos H 0 :  1  0 .
Por tanto no tenemos evidencia que sugiera que el modelo lineal es apropiado para nuestros datos.
Análisis de correlación
Establece si existe una relación entre las variables y responde a la pregunta,”¿Qué tan evidente es
esta relación?".
La correlación es una prueba fácil y rápida para eliminar factores que no influyen en la predicción,
para una respuesta dada.
Coeficiente de Correlación de Pearson
 Es una medida de la fuerza de la relación lineal entre dos variables x y y.

 Es un número entre -1 y 1
 Un valor positivo indica que cuando una variable aumenta, la otra variable aumenta
 Un valor negativo indica que cuando una variable aumenta, la otra disminuye
 Si las dos variables no están relacionadas, el coeficiente de correlación se aproxima a 0.
El coeficiente de correlación r se calcula mediante la siguiente fórmula:
SSxy
r
SSxSSy
Página 10
Ejemplo 5: En un esfuerzo por determinar la relación entre el pago anual de los empleados y el
número de faltas al trabajo por causa de enfermedad, una corporación grande estudió los registros
personales de una muestra de doce empleados. Los datos pareados aparecen en la siguiente
tabla.
Pago anual
Empleado (miles de dólares) Inasistencias
1 15.7 4
2 17.2 3
3 13.8 6
4 24.2 5
5 15 3
6 12.7 12
7 13.8 5
8 18.7 1
9 10.8 12
10 11.8 11
11 25.4 2
12 17.2 4
Página 11
Determine el coeficiente de correlación e interprete el resultado.
Empleado x y x^2 y^2 xy

1 15.7 4 246.49 16 62.8
2 17.2 3 295.84 9 51.6
3 13.8 6 190.44 36 82.8
4 24.2 5 585.64 25 121.0
5 15 3 225.00 9 45.0
6 12.7 12 161.29 144 152.4
7 13.8 5 190.44 25 69.0
8 18.7 1 349.69 1 18.7
9 10.8 12 116.64 144 129.6
10 11.8 11 139.24 121 129.8
11 25.4 2 645.16 4 50.8
12 17.2 4 295.84 16 68.8
SUMATORIA 196.3 68 3441.71 550 982.3
SSxy = -130.06667
SSx = 230.569167
SSy = 164.666667
SSxy
r = -0.6675
SSxSSy
Diagrama de dispersión
14
12
Inasistencias
10
8 Serie1
6 Lineal (Serie1)
4
2
0
0 5 10 15 20 25 30
Pago anual (miles usd)
En el diagrama de dispersión observamos que al aumentar x, y disminuye, por lo cual la

correlación es negativa. Comparando el coeficiente de correlación calculado, con la tabla de
correlaciones observamos que .66 > .58, por lo cual la correlación entre las variables es fuerte.
Página 12
Regresión lineal en Excel

Mediante el uso de análisis de datos resolveremos el Ejemplo 1.
Seleccione: herramientas > análisis de datos > regresión
En la ventana seleccione el rango de entrada para X y Y, el rango de salida y seleccione la opción:
gráfico de residuales y curva de regresión ajustada.
Página 13
Página 15
Análisis de resultados de la tabla de Excel:
Analizando los resultados de Excel, tenemos los siguiente:
 En la sección Estadísticas de la regresión vemos que el coeficiente de correlación = .5873

comparando este valor con la tabla de correlaciones observamos que el valor .5873 < .71
lo cual indica una relación débil entre las variables. En la gráfica “de regresión ajustada”
observamos que la correlación es negativa ya que al aumentar X, Y disminuye; Cabe
mencionar que el coeficiente de correlación calculado por el sistema siempre es positivo,
por lo cual debemos basarnos la gráfica de regresión para determinar el signo.
 Ecuación de la regresión: Para obtener la ecuación de regresión usamos los coeficientes

de los renglones Intercepción y variable X1, estos son 46.3909 y – 0.1347
respectivamente, siendo la ecuación de regresión: y = 46.3909- 0.1347X 1.
 Análisis de Varianza: La tabla muestra la suma de cuadrados de la regresión SSR =
28.5901, la suma de cuadrados de los residuos o error SSE = 54.2806, El promedio de
2
los cuadrados de la regresión que es la varianza residual S e = 9.0468 . El sistema calcula
2
el valor de F dividiendo SSR/ S e como ya se trato anteriormente. El valor crítico F es
menor que el valor F (0.125< 3.16), por lo que no tenemos evidencia para rechazar la H 0:
 1  0 , en consecuencia el modelo de regresión no es apropiado.
 Análisis de residuos: muestra los pronósticos y residuos para cada observación, así como
el gráfico de residuales, en el cual observamos inconsistencias ya que la mayoría de los
puntos se encuentran en la región positiva.
ANÁLISIS DE REGRESIÓN MULTIPLE
Página 17
En ocasiones la información de una variable independiente no es suficiente, por ejemplo en el caso

de los autos compactos además de tener la variable del tamaño del motor, podríamos tener otras
variables, que nos permitan tener mayor información como por ejemplo el peso del coche, el tipo
de recorrido, el tamaño de las llantas, estos factores también influyen sobre la razón del consumo
de gasolina.
Cuando se usa más de una variable independiente para predecir los valores de una variable
dependiente, el proceso se llama análisis de regresión múltiple, incluye el uso de ecuaciones
lineales y no lineales, en este estudio nos ocuparemos de las ecuaciones de regresión lineales.
Ejemplo 6 Muchos programas de estudios premédicos usan los promedios de las calificaciones del
MCAT de los estudiantes egresados como un indicador de la calidad de sus programas. Las
variables que se sabe influencian esos promedios del MCAT(y) son: la combinación de las
calificaciones del SAT en matemáticas y en oratoria (x1) y el GPA (x2) de los prospectos a médicos.
La tabla muestra las medidas de x1, x2 y y de seis estudiantes que han cursado un programa de
premedicina y que han presentado el MCAT
Calificación Calificación pro-

Estudiante SAT (X1) GPA (X2) medio del MCAT (Y)
1 1200 3.8 12.4
2 1350 3.4 13.3
3 1000 2.9 9.2
4 1250 3.3 10.6
5 1425 3.9 13.2
6 1340 3.1 11.2
Con esta información podemos encontrar una ecuación lineal que nos permita predecir el promedio
de calificaciones del MCAT para un estudiante si se conocen su GPA y su calificación combinada
del SAT.
La ecuación lineal para los datos del ejemplo tiene la forma yˆ  b0  b1 x1  b2 x 2 . Es posible
encontrar los valores de b0, b1, y b2 usando el método de mínimos cuadrados, al igual que en el
método de regresión lineal simple. El método en este caso requiere resolver tres ecuaciones
lineales con tres incógnitas, estas ecuaciones, conocidas como ecuaciones normales, son:
 y  nb 0  b1   x1   b2   x 2 
 x y  b  x   b  x   b  x 
1 0 1 1
2
1 2
2
2
x 2 y  b0   x 2   b1   x1 x 2   b2   x 22 
Página 18
La siguiente tabla organiza los cálculos para obtener las ecuaciones:
X1 X2 Y X1^2 X2^2 X1X2 X1Y X2Y

1200 3.8 12.4 1440000 14.44 4560 14880 47.12
1350 3.4 13.3 1822500 11.56 4590 17955 45.22
1000 2.9 9.2 1000000 8.41 2900 9200 26.68
1250 3.3 10.6 1562500 10.89 4125 13250 34.98
1425 3.9 13.2 2030625 15.21 5557.5 18810 51.48
1340 3.1 11.2 1795600 9.61 4154 15008 34.72
7565 20.4 69.9 9651225 70.12 25886.5 89103 240.2
Las ecuaciones normales para este ejemplo son:
69.9  6b0  7,565b1  20.4b2

89,103  7565b0  9,651,225b1  25,886.5b2
240.2  20.4b0  25,886.5b1  70.12b2
Resolviendo el sistema de ecuaciones lineales obtenemos:
b0 = -2.537, b1=0.005425, b2 = 2.161.
La ecuación de regresión es:
yˆ  2.537  0.005425 x1  2.161x 2
Suma de cuadrados
La suma total de cuadrados SST, se descompone en dos componentes: suma de cuadrados para
la regresión, y suma de cuadrados del error.
SST = SSR + SSE
La suma de cuadrados para la regresión es aquella parte de la suma total de cuadrados que se
atribuye a las variables independientes. Mientras que la suma de cuadrados del error es aquella
porción de la suma de cuadrados total y que no se debe a las variables independientes, por ello se
llama suma de cuadrados del error.
 y  y
2
SST   12.9950
SSE    y  yˆ 
2
 2.2403
SSR  SST  SSE  10.7547
Grados de libertad para la regresión:
glT  gl R  gl E
glT  n  1
gl R  k
gl E  n  (k  1)
donde:
k = número de variables independientes
Cálculo de cuadrados medios:
Página 19
SSR 10.7547
MSR    5.3773
gl R 2
SSE 2.2403
MSE    0.7468
gl E 3
Donde:
MSR= Cuadrado medio de la regresión
MSE= Cuadrado medio del error.
Prueba de hipótesis
Para determinar si el modelo lineal describe adecuadamente los datos, se usa la prueba F.
Para los datos del ejemplo las hipótesis son:
H 0 : 1   2   0
H 1 : 1  0 o  2  0
El valor del estadístico F se encuentra dividiendo MSR entre MSE.
MSR 5.3773
F   7.20
MSE 0.7468
Buscando el valor crítico para F (1, n  2)  F0.05 1,4  =7.71.

Como 7.71 > 7.20 no podemos rechazar H0, lo cual nos indica que podría ser arriesgado utilizar la
ecuación de regresión con propósitos predictivos.
Coeficiente de determinación múltiple
SSR
R2 
SST
Utilizando los datos del ejemplo:
10.7547
R2   0.8276  82.8%
12.995
Esto significa que aproximadamente el 83% de la variación en el promedio de las calificaciones se

atribuye a la variación de las variables independientes y solamente el 17% de la variación de la
variable dependiente no se atribuye a eso.
Regresión múltiple en Minitab
Página 20
Ejemplo 7 La tabla enlista el consumo de combustible en millas por galón bajo condiciones
normales de manejo, los pesos de los coches en libras y la capacidad del motor en cc
para seis coches deportivos modelo 1990.
Coche deportivo Capacidad Pes o Cons umo

Chevrolet 5735 3330 17,9
Kagiar XJ-S 5344 4015 18,7
Mercedes-Benz 500 SL 2174 2865 16,5
Pors che 911 3600 3320 17
Mas errati 228 2790 3020 15,5
BMW 325i 2494 3100 22
a) Determine una ecuación de regresión para predecir el promedio de consumo de

combustible usando la capacidad del motor y el peso, y calcule el coeficiente de
determinación R2.
Una vez capturados los datos de las variables en Minitab seleccionamos

STAT>REGRESIÓN>REGRESIÓN y se presenta la siguiente pantalla
Seleccionamos la variable de respuesta (response) que corresponde a la Columna 3 C3, y las

variables de predicción (predictors): C1 y C2.
Página 21
Damos Clic en el Icono Graphs, y en la opción gráficos de residuos “residual plots” dejamos la
opción que el sistema da por de fault: “Regular”. y seleccionamos la opción residual vs. fits y
normal plot of residuals. También existen otras opciones de gráficos que podemos usar en caso de
ser necesario.
Página 22
En la opción Resultados “Results” seleccionamos el circulo: Regresión equation....
Damos clic en ok.
Regression Analysis
The regression equation is
C3 = 10,9 - 0,00050 C1 + 0,00270 C2
Predictor Coef StDev T P

Constant 10,91 12,90 0,85 0,460
C1 -0,000496 0,001329 -0,37 0,734
C2 0,002702 0,004982 0,54 0,625
S = 2,805 R-Sq = 9,1% R-Sq(adj) = 0,0%
Analysis of Variance
Source DF SS MS F P
Regression 2 2,368 1,184 0,15 0,866
Residual Error 3 23,605 7,868
Total 5 25,973
Analizando los resultados tenemos:
De la tabla resultante podemos determinar que la ecuación de Regresión es Y = 10.9 –

0.00050X1+.00270X2
Donde X1 representa el tamaño del motor (capacidad) y X2 el peso del coche, Y representa el
rendimiento predicho para el consumo del combustible.
El coeficiente de determinación R-Sq o R2 es 9.1% y esto indica que el 9.1% de la variación en el
consumo de combustible se atribuye a la capacidad y al peso. El 90.9% no se atribuye a estas
variables.
Página 23
Examinando el valor del estadístico F(F=0.15), que es significativo al nivel P = 0.866 concluimos
que el modelo no es adecuado para fines de predicciòn en un nivel   0.05
Normal Probability Plot of the Residuals

(response is C3)
1
Normal Score
-1
-2 -1 0 1 2 3 4
Residual
Residuals Versus the Fitted Values

(response is C3)
2
Residual
-1
-2
17 18 19
Fitted Value
Analizando los gráficos anteriores, podemos observar en el grafico de probabilidad que las
observaciones aparentan ser normales. Sin embargo en el gráfico de residuales observamos una
tendencia ya que la mayoría de los puntos se encuentran a bajo del cero.
Página 24

Analisis de RegresionRes

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analisis de RegresionRes

Cargado por

Copyright:

Formatos disponibles

ANÁLISIS DE REGRESIÓN

ANALISIS DE REGRESION LINEAL

REGRESIÓN LINEAL SIMPLE

Para las situaciones siguientes establezca cual es la variable dependiente y cual es la

Supuestos para el modelo de regresión lineal1

6. Para un valor fijo x, es posible predecir el valor de y.

coches compactos tamaño del motor (pcd) x millas/galón (mpg), y

Graficando los datos de la tabla en el “diagrama de dispersión” podemos observar la colección de

Modelo de regresión lineal

Cálculo de la ecuación de regresión

Para el cálculo de b0 y b1 se utilizamos las siguientes fórmulas:

La ecuación de predicción de mínimos cuadrados es:

Gráfica de la ecuación de regresión

Los errores se denominan frecuentemente residuales. Podemos observar en la gráfica de

¿Qué tan normales ¿Residuales individuales -

La raíz cuadrada positiva de la varianza residual se llama error estándar de estimación y se

SSE = 82.88-(-0.13472)(-212.25) =54.2849

Automóvil Millas recorridas x Costos de manteni-

a) Una estimación puntual para  0 .

Automóvil x y x^2 y^2 xy

Inferencias sobre el modelo de regresión lineal.

Para usar la ecuación de regresión yˆ   0   1 x , con propósitos de predicción, queremos estar

Con el propósito de determinar si la pendiente de la regresión poblacional es diferente de cero,

Prueba de hipótesis utilizando la distribución F

Con gl = (1,n-2), se puede usar el estadístico F para determinar si  1 es diferente de cero. Si la

En el ejemplo 1 y 2 obtuvimos los siguientes valores:

La suma de cuadrados para la regresión SSR se calcula mediante:

Hallamos el estadístico de prueba F:

Se encuentra el valor crítico F (1, n  2)  F0.05(1,6) = 5.99. Como F = 3.16<5.99, no

Prueba de hipótesis utilizando la distribución t

Otra manera de realizar la prueba de hipótesis H 0 :  1  0 es usando la distribución t.

El estadístico de prueba es:

 Es una medida de la fuerza de la relación lineal entre dos variables x y y.

El coeficiente de correlación r se calcula mediante la siguiente fórmula:

Determine el coeficiente de correlación e interprete el resultado.

Empleado x y x^2 y^2 xy

En el diagrama de dispersión observamos que al aumentar x, y disminuye, por lo cual la

Regresión lineal en Excel

Análisis de resultados de la tabla de Excel:

Analizando los resultados de Excel, tenemos los siguiente:

 En la sección Estadísticas de la regresión vemos que el coeficiente de correlación = .5873

 Ecuación de la regresión: Para obtener la ecuación de regresión usamos los coeficientes

ANÁLISIS DE REGRESIÓN MULTIPLE

En ocasiones la información de una variable independiente no es suficiente, por ejemplo en el caso

Calificación Calificación pro-

La siguiente tabla organiza los cálculos para obtener las ecuaciones:

X1 X2 Y X1^2 X2^2 X1X2 X1Y X2Y

Las ecuaciones normales para este ejemplo son:

69.9  6b0  7,565b1  20.4b2

Resolviendo el sistema de ecuaciones lineales obtenemos:

b0 = -2.537, b1=0.005425, b2 = 2.161.

La ecuación de regresión es:

yˆ  2.537  0.005425 x1  2.161x 2

SST = SSR + SSE

Grados de libertad para la regresión:

Cálculo de cuadrados medios:

El valor del estadístico F se encuentra dividiendo MSR entre MSE.

Buscando el valor crítico para F (1, n  2)  F0.05 1,4  =7.71.

Coeficiente de determinación múltiple

Utilizando los datos del ejemplo:

Esto significa que aproximadamente el 83% de la variación en el promedio de las calificaciones se

Regresión múltiple en Minitab

Coche deportivo Capacidad Pes o Cons umo