Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analisis de RegresionRes
Analisis de RegresionRes
La Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más
variables. En ocasiones se denomina a la variable dependiente (y) variable de respuesta y a la
variable independiente (x) variable de predicción.
En muchos problemas hay dos o más variables inherentemente relacionadas, y es necesario
explorar la naturaleza de esta relación. El análisis de regresión puede emplearse por ejemplo para
construir un modelo que exprese el rendimiento como una función de la temperatura. Este modelo
puede utilizarse luego para predecir el rendimiento en un nivel determinado de temperatura.
También puede emplearse con propósitos de optimización o control del proceso.
Comenzaremos con el caso más sencillo, la predicción de una variable (y) a partir de otra variable
(x).
a) Un actuario quiere predecir el monto del seguro de vida alcanzado por los maestros a partir de
sus salarios mensuales.
Solución: la variable dependiente o de respuesta, es el monto del seguro de vida alcanzado por
un maestro, y la variable independiente o variable de predicción es el salario anual del docente.
b) El gerente de un restaurante quiere estimar el número de clientes que puede esperar cierta
noche a partir del número de reservaciones para cenar recibidas hasta las 5:00 PM
Solución: El número de clientes es la variable de respuesta, el número de reservaciones es la
variable independiente.
Página 1
ANÁLISIS DE REGRESIÓN
Ejemplo 1:
La revista Motor Trend presenta con frecuencia datos de rendimiento para automóviles, que
compara el tamaño del motor en pulgadas cúbicas de desplazamiento (pcd) y las millas por galón
(mpg) estimadas para ocho modelos representativos de automóviles subcompactos modelo 1984.
Diagrama de dispersión
39
37
35
m 33
p 31
g 29
27
25
80 90 100 110 120 130
pcd
ddci
d
1
Estadística, Richard C.Weimer, CECSA, Segunda edición, 2000
Página 2
ANÁLISIS DE REGRESIÓN
Usamos el modelo probabilístico siguiente para explicar el comportamiento de los millajes para
las ocho medidas de tamaño de motor, este se llama modelo de regresión lineal, y expresa la
relación lineal entre tamaño de motor (x) y millas por galón (y).
y 0 1 x
Donde
y = variable dependiente
0 ordenada al origen
1 = pendiente
x = variable independiente
= Error aleatorio
La expresión 0 1 x se denomina componente determinística del modelo de regresión lineal.
La muestra de pares de datos se usará para estimar los parámetros 0 y 1 de la componente
determinística.
La diferencia principal entre un modelo pobabilístico y uno determinístico es la inclusión de un
término de error aleatorio en el modelo probabilístico. En el ejemplo los diferentes rendimientos
para un mismo tamaño de motor se atribuyen al término de error en el modelo de regresión.
Donde:
ŷ Valor predicho de ŷ para un valor particular de x.
b0 = Estimador puntual de 0 .(ordenada al origen)
b1= Estimador puntual de 1. (pendiente)
x 2
SS x x 2
y 2
SS y y 2
x y
SS xy xy
n
Página 3
ANÁLISIS DE REGRESIÓN
SS xy
b1
SS x
b0 y b1 x
Donde:
SS = suma de cuadrados
b1 = pendiente
b0 = ordenada al origen
n = número de pares de datos
En la tabla incluimos las sumatorias que utilizaremos para el cálculo de las fórmulas.
coches compactos tamaño del motor (pcd) x millas/galón (mpg), y x^2 y^2 xy
Chevrolet Cavalier 121 30 14641 900 3630
Datsun Nissan Stanza 120 31 14400 961 3720
Dodge Omni 97 34 9409 1156 3298
Ford Escort 98 27 9604 729 2646
Mazda 626 122 29 14884 841 3538
Plymouth Horizon 97 34 9409 1156 3298
Renault Alliance/Encore 85 38 7225 1444 3230
Toyota Corolla 122 32 14884 1024 3904
SUMAS 862 255 94456 8211 27264
Media 107.75 31.875
Calculando b0 y b1 tenemos:
SSx = 1575.50
SSy = 82.88
SSxy = -212.25
b1 = -0.13472
b0 = 46.39099
50 y =46.391 -0.1347x
40
30
Y
20
Y
10
Lineal (Y)
0
0 50 100 150
Variable X
Error
Página 4
ANÁLISIS DE REGRESIÓN
Residual
0 10
0 X=0.000
-10 -10
-20
-20 -30
-40 -3.0SL=-43.26
-50
-2 -1 0 1 2 0 5 10
Marcador Normal Número de Observación
Histograma - Histograma de Residuales Residuales vs. Ajustes
¿curva de 3 20
10
Frecuencia
campana? 2
Residual
¿Aleatorio
1 -10
Ignórese 0
-20
para grupos
-25 -20 -15 -10 -5 0 5 10 15 450 500
Ajuste
550 alrededor de
pequeños de cero, sin
Buscar
Buscarlas
lasinconsistencias
inconsistencias tendencias?
información
mayores
mayores
(<30)
Página 5
ANÁLISIS DE REGRESIÓN
Al usar el criterio de mínimos cuadrados para obtener la recta que mejor se ajuste a nuestros
datos, podemos obtener el valor mínimo para la suma de cuadrados del error (SSE)
SSE SS y b1 SS xy
2
A la varianza de los errores e se le llama varianza residual siendo denotada por s e , se encuentra
dividiendo SSE entre n-2
SSE
S e2
n2
Aplicando las fórmulas en obtenemos la suma de cuadrados del error, la varianza residual y el
error estándar de la estimación:
54.2849
S e2 9.0475
6
Se = 3.007
Ejemplo 2: Una firma de renta de coches recabó los datos adjuntos sobre los costos de
mantenimiento y, y las millas recorridas x para siete de sus automóviles.
Página 7
ANÁLISIS DE REGRESIÓN
SSx = 1154.86
SSy = 24207.71
SSxy = 5193.43
b1 = 4.4970
b0 =57.5567
SSE = 852.70
S e2 = 170.54
y = 57.5567 + 4.497x
a) b0 =57.5567
b) b1 = 4.4970
c) S e2 = 170.54
d) 57.5567 + 4.497(36) = 219.44 usd
e) 57.5567 + 4.497(29) = 187.96 usd
Donde:
SSE = Suma de cuadrados del error
SSR = Suma de cuadrados de la regresión
SSE = SSy-b1SSxy
SSR = b1SSy
Página 8
ANÁLISIS DE REGRESIÓN
Ejemplo 3: Para los datos del ejemplo 1 haga una prueba para determinar si 1 0 , usando
0.05
H 0 : 1 0
H 1 : 1 0
SSR 28.5901
F = 3.16
S e2 9.0475
b1
t , donde gl = n-2
Se SSx
Ejemplo 4: Usando los datos del ejemplo 1, haga una prueba para determinar si 1 0 usando la
prueba de t y 0.05 .
H 0 : 1 0
H 1 : 1 0
Página 9
ANÁLISIS DE REGRESIÓN
b1 0.1347
t = 1.7775
Se SSx 9.0475 1575.5
Los valores críticos t .025 para gl = 6 son 2.447 . Como –t.025 < t no rechazamos H 0 : 1 0 .
Por tanto no tenemos evidencia que sugiera que el modelo lineal es apropiado para nuestros datos.
Análisis de correlación
Establece si existe una relación entre las variables y responde a la pregunta,”¿Qué tan evidente es
esta relación?".
La correlación es una prueba fácil y rápida para eliminar factores que no influyen en la predicción,
para una respuesta dada.
Coeficiente de Correlación de Pearson
SSxy
r
SSxSSy
Página 10
ANÁLISIS DE REGRESIÓN
Ejemplo 5: En un esfuerzo por determinar la relación entre el pago anual de los empleados y el
número de faltas al trabajo por causa de enfermedad, una corporación grande estudió los registros
personales de una muestra de doce empleados. Los datos pareados aparecen en la siguiente
tabla.
Pago anual
Empleado (miles de dólares) Inasistencias
1 15.7 4
2 17.2 3
3 13.8 6
4 24.2 5
5 15 3
6 12.7 12
7 13.8 5
8 18.7 1
9 10.8 12
10 11.8 11
11 25.4 2
12 17.2 4
Página 11
ANÁLISIS DE REGRESIÓN
SSxy = -130.06667
SSx = 230.569167
SSy = 164.666667
SSxy
r = -0.6675
SSxSSy
Diagrama de dispersión
14
12
Inasistencias
10
8 Serie1
6 Lineal (Serie1)
4
2
0
0 5 10 15 20 25 30
Pago anual (miles usd)
Página 12
ANÁLISIS DE REGRESIÓN
Página 13
ANÁLISIS DE REGRESIÓN
Página 15
ANÁLISIS DE REGRESIÓN
Análisis de residuos: muestra los pronósticos y residuos para cada observación, así como
el gráfico de residuales, en el cual observamos inconsistencias ya que la mayoría de los
puntos se encuentran en la región positiva.
Página 17
ANÁLISIS DE REGRESIÓN
Ejemplo 6 Muchos programas de estudios premédicos usan los promedios de las calificaciones del
MCAT de los estudiantes egresados como un indicador de la calidad de sus programas. Las
variables que se sabe influencian esos promedios del MCAT(y) son: la combinación de las
calificaciones del SAT en matemáticas y en oratoria (x1) y el GPA (x2) de los prospectos a médicos.
La tabla muestra las medidas de x1, x2 y y de seis estudiantes que han cursado un programa de
premedicina y que han presentado el MCAT
Con esta información podemos encontrar una ecuación lineal que nos permita predecir el promedio
de calificaciones del MCAT para un estudiante si se conocen su GPA y su calificación combinada
del SAT.
La ecuación lineal para los datos del ejemplo tiene la forma yˆ b0 b1 x1 b2 x 2 . Es posible
encontrar los valores de b0, b1, y b2 usando el método de mínimos cuadrados, al igual que en el
método de regresión lineal simple. El método en este caso requiere resolver tres ecuaciones
lineales con tres incógnitas, estas ecuaciones, conocidas como ecuaciones normales, son:
y nb 0 b1 x1 b2 x 2
x y b x b x b x
1 0 1 1
2
1 2
2
2
x 2 y b0 x 2 b1 x1 x 2 b2 x 22
Página 18
ANÁLISIS DE REGRESIÓN
Suma de cuadrados
La suma total de cuadrados SST, se descompone en dos componentes: suma de cuadrados para
la regresión, y suma de cuadrados del error.
La suma de cuadrados para la regresión es aquella parte de la suma total de cuadrados que se
atribuye a las variables independientes. Mientras que la suma de cuadrados del error es aquella
porción de la suma de cuadrados total y que no se debe a las variables independientes, por ello se
llama suma de cuadrados del error.
y y
2
SST 12.9950
SSE y yˆ
2
2.2403
SSR SST SSE 10.7547
glT gl R gl E
glT n 1
gl R k
gl E n (k 1)
donde:
k = número de variables independientes
Página 19
ANÁLISIS DE REGRESIÓN
SSR 10.7547
MSR 5.3773
gl R 2
SSE 2.2403
MSE 0.7468
gl E 3
Donde:
MSR= Cuadrado medio de la regresión
MSE= Cuadrado medio del error.
Prueba de hipótesis
Para determinar si el modelo lineal describe adecuadamente los datos, se usa la prueba F.
Para los datos del ejemplo las hipótesis son:
H 0 : 1 2 0
H 1 : 1 0 o 2 0
MSR 5.3773
F 7.20
MSE 0.7468
SSR
R2
SST
10.7547
R2 0.8276 82.8%
12.995
Página 20
ANÁLISIS DE REGRESIÓN
Ejemplo 7 La tabla enlista el consumo de combustible en millas por galón bajo condiciones
normales de manejo, los pesos de los coches en libras y la capacidad del motor en cc
para seis coches deportivos modelo 1990.
Página 21
ANÁLISIS DE REGRESIÓN
Damos Clic en el Icono Graphs, y en la opción gráficos de residuos “residual plots” dejamos la
opción que el sistema da por de fault: “Regular”. y seleccionamos la opción residual vs. fits y
normal plot of residuals. También existen otras opciones de gráficos que podemos usar en caso de
ser necesario.
Página 22
ANÁLISIS DE REGRESIÓN
Regression Analysis
The regression equation is
C3 = 10,9 - 0,00050 C1 + 0,00270 C2
Analysis of Variance
Source DF SS MS F P
Regression 2 2,368 1,184 0,15 0,866
Residual Error 3 23,605 7,868
Total 5 25,973
Página 23
ANÁLISIS DE REGRESIÓN
Examinando el valor del estadístico F(F=0.15), que es significativo al nivel P = 0.866 concluimos
que el modelo no es adecuado para fines de predicciòn en un nivel 0.05
1
Normal Score
-1
-2 -1 0 1 2 3 4
Residual
2
Residual
-1
-2
17 18 19
Fitted Value
Analizando los gráficos anteriores, podemos observar en el grafico de probabilidad que las
observaciones aparentan ser normales. Sin embargo en el gráfico de residuales observamos una
tendencia ya que la mayoría de los puntos se encuentran a bajo del cero.
Página 24