Está en la página 1de 18

INTRODUCCIN

Como la Estadstica Inferencial nos permite trabajar con una variable a nivel de
intervalo o razn, as tambin se puede comprender la relacin de dos o ms variables
y nos permitir relacionar mediante ecuaciones, una variable en relacin de la otra
variable llamndose Regresin Lineal y una variable en relacin a otras variables
llamndose Regresin mltiple.
Casi constantemente en la prctica de la investigacin estadstica, se encuentran
variables que de alguna manera estn relacionados entre s, por lo que es posible que
una de las variables puedan relacionarse matemticamente en funcin de otra u otras
variables.
La Regresin se define como un procedimiento mediante el cual se trata de determinar
si existe o no relacin de dependencia entre dos o ms variables. Es decir, conociendo
los valores de una variable independiente, se trata de estimar los valores, de una o
ms variables dependientes.
La regresin en forma grfica, trata de lograr que una dispersin de las frecuencias sea
ajustada a una lnea recta o curva.
Como sabemos la estadstica inferencial es muy importante en nuestra vida cotidiana
ya que veremos los dos tipos de estadstica ya sea descriptiva o inferencial y cul es su
importancia y abarca lo que son los tipos de regresiones lineales que a continuacin
vamos a ver.

REGRESIN LINEAL SIMPLE


El anlisis de regresin es una tcnica estadstica para investigar la relacin funcional
entre dos o ms variables, ajustando algn modelo matemtico. La regresin lineal
simple utiliza una sola variable de regresin y el caso ms sencillo es el modelo de
lnea recta.
En muchos problemas hay dos o ms variables inherentes relacionados, y es necesario
explorar la naturaleza de esta relacin. El anlisis de regresin es una tcnica
estadstica para modelar e investigar la relacin entre dos o ms variables.
Deseamos determinar la relacin entre una sola variable regresiva X y una variable de
repuesto Y. La variable regresiva X se supone como una variable matemtica continua,
controlable por el experimentador. Supngase que la verdadera relacin entre Y y X es
una lnea recta, y que la observacin Y en cada nivel de X es una variable aleatoria.
Luego, el valor esperado de Y para cada valor de X es:
EC.1
E Y X 0 1 X
Donde:
La ordenada de origen 0 y la pendiente 1 son constantes desconocidas.
Suponemos que cada observacin Y, puede describirse mediante el modelo siguiente:
EC.2
Y 0 1X E
Donde:
E = error aleatorio con media cero y varianza 2 .
Por medio del mtodo de mnimos cuadrados estimaremos 0 y 1 de manera que la
suma de los cuadrados de las desviaciones entre las observaciones y la lnea de
regresin sean mnimas.
Empleando la EC. 2, podemos escribir:
Yi 0 1 Xi Ei
i=1,2,3,,n
EC.3
Y la suma de los cuadrados de las desviaciones de las observaciones respecto a la lnea
de regresin verdadera es:
n

L Ei 2
i 1

(Y
i

i 1

1X 1)

EC.4

Los estimadores de mnimos cuadrados de 0 y 1, digamos deben satisfacer:


n

L
| 0 1 2 (Y 1 0 i X i ) 0
0
i 1
n

L
| 0 1 2 (Y 1 0 i X i ) X 1 0
0
i 1
La simplificacin de estas dos ecuaciones produce:

n 0 X i

EC.6

i 1

0 X 1 1 x1 y
i 1

EC.5

i 1

Las ecuaciones 6 se denominan ecuaciones normales de mnimos cuadrados.

La solucin para la ecuacin normal es:

0 y 1 x

EC.7

Y X

I 1

i 1

i 1

i 1

Y X

2
i

X
i

EC.8

i 1

Donde:

_
1 n
1 n
Y
i
Y
X

X1
n i 1
n i 1

Por lo tanto, las ecuaciones 7 y 8 son los estimadores por mnimos cuadrados, de la
ordenada al origen y la pendiente, respectivamente. El modelo de regresin lineal
simple ajustado es:

EC.9

y 0 1 X

DIAGRAMA DE DISPERSIN
RENDIMIENTO

120
100
80
60
40
20
Respecto a la 0notacin, es conveniente dar smbolos especiales al numerador y al
denominador de la
8, esto es: 100
0 ecuacin 50
150
200

Sxx X i X

i 1
n

Xi

Sxy Yi ( Xi X ) XiYi
i 1

i 1

EC.10

i 1

i 1

Xi

TEMPERATURA
2

Xi Yi
i 1

i 1

EC.11

Llamaremos a Sxx la suma corregidora de cuadrados de x y a Sxy la suma


corregida de productos cruzados de x y y. Los datos del extremo derecho de
las ecuaciones 10 y 11 son las frmulas de cmputo usuales.
Al emplear esta nueva notacin, el estimador de mnimos cuadrados de la pendiente
es:

Sxy
Sxx

Ejemplo 1:

EC.12

Un ingeniero qumico est investigando el efecto de la temperatura de


operacin de proceso en el rendimiento del producto. El estudio da como
resultado los siguientes datos:
Temperatura
C X
100
110
120
130
140
150
160
170
180
190
1450

Rendimiento
% Y
45
51
54
61
66
70
74
78
85
89
673

Xj2
10000
12100
14400
16900
19600
22500
25600
28900
32400
36100
218500

XjYj
4500
5610
6480
7930
9240
10500
11840
13260
15300
16910
101570

Yj2
2025
2601
2916
3721
4356
4900
5476
6084
7225
7921
47225

El examen de este diagrama de dispersin indica que hay una fuerte relacin entre el
rendimiento y la temperatura, y la suposicin tentativa del modelo de lnea recta
y 0 1 X E parece razonable.
n = 10
10

10

1450

x 145
10

X
j 1

673

j 1

j 1

2
j

y 67.3

218500

10

Y
j 1

10

XY

j j

2
j

47225

101570

j 1

Sustituyendo en EC.10 y EC.11

10

Sxx X
2
j

j 1

10

Sxx 218500

X
j

j 1

1450 2
10

218500 210250 8250

10

10

10

Sxy XjYj

10

X Y
j

j 1
10
j 1

1450 673
Sxy 101570
101570 97585 3985
10
j 1

Los estimadores de mnimos cuadrados de la pendiente y la ordenada al origen son:

Sxy
Sxx

3985
0.483030303
8250

0 y 1 x 67.3 (0.483030303)(145) 67.3 70.03935 2.73939


El modelo de regresin lineal simple ajustado es:

y 0 1 X 2.73939 0.48303 X

Suele ser necesario obtener una estimacin de . La diferencia entre la observacin

Yj y el correspondiente valor predicho Y j

, la diferencia digamos ej = Yj - Y j

denomina un residuo. La suma de los cuadrados de los residuos, o la


cuadrados del error, sera:
n

SSE =

j 1

, se

suma

de

ej

SSE

j 1

(Yj

2
Y j)

EC. 14
Una frmula de clculo ms conveniente para SSE puede encontrarse sustituyendo el

modelo ajustado
_

2
Yj )

Y
1 X j
en la EC.
14 0ysimplificando
considerando que

j 1

(Yj

entonces podemos escribir SSE como:

SSE = Syy - 1 Sxy

EC. 15

El valor esperado de la suma de cuadrados del error E(SSE) = (n-2), por lo tanto:
2

SS E
MS E el cual es un estimador de .
n2

PRUEBA DE HIPTESIS EN LA REGRESIN LINEAL SIMPLE.


Una parte importante de la evaluacin de la suficiencia del modelo de regresin lineal
simple es la prueba de hiptesis estadstica en torno a los parmetros del modelo y la
construccin de ciertos intervalos de confianza. Para probar la hiptesis con respecto a

la pendiente y la ordenada al origen del modelo de regresin, debemos de hacer la


suposicin adicional de que la componente del error ej se distribuye normalmente.
Por consiguiente, las suposiciones completas son que los errores son NIP (0, 2).
Despus analizaremos como pueden verificarse estas suposiciones mediante el anlisis
residual.
Supngase que deseamos probar la hiptesis de que la pendiente es igual a una
constante, digamos (1, 0 ) , las hiptesis apropiadas son:

H 0 : 1 (1,0 )

EC. 16

H 1 : 1 (1, 0 )
Donde hemos supuesto una alternativa de dos lados (bilateral). Como resultado de la
suposicin de normalidad, el estadstico es:

t0

1 (1,0)

EC. 17

MS E
Sxx

Sigue la distribucin t con n-2 grados de libertad bajo H 0 : 1 (1,0 )


Rechazaramos H0 s: t 0 t / 2, n 2

EC. 18

Donde t0 se calcula a partir de la EC. 17 puede emplearse un procedimiento similar


para probar la hiptesis respecto a la ordenada al origen. Para probar
H 0 : 0 (0,0)
EC. 19

H 1 : 0 ( 0,0)
Usaramos el estadstico:

1 ( 0,0 )

t0

EC. 20

1 x2

n Sxx

MS E

Y se rechaza la hiptesis nula si


hiptesis de la ecuacin es:

t 0 t / 2 , n 2 ; un caso especial muy importante de la

H 0 : 1 0

H1 : 1 0
EC. 21
Esta hiptesis se relaciona con la significacin de la regresin. El procedimiento de
prueba para H 0 : 1 0 puede desarrollarse a partir de desplazamientos. El primer
planteamiento se inicio con la siguiente divisin.
n

Syy (Y j Y j ) 2
j 1

(Y j Y j )2 +
j 1

(Y j Y j )2

EC. 22

j 1

Las dos componentes Syy miden, respectivamente, el tamao de la variabilidad en la


yj, explicada por la lnea de regresin y la variacin residual dejada sin explicar por
la lnea de regresin, solemos llamar a:
n

SSE = (Yj Y j)2 la suma de los cuadrados del error,


j =1
n

SSR = (Yj Yj)2 la suma de regresin de cuadrados.


j =1

Por consiguiente la EC. 22 puede escribirse como: Syy = SSR + SSE

EC. 23

Al comparar la EC. 23 con la EC. 15, notaremos que la suma de regresin de cuadrados
SSR es :

SSR = 1Sxy
EC. 24
Syy tiene n-1 grados de libertad, y SS R y SSE tiene 1 y n-2 grados de libertad
respectivamente. Podemos mostrar que:
E SSE = 2
(n-2)
y
E(SSR)= 2 + 12Sxx
Y que SSE y SSR son independientes. Por tanto, si H o: 1 = 0; es verdadera, entonces el
estadstico:
F0 =

SSR
1
SSE
(n-2)

= MSR
MSE

EC. 25

Sigue la distribucin F1, n-2, y rechazaramos H0 si F0 > F ,

1, n 2

El procedimiento de prueba suele arreglarse en una tabla de anlisis de varianza, tal


como la tabla 1.
Anlisis de varianza para probar la significancia de la regresin:
Fuente de
Variacin
Regresin

Suma de
cuadrados

SSR = 1Sxy

Error
Residual

Grados de
Libertad
1

Media
cuadrtica
MSR

n-2

MSE

SSE = Syy -
1Sxy
Syy

Total de
Grados

F0
MSR / MSE

n-1

La prueba para la significancia de la regresin puede desarrollarse tambin a partir de


la EC. 17 con B1,0 = 0, digamos:

1
MS E
Sxx

t0

EC. 26

Al elevar al cuadrado ambos lados de la Ec. 26, obtenemos:

t02 =

Sxx = 1Sxy = MSR


MSE
MSE
MSE

EC. 27

Ntese que t02 en la Ec. 27 es idntico a F0 en la EC. 25, es cierto en general, que el
cuadrado de una variable aleatoria t con f grados de libertad es una variable aleatoria
F, con uno y f grados de libertad en el numerador y el denominador, respectivamente.
En consecuencia, la prueba que utiliza t0 es equivalente a la prueba basada en F0.
Ejemplo 2: Probablemente el modelo desarrollado en el ejemplo 1 en lo que
se refiere a la significacin de regresin. El modelo ajustado es:

y = -2.73939 + 0.480303X, y Syy se calcula como:

Syy Yj 2
j 1

Yj
j 1

47225

673 2
10

1932.10

Tabla 2: Prueba para la significancia de la regresin, ejemplo 2.


Fuente de
variacin
Regresin
Error
Total

Suma de los
cuadrados
1924.87
7.23
1932.10

F01, 1, 8 = 11.26

Grados de
libertad
1
8
9

Media
cuadrtica
1924.87
0.90

Fo
2138.74

F0.025, 8, 1 = 7.57 Tabla 5

La suma de regresin de cuadrados es: SSR = 1Sxy = (0.4830303)(3,985) = 1924.87


Y la suma de cuadrados de 1 error es: SSE = Syy-SSR = 1932.10-1924.87 = 7.23
El anlisis de varianza para probar H0 = B1 = 0 se resume en la tabla 2. Al notar que F 0
= 2138.74 > F01,1,8 = 11.26, rechazamos Ho y concluimos que H1: B1 0.
ESTIMACIN DE INTERVALOS EN LA REGRESIN LINEAL SIMPLE.
Adems de la estimacin puntual de la pendiente y la ordenada al origen, es posible
obtener estimaciones del intervalo de confianza de estos parmetros. El ancho de
estos intervalos de confianza es una media de calidad total de la lnea de regresin. Si
las ej se distribuyen normal e independientemente, entonces:

1 1

MS E / Sxx

0 0

1 x

n Sxx

MS E

Se distribuye como t con n-2 grados de libertad, en consecuencia, un


intervalo de confianza del 100% (1-) por ciento en la pendiente B 1 esta dada
por:

^
MS E
MS E
B1 t / 2,n2 B1 B1 t / 2,n2
Sxx
Sxx
^

EC.28

De manera que similar a un intervalo de confianza del 100% (1-) en la


ordenada del origen es:

0 t / 2, n 2

1 x 2

0 0 t / 2, n 2

n Sxx

MS E

1 x 2

n Sxx

MS E

EC.29

Ejemplo 3: Determinemos un intervalo de confianza del 95% en la pendiente


de la lnea de regresin empleando los datos en el ejemplo 1. Recurdese que

1 =0.48303, Sxx =8250 y MSE =0.90 de la tabla 2. Sustituyendo obtenemos:

MS E
MS E
1 1 t 0.025, 8
Sxx
Sxx
1 p 1 0.95 0.05; t / 2 t 0.025 2.306v.t.

1 t 0.025, 8

0.90
0.90
1 0.48303 2.306
8250
8250
0.48303 2.306(0.010444659) 1 0.48303 2.306(0.010444659)
0.48303 2.306

0.48303 0.024085384 1 0.48303 0.024085384


0.458944616 B1 0.507115384
Puede construirse un intervalo de confianza del 100% (1-) alrededor de la lnea de
regresin verdadera de X = Xo puede calcularse a partir de:

Y 0 t / 2 , n 2

(
X

X
)
1
1
(
Xo

X
)2
0
E (Y / X 0 ) Y0 t / 2,n2 MS E
MS E
n

Sxx
Sxx

EC.30
El intervalo de confianza para E (y / X 0)es una funcin de X0. El ancho de un intervalo
es un mnimo para Xo = X y se ensancha conforme l X0-X l aumenta.

e yj y j
X0

yj

100
110
120
130
140
150
160
170
180

45
51
54
61
66
70
74
78
85
89

190

LIMITES DE INTERVALO
Y0
INTERVALO 95% E(Y/X0)
45.56 -1.29
1.2944.27 A 46.84
50.39
1.09
1.0949.29 A 51.48
55.22
0.92
0.9254.30 A 56.14
60.05
0.78
0.7859.27 A 60.83
64.88
0.7
0.764.18 A 65.58
69.72
0.7
0.769.02 A 70.42
74.55
0.78
0.7873.77 A 75.33
79.38
0.92
0.9278.46 A 80.30
84.21
1.09
1.0983.12 A 85.30

-0.56
0.61
-1.22
0.95
1.12
0.28
-0.55
-1.38
0.79

0.3136
0.3721
1.4884
0.9025
1.2544
0.0784
0.3025
1.9044
0.6241

89.04

-0.04

0.0016

e yj y j

1.29

1.2987.75 A 90.33

0.00
7.2420
Ejemplo 4: Construimos un intervalo de confianza del 95% en torno a la lnea
de regresin
para los datos en el ejemplo 1. El modelo ajustado es
Y0 = - 2.73939 + 0.48303 X. X0 y el intervalo de confianza en E (y/X0).

Y0 t / 2, n 2


1 ( Xo 145) 2
1 ( Xo X ) 2

MS E

y0 2.306 0.90

n
Sxx

10
8250

Los valores ajustados de Y 0 y los correspondientes limites de confianza del 95% para
los puntos Xo = Xj, j = 1, 2, . . . ,10, se representan en la tabla 3, podemos encontrar el
intervalo de confianza del 95% en la media real del proceso en Xo = 140 C.

2.73939 0.48303 X 0 2.73939 0.48303(140) 0.73939 67.6242 64.88

64.88 2.306 0.901 / 10 (140 145)2 / 8250 64.88 2.306 0.90 0.103030303
64.88 2.306 0.092727272 64.88 2.303(0.304511531) 64.88 0.7022003
64.88 0.70 E y / x 0 140) (64.88 0.70
64.18 E y / x 0 140 65.58

REGRESION LINEAL MULTIPLE


En la regresin lineal mltiple tratamos de determinar la relacin existente entre la
variable dependiente (Y) y dos o ms variables independientes ( X1, X2, X3, ..., XK )
tambin llamadas variables regresoras.
En este caso la variable dependiente se ve afectada por los cambios que se le hagan a
las variables independientes en conjunto.

La relacin entre las variables regresoras y la variable dependiente se establece


mediante el modelo general de regresin lineal mltiple:

Y 0 1 X 1 2 X 2 3 X 3 k X k
Donde 0, 1, 2, ..., k son los parmetros del modelo ( se tienen k variables
independientes y p parmetros ).
En este caso 0 representa la ordenada en el origen, es decir, el punto donde el
hiperplano corta al aje Y (al haber ms de dos variables independientes la relacin
queda representada por medio de un hiperplano).
En general i representa el cambio esperado en Y por cada incremento unitario en X i,
siempre y cuando las dems variables independientes permanezcan constantes .
Por comodidad en la simplicidad de las operaciones, emplearemos en esta ocasin slo
dos variables independientes. Quedar al lector utilizar ms de dos variables
independientes para futuras aplicaciones.
Al utilizar dos variables independientes, el modelo general de regresin lineal mltiple
queda representado por:

Y 0 1 X 1 2 X 2
Donde:

0 representa el punto donde el plano corta al eje Y (ahora la relacin entre las dos
variables independientes y Y est representada por un plano).

1 representa el cambio esperado en Y por cada incremento unitario en X 1, siempre y


cuando X2 permanezca constante.

2 representa el cambio esperado en Y por cada incremento unitario en X 2, siempre y


cuando X1 permanezca constante.

La figura siguiente muestra la relacin entre las variables independientes y Y.

Y 0 1 X 1 2 X 2

X2

X1

ESTIMACION DE PARAMETROS
Para encontrar los estimadores de los parmetros del modelo, partiremos de una
muestra aleatoria de tamao n para valores de X1, X2 y Y:
X1i
X11
X12
X13

X2i
X21
X22
X23

Yi
Y1
Y2
Y3

.
.
.

.
.
.

.
.
.

X1n

X2n

Yn

Al utilizar una muestra aleatoria para estimar los parmetros, incurriremos en un error
en la estimacin. Debemos agregar dicho error al modelo de regresin lineal mltiple:

Y 0 1 X 1 2 X 2
Donde es un error aleatorio con media 0 y varianza 2.
Cada una de las observaciones de Y se puede representar mediante el modelo anterior:

Yi 0 1 X 1i 2 X 2i i
Si utilizamos el enfoque de vectores y matrices, las observaciones de Y quedarn
representadas mediante:

Y X
donde:

Y1
Y
2
.
Y
.

.
Yn

1 X11
1 X
12

.
.
X
.
.

.
.
1 X1n

X 21
X 22
.
.

.
X 2n

0
1
2

1

2
.

.

.
n

El mtodo a utilizar en la estimacin de los parmetros del modelo es el mtodo de


mnimos cuadrados. Dicho mtodo consiste en minimizar la funcin de mnimos
cuadrados.
La funcin de mnimos cuadrados est dada por la letra L y es igual a la suma de todos
los errores elevados al cuadrado:
n

L i2
i 1

Si multiplicamos la transpuesta del vector por el mismo vector obtendremos la


suma de los errores elevados al cuadrado:
n

i2
i1

La funcin de mnimos cuadrados quedar como:

L
Ahora bien, si de la ecuacin vectorial del modelo de regresin anterior despejamos el
error:

Y X
Sustituyndolo en L:

L Y X Y X
Al realizar las operaciones anteriores y simplificando se llega a lo siguiente:

L Y Y 2X Y X X 2

Derivando la funcin anterior con respecto de

e igualando a cero:
, evaluando para

L
0
X Y X X

Despejando

X X 1 X Y

Donde:

1

2

i 1
n

X X

i 1
n

1i

X
n

i 1

i1

2i

i1

1i

X1i X 2i
i 1

2i

X
i1

2
2i

X Y

i1

i1

X Y

X 2i

2
1i

X X X

X1i

i1
n

i1

1i

2i

Yi

De esta manera, el modelo de regresin lineal mltiple ajustado queda definido por:


0
1 X1
2 X2
Y

PRUEBAS DE HIPOTESIS EN LA REGRESION LINEAL MULTIPLE

PRUEBA DE SIGNIFICANCIA
La prueba de significancia del modelo nos permite determinar estadsticamente si las
variables independientes (en conjunto) tienen efecto o no sobre la variable
dependiente.
Para realizar esta prueba se requiere descomponer la suma total de cuadrados,
representada por Syy, en dos componentes: SSR y SSE
Syy = SSR + SSE
Donde:
Syy es la suma total de cuadrados
SSR es la suma de cuadrados de la regresin
SSE es la suma de cuadrados del error
Las ecuaciones apropiadas para calcular las expresiones anteriores son:

Syy Yi

i 1

i 1

SSR X Y

i 1

SSE Syy SSR

Partimos de las hiptesis:


H 0 : 1 2 0
Ha : i 0
Utilizamos la tabla de anlisis de varianza:
Fuente de
Variacin

Suma de
cuadrados

Grados
de libertad

Regresin

SSR

Error

SSE

np

Total

Syy

n1

Media de
cuadrados

MSR

SSR
k

MSE

SSE
np

Estadstico de
prueba

F0

MSR
MSE

El estadstico de prueba F0 tiene una distribucin F (Fisher) con v 1 = k y v2 = n p


grados de libertad en el numerador y el denominador, respectivamente.
En este caso, si el estadstico de prueba es mayor que el valor de tablas F , k, n p, se
rechaza la hiptesis nula; concluiremos que la variable independiente est relacionada
con al menos una de las variables independientes.

PRUEBAS SOBRE COEFICIENTES INDIVIDUALES


En la prueba de significancia determinamos si existe o no relacin entre la variable
dependiente y las variables independientes en conjunto, es decir, no se puede
determinar la relacin entre Y y cada una de las variables independientes.
Se pueden realizar pruebas individuales para analizar la relacin entre la variable
dependiente y cada una de las variables independientes.
Partimos de las hiptesis siguientes:

H0 : j 0

para j = 1, 2, ..., k

Ha : j 0

El estadstico de prueba apropiado es:

t0

MSE C jj

Donde C jj es el valor de la diagonal principal de la matriz inversa ( (XX)-1 ):

X X

i1
n

i1
n

1i

X
n

i1

X X
i1

2i

i1

1i

1i
2
1i

X 2i

X
n

i1

X
i1

1i

C 00 C 01 C 02
C10 C11 C12
C 20 C 21 C 22

X 2i

X
i1

2i

2
2i

El estadstico de prueba t0 anterior sigue una distribucin t-student con v = n p


grados de libertad.
Entonces, si el valor absoluto del estadstico de prueba es mayor que el valor de tablas
t/2, n p, se rechaza la hiptesis nula. Como conclusin diremos que la variable
independiente Y s est relacionada con la variable independiente X j.

CONCLUSION

Como ya vimos en los temas anteriores son muy importantes ya que podemos ver los
tipos de regresiones y para que nos sirven ya que son una herramienta que hoy en da
necesitamos para resolver cualquier problema tambin debemos de saber los
conceptos de regresiones.
Dentro de estos anlisis encontramos diagramas de dispersin, tambin debemos de
saber para que nos sirven las pruebas de hiptesis y donde debemos de aplicarla estos
anlisis de regresin tanto como la prueba de hiptesis debemos aplicarla para cada
problema y darle solucin como dice la palabra hay una hiptesis y esa hiptesis
debemos de resolverla como vimos estos temas son de muy gran importancia para
cada uno de nosotros en nuestra vida laboral.

También podría gustarte