Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Teoria Regresion 1
Teoria Regresion 1
simple
Regresin lineal
simple
P03/75057/01013
P03/75057/01013
FUOC P03/75057/01013
ndice
FUOC P03/75057/01013
ndice
Sesin 1
Sesin 1
1. Introduccin ............................................................................................
1. Introduccin ............................................................................................
9. Resumen................................................................................................... 14
9. Resumen................................................................................................... 14
Ejercicios ....................................................................................................... 16
Ejercicios ....................................................................................................... 16
Anexos .......................................................................................................... 20
Anexos .......................................................................................................... 20
Sesin 2
Sesin 2
1. Introduccin ............................................................................................ 23
1. Introduccin ............................................................................................ 23
6. Resumen................................................................................................... 33
6. Resumen................................................................................................... 33
Ejercicios ....................................................................................................... 34
Ejercicios ....................................................................................................... 34
Anexos .......................................................................................................... 38
Anexos .......................................................................................................... 38
Sesin 3
Sesin 3
1. Introduccin ............................................................................................ 40
1. Introduccin ............................................................................................ 40
6. Resumen................................................................................................... 48
6. Resumen................................................................................................... 48
Ejercicios ....................................................................................................... 49
Ejercicios ....................................................................................................... 49
Anexos .......................................................................................................... 53
Anexos .......................................................................................................... 53
FUOC P03/75057/01013
FUOC P03/75057/01013
1. Introduccin
1. Introduccin
El modelo de regresin lineal simple nos permite construir un modelo para ex-
El modelo de regresin lineal simple nos permite construir un modelo para ex-
o exgena).
o exgena).
Si las dos variables son los ingresos mensuales y los gastos en actividades de ocio, entonces podramos escoger la segunda como variable explicada Y y la primera como variable
explicativa X, ya que, en principio, los gastos en ocio dependern mucho de los ingresos:
cuanto ms dinero ganemos, mayor ser la parte que gastaremos en ocio.
Si las dos variables son los ingresos mensuales y los gastos en actividades de ocio, entonces podramos escoger la segunda como variable explicada Y y la primera como variable
explicativa X, ya que, en principio, los gastos en ocio dependern mucho de los ingresos:
cuanto ms dinero ganemos, mayor ser la parte que gastaremos en ocio.
Es importante observar que tambin podramos escoger las variables a la inversa, es decir,
los gastos en ocio como variable explicativa X y los ingresos como variable explicada Y.
Cuanto ms dinero gastemos en ocio, ms ingresos tendremos.
Es importante observar que tambin podramos escoger las variables a la inversa, es decir,
los gastos en ocio como variable explicativa X y los ingresos como variable explicada Y.
Cuanto ms dinero gastemos en ocio, ms ingresos tendremos.
Ejemplo de relacin
funcional
Podemos conocer el rea de
un cuadrado a partir de la longitud de su lado.
Ejemplo de relacin
funcional
Podemos conocer el rea de
un cuadrado a partir de la longitud de su lado.
FUOC P03/75057/01013
Ejemplo de relacin
estadstica
Sabemos que hay una relacin
entre la altura y el peso de las
personas: en general, cuanta
ms altura, ms peso. Pero
no existe ninguna frmula
matemtica que nos d una en
funcin de la otra, ya que esto
significara que todas las personas que tienen la misma altura
tendran el mismo peso, y eso
sabemos que no es cierto.
FUOC P03/75057/01013
sobre unos ejes coordenados x-y. Esta representacin es el llamado diagrama de dis-
sobre unos ejes coordenados x-y. Esta representacin es el llamado diagrama de dis-
Terminologa
El diagrama de dispersin tambin se conoce como nube
de puntos.
Ejemplo de relacin
estadstica
Sabemos que hay una relacin
entre la altura y el peso de las
personas: en general, cuanta
ms altura, ms peso. Pero
no existe ninguna frmula
matemtica que nos d una en
funcin de la otra, ya que esto
significara que todas las personas que tienen la misma altura
tendran el mismo peso, y eso
sabemos que no es cierto.
Terminologa
El diagrama de dispersin tambin se conoce como nube
de puntos.
FUOC P03/75057/01013
FUOC P03/75057/01013
En los casos (a) y (b) tenemos que las observaciones se encuentran sobre una recta. En
el primer caso, con pendiente negativa, que nos indica que a medida que X aumenta,
la Y es cada vez menor y lo contrario en el segundo caso, en el que la pendiente es
positiva. En estos dos casos los puntos se ajustan perfectamente sobre la recta, de manera que tenemos una relacin funcional entre las dos variables dada por la ecuacin
de la recta.
En los casos (a) y (b) tenemos que las observaciones se encuentran sobre una recta. En
el primer caso, con pendiente negativa, que nos indica que a medida que X aumenta,
la Y es cada vez menor y lo contrario en el segundo caso, en el que la pendiente es
positiva. En estos dos casos los puntos se ajustan perfectamente sobre la recta, de manera que tenemos una relacin funcional entre las dos variables dada por la ecuacin
de la recta.
En el caso (c) los puntos se encuentran situados en una franja bastante estrecha que tiene
una forma bien determinada. No ser una relacin funcional, ya que los puntos no se sitan sobre una curva, pero s que es posible asegurar la existencia de una fuerte relacin
entre las dos variables. De todos modos, vemos que no se trata de una relacin lineal (la
nube de puntos tiene forma de parbola).
En el caso (c) los puntos se encuentran situados en una franja bastante estrecha que tiene
una forma bien determinada. No ser una relacin funcional, ya que los puntos no se sitan sobre una curva, pero s que es posible asegurar la existencia de una fuerte relacin
entre las dos variables. De todos modos, vemos que no se trata de una relacin lineal (la
nube de puntos tiene forma de parbola).
En el caso (d) no tenemos ningn tipo de relacin entre las variables. La nube de puntos no presenta una forma tubular bien determinada; los puntos se encuentran absolutamente dispersos.
En el caso (d) no tenemos ningn tipo de relacin entre las variables. La nube de puntos no presenta una forma tubular bien determinada; los puntos se encuentran absolutamente dispersos.
En los casos (e) y (f) podemos observar que s existe algn tipo de relacin entre las dos
variables. En el caso (e) podemos ver un tipo de dependencia lineal con pendiente negativa, ya que a medida que el valor de X aumenta, el valor de Y disminuye. Los puntos no
estn sobre una lnea recta, pero se acercan bastante, de manera que podemos pensar en
una fuerte relacin lineal. En el caso (f) observamos una relacin lineal con pendiente
positiva, pero no tan fuerte como la anterior.
En los casos (e) y (f) podemos observar que s existe algn tipo de relacin entre las dos
variables. En el caso (e) podemos ver un tipo de dependencia lineal con pendiente negativa, ya que a medida que el valor de X aumenta, el valor de Y disminuye. Los puntos no
estn sobre una lnea recta, pero se acercan bastante, de manera que podemos pensar en
una fuerte relacin lineal. En el caso (f) observamos una relacin lineal con pendiente
positiva, pero no tan fuerte como la anterior.
Individuo
10
X altura (cm)
161
152
167
153
161
168
167
153
159
173
Y peso (kg)
63
56
77
49
72
62
68
48
57
67
Individuo
10
X altura (cm)
161
152
167
153
161
168
167
153
159
173
Y peso (kg)
63
56
77
49
72
62
68
48
57
67
Definicin y ejemplo
de valor atpico
Definicin y ejemplo
de valor atpico
FUOC P03/75057/01013
4. Recta de regresin
FUOC P03/75057/01013
4. Recta de regresin
var una posible relacin lineal entre las dos variables, nos proponemos
var una posible relacin lineal entre las dos variables, nos proponemos
y = a + bx
A partir de la frmula anterior definimos para cada observacin (xi, yi) el error
A partir de la frmula anterior definimos para cada observacin (xi, yi) el error
o residuo como la distancia vertical entre el punto (xi, yi) y la recta, es decir:
o residuo como la distancia vertical entre el punto (xi, yi) y la recta, es decir:
yi (a + bxi)
yi (a + bxi)
Por cada recta que consideremos, tendremos una coleccin diferente de resi-
Por cada recta que consideremos, tendremos una coleccin diferente de resi-
cuadrados.
cuadrados.
FUOC P03/75057/01013
( y i a bxi )
i=1
Terminologa
FUOC P03/75057/01013
( y i a bxi )
i=1
para encontrar los valores de a y b, slo hay que determinar las derivadas par-
para encontrar los valores de a y b, slo hay que determinar las derivadas par-
2
( y i a bx i ) = 2 ( y i a bx i )x i
b i
i=1
=1
( y i a bx i ) = 0
i=1
( y i a bxi )xi = 0
i=1
s xy
=1
- y a = y bx
b = ------2 = i-------------------------------------------n
2
sx
x
x
(
)
i
i=1
en las que:
i=1
s xy
=1
- y a = y bx
b = ------2 = i-------------------------------------------n
2
sx
x
x
(
)
i
i=1
en las que:
En rigor...
... habra que probar que, efectivamente, estos valores de los
parmetros hacen mnima la
suma de los cuadrados de los
residuos.
( xi x ) ( yi y )
i=1
s xy = --------------------------------------------- es la covarianza muestral de las observaciones (xi, yi).
n1
( y i a bxi )xi = 0
( xi x )
= 0
i=1
( xi x ) ( yi y )
En rigor...
( xi x ) ( yi y )
( y i a bxi )
( xi x ) ( yi y )
2
( y i a bx i ) = 2 ( y i a bx i )
a i
i=1
=1
2
( y i a bx i ) = 2 ( y i a bx i )x i
b i
i=1
=1
Terminologa
2
( y i a bx i ) = 2 ( y i a bx i )
a i
i=1
=1
i=1
s xy = --------------------------------------------- es la covarianza muestral de las observaciones (xi, yi).
n1
i=1
2
s x = ----------------------------- es la varianza muestral de las observaciones xi.
n1
Es muy importante obsevar que, de todas las rectas, la recta de regresin lineal
por mnimos cuadrados es aquella que hace mnima la suma de los cuadrados
de los residuos.
A partir de ahora, la recta de regresin la escribiremos de la manera siguiente:
y = 0 + 1 x
( xi x )
Notacin
Hemos hecho un cambio en
la notacin para distinguir de
manera clara entre una recta
cualquiera:
y = a + bx
y la recta de regresin por mnimos cuadrados:
y = 0 + 1 x
obtenida al determinar a y b.
i=1
2
s x = ----------------------------- es la varianza muestral de las observaciones xi.
n1
Es muy importante obsevar que, de todas las rectas, la recta de regresin lineal
por mnimos cuadrados es aquella que hace mnima la suma de los cuadrados
de los residuos.
A partir de ahora, la recta de regresin la escribiremos de la manera siguiente:
y = 0 + 1 x
Notacin
Hemos hecho un cambio en
la notacin para distinguir de
manera clara entre una recta
cualquiera:
y = a + bx
y la recta de regresin por mnimos cuadrados:
y = 0 + 1 x
obtenida al determinar a y b.
10
FUOC P03/75057/01013
10
FUOC P03/75057/01013
s xy
1 = ------2
sx
0 = y 1 x
s xy
1 = ------2
sx
llamaremos ei , es decir:
llamaremos ei , es decir:
e i = y i y i
e i = y i y i
que:
que:
Pendiente en el ejemplo
de los pesos y las alturas
En el ejemplo de los pesos
y las alturas, en el diagrama
de dispersin habamos observado que, en general, aumenta
el peso de las personas a medida que aumenta su altura.
Lo ilustraremos a partir de los datos del ejemplo de los pesos y las alturas.
Lo ilustraremos a partir de los datos del ejemplo de los pesos y las alturas.
Continuemos con el anterior ejemplo de las alturas y pesos de un grupo de diez personas.
Para determinar la recta de regresin, calculamos la covarianza muestral sxy, la varianza
2
muestral s x y las medias x y y .
Continuemos con el anterior ejemplo de las alturas y pesos de un grupo de diez personas.
Para determinar la recta de regresin, calculamos la covarianza muestral sxy, la varianza
2
muestral s x y las medias x y y .
0 en el ejemplo
de los pesos y las alturas
En el ejemplo de los pesos y
las alturas, el valor de la ordenada en el origen no tendr
sentido, ya que correspondera al peso que tendran las
personas de altura nula.
Pendiente en el ejemplo
de los pesos y las alturas
En el ejemplo de los pesos
y las alturas, en el diagrama
de dispersin habamos observado que, en general, aumenta
el peso de las personas a medida que aumenta su altura.
11
FUOC P03/75057/01013
Podemos calcular todas estas cantidades a partir de la tabla de clculos de la recta de regresin.
i
xi
yi
x xi
y yi
( x xi )
161
63
0,4
1,1
152
56
9,4
167
77
153
49
161
11
FUOC P03/75057/01013
Podemos calcular todas estas cantidades a partir de la tabla de clculos de la recta de regresin.
2
( x xi ) ( y yi )
xi
yi
x xi
y yi
( x xi )
0,16
0,44
161
63
0,4
1,1
0,16
0,44
5,9
88,36
55,46
152
56
9,4
5,9
88,36
55,46
5,6
15,1
31,36
84,56
167
77
5,6
15,1
31,36
84,56
8,4
12,9
70,56
108,36
153
49
8,4
12,9
70,56
108,36
72
0,4
10,1
0,16
4,04
161
72
0,4
10,1
0,16
4,04
168
62
6,6
0,1
43,56
0,66
168
62
6,6
0,1
43,56
0,66
167
68
5,6
6,1
31,36
34,16
167
68
5,6
6,1
31,36
34,16
153
48
8,4
13,9
70,56
116,76
153
48
8,4
13,9
70,56
116,76
159
57
2,4
4,9
5,76
11,76
159
57
2,4
4,9
5,76
11,76
10
173
67
11,6
5,1
134,56
59,16
10
173
67
11,6
5,1
134,56
59,16
1614
619
476,40
466,40
1614
619
476,40
466,40
i=1
i=1
1
1
Medias muestrales: x = --- x i = 161,4 y y = --- y i = 61,9
n
n
n
( xi x )
i=1
i=1
( xi x )
2
=1
- = 476,40
------------------- = 52,933
Varianza muestral: s x = i---------------------------n1
10 1
( xi x ) ( yi y )
1
1
Medias muestrales: x = --- x i = 161,4 y y = --- y i = 61,9
n
n
2
=1
- = 476,40
------------------- = 52,933
Varianza muestral: s x = i---------------------------n1
10 1
( xi x ) ( yi y )
466,40
=1
- = ------------------- = 51,822
Covarianza muestral: s xy = i-------------------------------------------n1
10 1
466,40
=1
- = ------------------- = 51,822
Covarianza muestral: s xy = i-------------------------------------------n1
10 1
s xy
51,822
- = ------------------- = 0,979009
1 = -----2
52,933
sx
( x xi ) ( y yi )
Ordenada en el origen: evidentemente, no tiene sentido pensar que el peso de una persona de altura cero es 96,1121 kg. Ya hemos comentado antes que muchas veces no
tiene sentido la interpretacin de este parmetro.
Ordenada en el origen: evidentemente, no tiene sentido pensar que el peso de una persona de altura cero es 96,1121 kg. Ya hemos comentado antes que muchas veces no
tiene sentido la interpretacin de este parmetro.
12
FUOC P03/75057/01013
Pendiente: tenemos una pendiente de 0,979009. Un valor positivo que nos informa
de que el peso aumenta con la altura a razn de 0,979 kg por cada centmetro.
12
FUOC P03/75057/01013
Pendiente: tenemos una pendiente de 0,979009. Un valor positivo que nos informa
de que el peso aumenta con la altura a razn de 0,979 kg por cada centmetro.
7. Interpolacin y extrapolacin
7. Interpolacin y extrapolacin
delo para el pronstico del valor de la variable dependiente (Y) para un valor
delo para el pronstico del valor de la variable dependiente (Y) para un valor
En nuestro problema de los pesos y las alturas podramos estar interesados en conocer el
peso de una persona de altura 1,60 m. A partir de nuestra recta de regresin:
En nuestro problema de los pesos y las alturas podramos estar interesados en conocer el
peso de una persona de altura 1,60 m. A partir de nuestra recta de regresin:
y = 96,1121 + 0,979009x
y = 96,1121 + 0,979009x
para un valor de X de 160 cm, tenemos un valor estimado para la Y de 60,53 kg:
para un valor de X de 160 cm, tenemos un valor estimado para la Y de 60,53 kg:
Extrapolacin fuera
de rango
1) Hemos determinado el modelo con la informacin contenida en la muestra, de manera que no hemos tenido ninguna informacin del comportamiento de la variable Y para valores de X de fuera del rango de la muestra.
2) Es posible que no tenga sentido la extrapolacin que queremos hacer. Antes de utilizar el modelo de regresin, debemos preguntarnos por lo que estamos haciendo.
Sentido
de la extrapolacin
No tiene ningn sentido utilizar el modelo de regresin
para calcular el peso de personas de diez centmetros o tres
metros de altura. El modelo
nos dar un resultado numrico que, en todo caso, hay que
interpretar.
Extrapolacin fuera
de rango
1) Hemos determinado el modelo con la informacin contenida en la muestra, de manera que no hemos tenido ninguna informacin del comportamiento de la variable Y para valores de X de fuera del rango de la muestra.
2) Es posible que no tenga sentido la extrapolacin que queremos hacer. Antes de utilizar el modelo de regresin, debemos preguntarnos por lo que estamos haciendo.
Sentido
de la extrapolacin
No tiene ningn sentido utilizar el modelo de regresin
para calcular el peso de personas de diez centmetros o tres
metros de altura. El modelo
nos dar un resultado numrico que, en todo caso, hay que
interpretar.
13
FUOC P03/75057/01013
13
FUOC P03/75057/01013
Aparte de los modelos lineales, se pueden establecer otros, entre los cuales destaca el exponencial.
Curva en un modelo
exponencial
En el modelo lineal hemos
ajustado la nube de puntos
a una recta de ecuacin:
y = a + bx
En el modelo exponencial queremos ajustar a los puntos una
curva de ecuacin:
y = kax con a > 0 y k > 0
As, puesto que en el caso lineal es muy fcil ver si puede haber una relacin
lineal entre las variables a partir del diagrama de dispersin, en el caso exponencial es un poco ms difcil.
de manera que el problema se convierta en lineal. Si en la ecuacin y = ka tomamos logaritmos ln y = ln(kax), obtenemos, por aplicacin de las propieda-
Ejemplos de relaciones
exponenciales
Las relaciones entre la variable
tiempo (X) y otras variables (Y)
como la poblacin, el nmero
de ordenadores infectados por
un virus en los primeros das de
contaminacin, los precios de
algunos productos, etc., son
exponenciales.
Aparte de los modelos lineales, se pueden establecer otros, entre los cuales destaca el exponencial.
Curva en un modelo
exponencial
En el modelo lineal hemos
ajustado la nube de puntos
a una recta de ecuacin:
y = a + bx
En el modelo exponencial queremos ajustar a los puntos una
curva de ecuacin:
y = kax con a > 0 y k > 0
As, puesto que en el caso lineal es muy fcil ver si puede haber una relacin
lineal entre las variables a partir del diagrama de dispersin, en el caso exponencial es un poco ms difcil.
Ejemplos de relaciones
exponenciales
Las relaciones entre la variable
tiempo (X) y otras variables (Y)
como la poblacin, el nmero
de ordenadores infectados por
un virus en los primeros das de
contaminacin, los precios de
algunos productos, etc., son
exponenciales.
ln y = ln k + x ln a
ln y = ln k + x ln a
Propiedades
de los logaritmos
Esta ltima ecuacin nos muestra un modelo lineal entre las variables X y ln Y.
As, si representamos el diagrama de dispersin de los puntos (xi, ln yi) y la nube
ln ab = ln a + ln b
ln ax = x ln a
Propiedades
de los logaritmos
Esta ltima ecuacin nos muestra un modelo lineal entre las variables X y ln Y.
As, si representamos el diagrama de dispersin de los puntos (xi, ln yi) y la nube
de puntos presenta una estructura lineal, podemos pensar que entre las varia-
de puntos presenta una estructura lineal, podemos pensar que entre las varia-
La tabla registra el nmero de das que han transcurrido desde que se ha detectado un
nuevo virus informtico y el nmero de ordenadores infectados en un pas.
La tabla registra el nmero de das que han transcurrido desde que se ha detectado un
nuevo virus informtico y el nmero de ordenadores infectados en un pas.
Nmero de
das
Nmero de ordenadores
infectados
Nmero de
das
Nmero de ordenadores
infectados
xi
yi
xi
yi
255
5,5413
255
5,5413
1.500
7,3132
1.500
7,3132
2.105
7,6521
2.105
7,6521
5.050
8,5271
5.050
8,5271
16.300
9,6989
16.300
9,6989
10
45.320
10,7215
10
45.320
10,7215
11
58.570
10,9780
11
58.570
10,9780
14
375.800
12,8368
14
375.800
12,8368
16
1.525.640
14,2379
16
1.525.640
14,2379
20
2.577.000
14,7621
20
2.577.000
14,7621
Transformacin de Y
ln yi
Transformacin de Y
ln yi
ln ab = ln a + ln b
ln ax = x ln a
14
FUOC P03/75057/01013
14
FUOC P03/75057/01013
Podemos observar que entre las variables X y ln Y existe una relacin lineal; por tanto,
entre las variables originales X e Y habr una relacin exponencial.
Podemos observar que entre las variables X y ln Y existe una relacin lineal; por tanto,
entre las variables originales X e Y habr una relacin exponencial.
5,84 + 0,482x
Obtenemos: ln y = 5,84 + 0,482x , es decir, y = e
5,84 + 0,482x
Obtenemos: ln y = 5,84 + 0,482x , es decir, y = e
y = exp(11,624) = 111.747,8195
y = exp(11,624) = 111.747,8195
Por tanto, al cabo de doce das el nmero estimado de ordenadores infectados ha sido de
111.748 unidades.
Por tanto, al cabo de doce das el nmero estimado de ordenadores infectados ha sido de
111.748 unidades.
9. Resumen
9. Resumen
FUOC P03/75057/01013
15
FUOC P03/75057/01013
15
car algn tipo de relacin entre dos variables. Si el diagrama nos muestra una
car algn tipo de relacin entre dos variables. Si el diagrama nos muestra una
estructura lineal, entonces buscamos la lnea recta que mejor se ajusta a nues-
estructura lineal, entonces buscamos la lnea recta que mejor se ajusta a nues-
rmetros de la recta. Tambin hemos visto cmo debemos utilizar la recta de re-
rmetros de la recta. Tambin hemos visto cmo debemos utilizar la recta de re-
16
FUOC P03/75057/01013
16
FUOC P03/75057/01013
Ejercicios
Ejercicios
1.
1.
Nmero de semanas
Nmero de semanas
87
87
119
119
47
47
195
195
162
162
234
234
72
72
110
110
que existe una relacin lineal entre el nmero de semanas y la ganancia de ve-
que existe una relacin lineal entre el nmero de semanas y la ganancia de ve-
locidad?
locidad?
2.
2.
que los anteriores, pero con unas prestaciones muy superiores, de manera que la
que los anteriores, pero con unas prestaciones muy superiores, de manera que la
de tcnicos comerciales presentes en una tienda (X) puede tener alguna inciden-
de tcnicos comerciales presentes en una tienda (X) puede tener alguna inciden-
15
xi
i=1
= 215 ;
15
xi
= 3.567 ;
i=1
15
yi
i=1
= 1.700 ;
15
xi yi
= 28.300
i=1
15
xi
i=1
= 215 ;
15
xi
= 3.567 ;
i=1
15
yi
i=1
= 1.700 ;
15
xi yi
= 28.300
i=1
17
FUOC P03/75057/01013
17
FUOC P03/75057/01013
Solucionario
Solucionario
1.
1.
Diagrama de dispersin:
Diagrama de dispersin:
El diagrama de dispersin nos muestra que la relacin entre las dos variables
El diagrama de dispersin nos muestra que la relacin entre las dos variables
mayor es la ganancia de velocidad. Por tanto, tiene sentido buscar la recta de re-
mayor es la ganancia de velocidad. Por tanto, tiene sentido buscar la recta de re-
y yi
( x xi )
xi
yi
x xi
87
41,25
119
9,25
47
195
( x xi ) ( y y i)
( x xi ) ( y y i)
xi
yi
x xi
82,5
87
41,25
82,5
119
9,25
81,25
243,75
47
81,25
243,75
66,75
200,25
195
66,75
200,25
162
33,75
33,75
162
33,75
33,75
234
105,75
16
423
234
105,75
16
423
72
56,25
112,5
72
56,25
112,5
110
18,25
18,25
110
18,25
18,25
40
1.026
1.114,00
40
1.026
44,00
n
40
1
Medias muestrales: x = --- x i = ------ = 5,0 y
8
ni = 1
n
1.206
1
y = --- y i = --------------- = 128,250
8
ni = 1
( xi x )
44,00
2
i=1
- = --------------- = 6,286
Varianza muestral: s x = ---------------------------n1
7
n
( xi x )( yi y )
1.114,00
=1
- = ------------------------ = 159,143
Covarianza muestral: s xy = i-------------------------------------------n1
7
y yi
( x xi )
44,00
1.114,00
n
40
1
Medias muestrales: x = --- x i = ------ = 5,0 y
8
ni = 1
n
1.206
1
y = --- y i = --------------- = 128,250
8
ni = 1
( xi x )
44,00
2
=1
- = --------------- = 6,286
Varianza muestral: s x = i---------------------------n1
7
n
( xi x )( yi y )
1.114,00
=1
- = ------------------------ = 159,143
Covarianza muestral: s xy = i-------------------------------------------n1
7
18
FUOC P03/75057/01013
18
FUOC P03/75057/01013
s xy
159,143
1 = ------2 = ---------------------- = 25,318 y
6,286
sx
s xy
159,143
1 = ------2 = ---------------------- = 25,318 y
6,286
sx
y = 0 + 1 x = 1,659 + 25,318x
y = 0 + 1 x = 1,659 + 25,318x
ses. Evidentemente, no tiene sentido pensar que sin hacer clases se tiene una
ses. Evidentemente, no tiene sentido pensar que sin hacer clases se tiene una
informacin til: por cada semana de clase se tiene una ganancia de velocidad
informacin til: por cada semana de clase se tiene una ganancia de velocidad
de aproximadamente 25 p.p.m.
de aproximadamente 25 p.p.m.
Para una persona que hace siete semanas que va a clase, podemos calcular la
Para una persona que hace siete semanas que va a clase, podemos calcular la
2.
2.
a) Para encontrar la recta de regresin, antes tenemos que encontrar las me-
a) Para encontrar la recta de regresin, antes tenemos que encontrar las me-
n
215
1
Medias muestrales: x = --- x i = ---------- = 14,333
15
ni = 1
n
215
1
Medias muestrales: x = --- x i = ---------- = 14,333
15
ni = 1
n
1.700
1
y = --- y i = --------------- = 113,333
15
ni = 1
n
1.700
1
y = --- y i = --------------- = 113,333
15
ni = 1
19
FUOC P03/75057/01013
Varianza muestral:
19
FUOC P03/75057/01013
Varianza muestral:
Para calcular la varianza muestral a partir de los datos del enunciado, utilizaremos la expresin equivalente:
Para calcular la varianza muestral a partir de los datos del enunciado, utilizaremos la expresin equivalente:
n x 2 nx 2
i
i
=1
2
s x = -----------------------------------n1
n x 2 nx 2
i
i
=1
2
s x = -----------------------------------n1
De manera que:
De manera que:
n x 2 nx 2
i
2
i
3.567 15 14,333
=1
2
s x = ------------------------------------ = ------------------------------------------------------ = 34,667
n1
14
n x 2 nx 2
i
2
i
3.567 15 14,333
=1
2
s x = ------------------------------------ = ------------------------------------------------------ = 34,667
n1
14
Covarianza muestral:
Covarianza muestral:
s xy
n x y nxy
i i
i
=1
= --------------------------------------n1
De manera que:
s xy
s xy
n x y nxy
i i
i
=1
= --------------------------------------n1
De manera que:
n x y nxy
i i
i
=1
28.300 15 14,333 113,333
-------------------------------------- = ---------------------------------------------------------------------------------- = 280,952
=
n1
14
s xy
n x y nxy
i i
i
=1
28.300 15 14,333 113,333
-------------------------------------- = ---------------------------------------------------------------------------------- = 280,952
=
n1
14
s xy
280,952
1 = ------2 = ---------------------- = 8,104
34,667
sx
s xy
280,952
1 = ------2 = ---------------------- = 8,104
34,667
sx
y = 0 + 1 x = 2 ,829 + 8,104x
y = 0 + 1 x = 2 ,829 + 8,104x
20
FUOC P03/75057/01013
20
FUOC P03/75057/01013
Anexos
Anexos
Anexo 1
Anexo 1
( yi 0 1 xi ) = 0
i=1
n
( y i 0 1 xi )xi = 0
i=1
yi 0 1 xi
i=1
i=1
( yi 0 1 xi ) = 0
i=1
n
( y i 0 1 xi )xi = 0
i=1
yi 0 1 xi
i=1
yi 0 1 xi
= ny n 0 n 1 x = 0
i=1
i=1
i=1
i=1
i=1
yi 0 1 xi
= ny n 0 n 1 x = 0
( y i 0 1 xi )xi
i=1
i=1
x i yi 0 xi 1 xi
i=1
i=1
i=1
i=1
x i y i n0 x 1 xi
( y i 0 1 xi )xi
= 0
i=1
i=1
entonces
i=1
i=1
x i yi
i=1
= n ( y 1 x )x + 1 x i = nxy 1 nx + 1 x i
i=1
i=1
i=1
i=1
i=1
i=1
x i y i n0 x 1 xi
= 0
entonces
i=1
i=1
x i yi
i=1
Aislando 1 :
x i yi 0 xi 1 xi
= n ( y 1 x )x + 1 x i = nxy 1 nx + 1 x i
i=1
i=1
Aislando 1 :
n
x i y i nxy
x i y i nxy
=1
1 = i--------------------------------n
2
2
xi nx
=1
1 = i--------------------------------n
2
2
xi nx
muestral:
muestral:
i=1
i=1
( xi x )
2
i=1
---------------------------sx =
n1
2
sx ( n 1 ) =
( xi x )
i=1
( xi
i=1
2x i x + x ) =
( xi x )
2
=1
s x = i---------------------------n1
xi
i=1
2nx + nx =
xi
i=1
nx
sx ( n 1 ) =
( xi x )
i=1
( xi
i=1
2x i x + x ) =
xi
i=1
2nx + nx =
xi
i=1
nx
21
FUOC P03/75057/01013
21
FUOC P03/75057/01013
( xi x ) ( yi y )
( xi x ) ( yi y )
=1
s xy = i-------------------------------------------n1
=1
s xy = i-------------------------------------------n1
i=1
i=1
i=1
i=1
( xi x ) ( y i y ) = xi y i x yi y x i + nxy =
s xy ( n 1 ) =
i=1
i=1
i=1
i=1
( xi x ) ( y i y ) = xi y i x y i y x i + nxy =
s xy ( n 1 ) =
xi y i nxy
i=1
i=1
xi y i nxy
i=1
i=1
s xy
1 = ------2
sx
s xy
1 = ------2
sx
0 = y 1 x
0 = y 1 x
Anexo 2
Anexo 2
Varianza muestral:
Varianza muestral:
2
sx
( xi x )
2
2
sx
i=1
= ---------------------------n1
( xi x )
i=1
i=1
( xi
2x i x + x ) =
i=1
i=1
x i 2x x i + n ( x ) =
i=1
xi
i=1
2xx i + ( x )
i=1
De manera que:
( xi x )
i=1
i=1
i=1
=1
= i---------------------------n1
2
2
2
2
x i 2xnx + n ( x ) = x i n ( x )
( xi x )
i=1
( xi
2x i x + x ) =
i=1
i=1
x i 2x x i + n ( x ) =
i=1
xi
i=1
n x 2 n ( x ) 2
i
i
=1
2
s x = --------------------------------------n1
Anexo 3
Anexo 3
Covarianza muestral:
Covarianza muestral:
( xi x ) ( yi y )
=1
s xy = i-------------------------------------------n1
i=1
i=1
2
2
2
2
x i 2xnx + n ( x ) = x i n ( x )
De manera que:
n x 2 n ( x ) 2
i
i
=1
2
s x = --------------------------------------n1
2xx i + ( x )
( xi x ) ( yi y )
=1
s xy = i-------------------------------------------n1
i=1
22
FUOC P03/75057/01013
( xi x )( yi y )
( xi y i xi y xy i + xy )
i=1
i=1
n
i=1
i=1
i=1
i=1
i=1
i=1
( xi x )( yi y )
( xi y i xi y xy i + xy )
i=1
= x i y i nxy
De manera que:
i=1
i=1
n
i=1
i=1
i=1
i=1
i=1
i=1
i=1
xi y i xi y xyi + xy
xi y i y x i x y i + xyn
s xy
s xy
= x i y i nxy
De manera que:
n x y nxy
i i
i
=1
= --------------------------------------n1
xi y i xi y xyi + xy
xi y i y x i x y i + xyn
i=1
22
FUOC P03/75057/01013
n x y nxy
i i
i
=1
= --------------------------------------n1
i=1
23
FUOC P03/75057/01013
23
FUOC P03/75057/01013
1. Introduccin
1. Introduccin
dos de los residuos. Ahora nos preguntamos si este ajuste es lo bastante bueno.
dos de los residuos. Ahora nos preguntamos si este ajuste es lo bastante bueno.
recta se ajusta o no a los datos, pero nos hace falta un valor numrico que nos
recta se ajusta o no a los datos, pero nos hace falta un valor numrico que nos
ayude a precisarlo.
ayude a precisarlo.
2. El coeficiente de determinacin, R2
2. El coeficiente de determinacin, R2
R2.
recta de regresin a los valores de la muestra, y se define como la proporcin de varianza explicada por la recta de regresin, es decir:
Varianza explicada por la recta de regresin
2
R = ------------------------------------------------------------------------------------------------------------------------Varianza total de los datos
dos trminos: la varianza que queda explicada por el modelo de regresin lineal
dos trminos: la varianza que queda explicada por el modelo de regresin lineal
Notacin
Llamaremos indistintamente
valores estimados o valores predichos ( y i ) a los obtenidos mediante la recta de regresin.
ei = yi y i ,
podemos escribir:
yi = y i + ei.
yi = y i + ei.
Si ahora restamos a los dos miembros de esta igualdad la media de las obser-
Si ahora restamos a los dos miembros de esta igualdad la media de las obser-
vaciones yi, obtenemos una expresin que nos relaciona las desviaciones con
vaciones yi, obtenemos una expresin que nos relaciona las desviaciones con
Notacin
La varianza explicada por la
recta de regresin es la varianza de los valores estimados y i .
La varianza total de los datos es
la varianza de los valores observados yi.
Notacin
Llamaremos indistintamente
valores estimados o valores predichos ( y i ) a los obtenidos mediante la recta de regresin.
24
FUOC P03/75057/01013
24
FUOC P03/75057/01013
y i y = ( y i y ) + e i
y i y = ( y i y ) + e i
Observacin
Observacin
( yi y )
i=1
( y i y )
i=1
ei
( yi y )
i=1
i=1
( y i y )
i=1
ei
i=1
( yi y )
= SCT
i=1
n
i=1
n
ei
( yi y )
= SCT
= SCR
i=1
( y i y ) = SCR
( y i y )
i=1
= SCE
i=1
ei
= SCE
i=1
25
FUOC P03/75057/01013
25
FUOC P03/75057/01013
( y i y )
( y i y )
SCR
2
=1
R = ----------- = i---------------------------n
SCT
2
( yi y )
SCR
2
=1
R = ----------- = i---------------------------n
SCT
2
( yi y )
i=1
i=1
o tambin,
o tambin,
n
ei
ei
SCE
i=1
R = 1 ----------- = 1 ---------------------------.
n
SCT
2
( yi y )
SCE
i=1
R = 1 ----------- = 1 ---------------------------.
n
SCT
2
( yi y )
i=1
i=1
R2 = 1 cuando el ajuste es perfecto, es decir, cuando todos los puntos se encuentran sobre la recta de regresin. En este caso los residuos son cero y la
suma de sus cuadrados tambin y, por tanto, SCR = SCT.
R2 = 0 denota la inexistencia de relacin entre las variables X e Y. En este caso
la suma de residuos es mxima y tenemos que SCE = SCT.
Puesto que R2 nos explica la proporcin de variabilidad de los datos que que-
Observacin
Un coeficiente de determinacin diferente de cero no significa que haya relacin lineal
entre las variables. Por ejemplo, R2 = 0,5 slo nos dice que
el 50% de la varianza de las
observaciones queda explicado por el modelo lineal.
R2 = 1 cuando el ajuste es perfecto, es decir, cuando todos los puntos se encuentran sobre la recta de regresin. En este caso los residuos son cero y la
suma de sus cuadrados tambin y, por tanto, SCR = SCT.
R2 = 0 denota la inexistencia de relacin entre las variables X e Y. En este caso
la suma de residuos es mxima y tenemos que SCE = SCT.
Puesto que R2 nos explica la proporcin de variabilidad de los datos que que-
t, mejor es el ajuste.
t, mejor es el ajuste.
Consideremos las observaciones de los pesos (kg) y las alturas (cm) de un conjunto de
diez personas: el individuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene
152 cm de altura y 56 kg de peso, etc.
Consideremos las observaciones de los pesos (kg) y las alturas (cm) de un conjunto de
diez personas: el individuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene
152 cm de altura y 56 kg de peso, etc.
Individuos (y)
10
Individuos (y)
10
Altura
(xi)
161
152
167
153
161
168
167
153
159
173
Altura
(xi)
161
152
167
153
161
168
167
153
159
173
Peso
(yi)
63
56
77
49
72
62
68
48
57
67
Peso
(yi)
63
56
77
49
72
62
68
48
57
67
Observacin
Un coeficiente de determinacin diferente de cero no significa que haya relacin lineal
entre las variables. Por ejemplo, R2 = 0,5 slo nos dice que
el 50% de la varianza de las
observaciones queda explicado por el modelo lineal.
26
FUOC P03/75057/01013
podemos calcular los valores estimados y los residuos. Es muy conveniente, por comodidad, disponer de los datos y los clculos en forma de tabla; en concreto, construiremos
una tabla de clculos del coeficiente de determinacin:
yi y
( yi y )
1,21
0,39
5,90
34,81
67,38
15,10
49
53,68
161
72
168
xi
yi
y i
yi y
( yi y )
161
63
61,51
1,10
152
56
52,70
167
77
153
26
FUOC P03/75057/01013
podemos calcular los valores estimados y los residuos. Es muy conveniente, por comodidad, disponer de los datos y los clculos en forma de tabla; en concreto, construiremos
una tabla de clculos del coeficiente de determinacin:
yi y
( yi y )
1,21
0,39
5,90
34,81
67,38
15,10
49
53,68
161
72
168
0,38
5,68
32,22
5,52
2,55
128,97
6,26
ei
ei
xi
yi
y i
yi y
( yi y )
0,15
1,49
2,23
161
63
61,51
1,10
9,20
84,69
3,30
10,91
152
56
52,70
228,01
5,48
30,06
9,62
92,50
167
77
12,90
166,41
8,22
67,63
4,68
21,87
153
61,51
10,10
102,01
0,39
0,15
10,49
110,07
62
68,36
0,10
0,01
6,46
41,75
6,36
40,47
167
68
67,38
6,10
37,21
5,48
30,06
0,62
153
48
53,68
13,90
193,21
8,22
67,63
159
57
59,55
4,90
24,01
2,35
10
173
67
73,26
5,10
26,01
11,36
619
812,90
456,61
ei
ei
0,15
1,49
2,23
9,20
84,69
3,30
10,91
228,01
5,48
30,06
9,62
92,50
12,90
166,41
8,22
67,63
4,68
21,87
61,51
10,10
102,01
0,39
0,15
10,49
110,07
62
68,36
0,10
0,01
6,46
41,75
6,36
40,47
167
68
67,38
6,10
37,21
5,48
30,06
0,62
0,38
153
48
53,68
13,90
193,21
8,22
67,63
5,68
32,22
6,50
159
57
59,55
4,90
24,01
2,35
5,52
2,55
6,50
39,14
10
173
67
73,26
5,10
26,01
11,36
128,97
6,26
39,14
356,29
Tenemos que:
619
812,90
456,61
356,29
Tenemos que:
SCR = 456,61
SCR = 456,61
SCT = 812,90
SCT = 812,90
Con este ejemplo podemos comprobar la equivalencia entre las dos expresiones obtenidas antes por el coeficiente de determinacin. A partir de la suma de los cuadrados de los
residuos:
Con este ejemplo podemos comprobar la equivalencia entre las dos expresiones obtenidas antes por el coeficiente de determinacin. A partir de la suma de los cuadrados de los
residuos:
SCE = 356,29
SCE = 356,29
A partir del diagrama de dispersin podemos ver si hay algn tipo de relacin
A partir del diagrama de dispersin podemos ver si hay algn tipo de relacin
grandes de Y.
grandes de Y.
27
FUOC P03/75057/01013
27
FUOC P03/75057/01013
s xy
( xi x )( yi y )
i--------------------------------------------W
= =1
n1
s xy
( xi x )( yi y )
i--------------------------------------------W
= =1
n1
nos puede servir para medir estas relaciones positivas y negativas entre las va-
nos puede servir para medir estas relaciones positivas y negativas entre las va-
riables X e Y.
riables X e Y.
Si tenemos una relacin positiva, entonces la mayora de los puntos de coordenadas ( ( x i x ), ( y i y ) ) estarn en el primer y tercer cuadrante en que
( x i x ) ( y i y ) 0 , de manera que contribuirn de forma positiva a la suma.
Si tenemos una relacin negativa, entonces la mayora de los puntos de co-
Esquema de relaciones
entre X e Y
Si tenemos una relacin positiva, entonces la mayora de los puntos de coordenadas ( ( x i x ), ( y i y ) ) estarn en el primer y tercer cuadrante en que
( x i x ) ( y i y ) 0 , de manera que contribuirn de forma positiva a la suma.
Si tenemos una relacin negativa, entonces la mayora de los puntos de co-
suma.
suma.
covarianza ser una cantidad pequea al encontrarse todos los puntos aproxi-
covarianza ser una cantidad pequea al encontrarse todos los puntos aproxi-
madamente igual repartidos por los cuatro cuadrantes, cosa que compensa
madamente igual repartidos por los cuatro cuadrantes, cosa que compensa
( xi x )( yi y )
s xy
i
=1
r = --------- = -------------------------------------------------------------n
n
s x sy
2
2
(
x
x
)
i
(yi y )
i=1
( xi x )( yi y )
s xy
i
=1
r = --------- = -------------------------------------------------------------n
n
s x sy
2
2
(
x
x
)
i
(yi y )
i=1
i=1
i=1
1 < r < 1 cuando la relacin entre las variables no sea lineal de forma exacta.
1 < r < 1 cuando la relacin entre las variables no sea lineal de forma exacta.
valor de r podemos decir que la relacin entre las variables es fuerte? Una re-
valor de r podemos decir que la relacin entre las variables es fuerte? Una re-
gla razonable es decir que la relacin es dbil si 0 < | r | < 0,5; fuerte si 0,8 <
gla razonable es decir que la relacin es dbil si 0 < | r | < 0,5; fuerte si 0,8 <
Esquema de relaciones
entre X e Y
28
FUOC P03/75057/01013
28
FUOC P03/75057/01013
xi
yi
x xi
y yi
( x xi )
161
63
0,4
1,1
0,16
152
56
9,4
5,9
167
77
5,6
153
49
161
(y yi )
xi
yi
x xi
y yi
( x xi )
1,21
0,44
161
63
0,4
1,1
0,16
1,21
0,44
88,36
34,81
55,46
152
56
9,4
5,9
88,36
34,81
55,46
15,1
31,36
228,01
84,56
167
77
5,6
15,1
31,36
228,01
84,56
8,4
12,9
70,56
166,41
108,36
153
49
8,4
12,9
70,56
166,41
108,36
72
0,4
10,1
0,16
102,01
4,04
161
72
0,4
10,1
0,16
102,01
4,04
168
62
6,6
0,1
43,56
0,01
0,66
168
62
6,6
0,1
43,56
0,01
0,66
167
68
5,6
6,1
31,36
37,21
34,16
167
68
5,6
6,1
31,36
37,21
34,16
153
48
8,4
13,9
70,56
193,21
116,76
153
48
8,4
13,9
70,56
193,21
116,76
159
57
2,4
4,9
5,76
24,01
11,76
159
57
2,4
4,9
5,76
24,01
11,76
10
173
67
11,6
5,1
134,56
26,01
59,16
10
173
67
11,6
5,1
134,56
26,01
59,16
1.614
619
476,40
812,90
466,40
1.614
619
476,40
812,90
466,40
( xi x ) ( yi y )
466,40
=1
- = ------------------- = 51,822
s xy = i-------------------------------------------n1
10 1
n
( xi x )
( yi y )
( x xi ) ( y yi )
( xi x ) ( yi y )
466,40
=1
- = ------------------- = 51,822
s xy = i-------------------------------------------n1
10 1
n
( xi x )
476,40
2
=1
- = ------------------- = 52,933 de manera que sx = 7,276
s x = i---------------------------n1
10 1
(y yi )
( x xi ) ( y yi )
476,40
2
=1
- = ------------------- = 52,933 de manera que sx = 7,276
s x = i---------------------------n1
10 1
n
( yi y )
812,90
=1
s = i---------------------------= ------------------- = 90,322 de manera que sy = 9,504
n1
10 1
812,90
=1
s = i---------------------------= ------------------- = 90,322 de manera que sy = 9,504
n1
10 1
s xy
51,822
r = --------- = ------------------------------------ = 0,749
sx s y
7,276 9,504
s xy
51,822
r = --------- = ------------------------------------ = 0,749
sx s y
7,276 9,504
El coeficiente de correlacin lineal obtenido por nuestro ejemplo del peso y la altura es r =
0,749, que nos informa de la existencia de una moderada relacin entre estas dos variables,
as como de que, a medida que la altura crece, el peso tambin lo hace (ya que es positivo).
El coeficiente de correlacin lineal obtenido por nuestro ejemplo del peso y la altura es r =
0,749, que nos informa de la existencia de una moderada relacin entre estas dos variables,
as como de que, a medida que la altura crece, el peso tambin lo hace (ya que es positivo).
2
y
2
y
4. Relacin entre R2 y r
4. Relacin entre R2 y r
y el coeficiente de determinacin:
y el coeficiente de determinacin:
29
FUOC P03/75057/01013
No obstante, en la regresin lineal simple tenemos que R2 = r2, como fcilmente podemos comprobar.
Observacin
En la regresin lineal mltiple
ya no tendremos la igualdad
R2 = r2.
29
FUOC P03/75057/01013
No obstante, en la regresin lineal simple tenemos que R2 = r2, como fcilmente podemos comprobar.
s xy
r = --------sx s y
s xy
r = --------sx s y
s xy
1 = ------2
sx
s xy
1 = ------2
sx
s
1 = r ----y
sx
Por otra parte, tenemos el otro parmetro de la recta de regresin: 0 = y 1 x y la ecuacin de los valores estimados: y i = 0 + 1 x i . De estas dos expresiones podemos escribir:
Por otra parte, tenemos el otro parmetro de la recta de regresin: 0 = y 1 x y la ecuacin de los valores estimados: y i = 0 + 1 x i . De estas dos expresiones podemos escribir:
y i y = 0 + 1 x i y = y 1 x + 1 x i y = 1 ( x i x )
y i y = 0 + 1 x i y = y 1 x + 1 x i y = 1 ( x i x )
= r
2
2
r
( y i y )
2 (xi x )
2
R = --------------------------2- = 1 ---------------------------2 =
( yi y )
( yi y )
= r
2
sy ( xi x )
----2 ---------------------------2
s x ( yi y )
2
2
r
( y i y )
2 (xi x )
2
R = --------------------------2- = 1 ---------------------------2 =
( yi y )
( yi y )
valor de r = 0,5 era dbil. Este valor representar un R = 0,25, es decir, el mo-
valor de r = 0,5 era dbil. Este valor representar un R2 = 0,25, es decir, el mo-
delo de regresin slo nos explica un 25% de la variabilidad total de las obser-
delo de regresin slo nos explica un 25% de la variabilidad total de las obser-
vaciones.
vaciones.
valor de r siempre podremos calcular el valor de R2, pero al revs siempre nos
R2
Observacin
30
FUOC P03/75057/01013
30
FUOC P03/75057/01013
Una vez hecho el ajuste de un modelo de regresin lineal a nuestros datos mues-
Una vez hecho el ajuste de un modelo de regresin lineal a nuestros datos mues-
lo haremos grficamente representando un diagrama de dispersin de los puntos ( y i , e ), es decir, sobre el eje de las abscisas representamos el valor estimado
lo haremos grficamente representando un diagrama de dispersin de los puntos ( y i , e ), es decir, sobre el eje de las abscisas representamos el valor estimado
Caso (a)
Caso (b)
Caso (c)
Caso (d)
X(a)
Y(a)
X(b)
Y(b)
X(c)
Y(c)
X(d)
Y(d)
10
8,04
10
9,14
10
7,46
6,95
8,14
6,77
13
7,58
13
8,74
13
8,81
8,77
11
8,33
11
14
9,96
Lectura complementaria
Encontraris el ejemplo
de Anscombe en el artculo
siguiente:
T.W. Anscombe (1973).
Graphs in Statistical
Analysis. The American
Statistician (nm. 27,
pg. 17-21).
Caso (a)
Caso (b)
Caso (c)
Caso (d)
X(a)
Y(a)
X(b)
Y(b)
X(c)
Y(c)
X(d)
Y(d)
6,58
10
8,04
10
9,14
10
7,46
6,58
5,76
6,95
8,14
6,77
5,76
12,74
7,71
13
7,58
13
8,74
13
12,74
7,71
7,11
8,84
8,81
8,77
7,11
8,84
9,26
11
7,81
8,47
11
8,33
11
9,26
11
7,81
8,47
14
8,10
14
8,84
7,04
14
9,96
14
8,10
14
8,84
7,04
7,24
6,13
6,08
5,25
7,24
6,13
6,08
5,25
4,26
3,10
5,39
19
12,50
4,26
3,10
5,39
19
12,50
12
10,84
12
9,13
12
8,15
5,56
12
10,84
12
9,13
12
8,15
5,56
4,82
7,26
6,42
7,91
4,82
7,26
6,42
7,91
5,68
4,74
5,73
6,89
5,68
4,74
5,73
6,89
Lectura complementaria
Encontraris el ejemplo
de Anscombe en el artculo
siguiente:
T.W. Anscombe (1973).
Graphs in Statistical
Analysis. The American
Statistician (nm. 27,
pg. 17-21).
31
FUOC P03/75057/01013
31
FUOC P03/75057/01013
en el ejemplo de Anscombe.
en el ejemplo de Anscombe.
recta:
recta:
y = 3 + 0,5x
y = 3 + 0,5x
Si ahora hacemos el estudio de los residuos tal como hemos indicado antes, te-
Si ahora hacemos el estudio de los residuos tal como hemos indicado antes, te-
32
FUOC P03/75057/01013
32
FUOC P03/75057/01013
Podemos observar que de las cuatro, slo la primera no presenta ningn tipo
Podemos observar que de las cuatro, slo la primera no presenta ningn tipo
observa un comportamiento curvilneo que nos hace pensar que un ajuste li-
observa un comportamiento curvilneo que nos hace pensar que un ajuste li-
la presencia del valor atpico (13, 12,74) que nos ha hecho ajustar un modelo
la presencia del valor atpico (13, 12,74) que nos ha hecho ajustar un modelo
y = 4,01 + 0,345x.
y = 4,01 + 0,345x.
la recta de regresin.
la recta de regresin.
Influencia de un valor
atpico
Un ltimo ejemplo que todava podemos examinar es el de la relacin de las alturas y pesos. A partir de los datos de la tabla ya vista:
Un ltimo ejemplo que todava podemos examinar es el de la relacin de las alturas y pesos. A partir de los datos de la tabla ya vista:
yi y
( yi y )
1,21
0,39
5,90
34,81
67,38
15,10
49
53,68
72
61,51
yi y
( yi y )
1,21
0,39
5,90
34,81
67,38
15,10
49
53,68
72
61,51
ei
xi
yi
y i
yi y
( yi y )
0,15
1,49
2,23
161
63
61,51
1,10
9,20
84,69
3,30
10,91
152
56
52,70
228,01
5,48
30,06
9,62
92,50
167
77
12,90
166,41
8,22
67,63
4,68
21,87
153
10,10
102,01
0,39
0,15
10,49
110,07
161
xi
yi
y i
yi y
( yi y )
161
63
61,51
1,10
152
56
52,70
167
77
153
161
ei
ei
ei
0,15
1,49
2,23
9,20
84,69
3,30
10,91
228,01
5,48
30,06
9,62
92,50
12,90
166,41
8,22
67,63
4,68
21,87
10,10
102,01
0,39
0,15
10,49
110,07
33
FUOC P03/75057/01013
33
FUOC P03/75057/01013
yi y
( yi y )
ei
ei
xi
yi
y i
yi y
( yi y )
0,01
6,46
41,75
6,36
40,47
168
62
68,36
0,10
6,10
37,21
5,48
30,06
0,62
0,38
167
68
67,38
53,68
13,90
193,21
8,22
67,63
5,68
32,22
153
48
57
59,55
4,90
24,01
2,35
5,52
2,55
6,50
159
67
73,26
5,10
26,01
11,36
128,97
6,26
39,14
10
173
356,29
xi
yi
y i
yi y
( yi y )
168
62
68,36
0,10
167
68
67,38
153
48
159
10
173
61,9
812,90
456,61
yi y
( yi y )
ei
ei
0,01
6,46
41,75
6,36
40,47
6,10
37,21
5,48
30,06
0,62
0,38
53,68
13,90
193,21
8,22
67,63
5,68
32,22
57
59,55
4,90
24,01
2,35
5,52
2,55
6,50
67
73,26
5,10
26,01
11,36
128,97
6,26
39,14
61,9
812,90
456,61
356,29
No podemos observar ningn tipo de estructura en la representacin; por tanto, podemos concluir que el modelo de regresin obtenido es un buen modelo para explicar la
relacin entre las dos variables.
No podemos observar ningn tipo de estructura en la representacin; por tanto, podemos concluir que el modelo de regresin obtenido es un buen modelo para explicar la
relacin entre las dos variables.
6. Resumen
6. Resumen
cin muestral, r, que nos mide el grado de asociacin entre dos variables. Hemos
cin muestral, r, que nos mide el grado de asociacin entre dos variables. Hemos
34
FUOC P03/75057/01013
34
FUOC P03/75057/01013
Ejercicios
Ejercicios
1.
1.
Una tienda de ordenadores llev a cabo un estudio para determinar la relacin en-
Una tienda de ordenadores llev a cabo un estudio para determinar la relacin en-
tre los gastos de publicidad semanal y las ventas. Se obtuvieron los datos siguientes:
tre los gastos de publicidad semanal y las ventas. Se obtuvieron los datos siguientes:
Gastos en publicidad
(
1.000 )
Ventas
(
100.000 )
Gastos en publicidad
(
1.000 )
Ventas
(
100.000 )
40
380
40
380
25
410
25
410
20
390
20
390
22
370
22
370
31
475
31
475
52
450
52
450
40
500
40
500
20
390
20
390
55
575
55
575
42
520
42
520
xi
= 347
i=1
10
10
yi
= 4.460
i=1
10
i=1
10
= 6.018
i=1
( x i x ) = 1.522,1
( y i y )
10
( xi x )( yi y )
10
xi
= 347
i=1
( y i y ) = 43.590,0
i=1
10
10
yi
= 4.460
i=1
10
( yi y )
( x i x ) = 1.522,1
10
( y i y )
= 6.018
i=1
i=1
= 23.793,66
10
( xi x )( yi y )
= 43.590,0
i=1
= 23.793,66
i=1
i=1
el coeficiente de correlacin.
el coeficiente de correlacin.
2.
2.
tes que siguieron el programa y el nmero de semanas que hace que lo siguen:
tes que siguieron el programa y el nmero de semanas que hace que lo siguen:
Nmero de semanas
Ganancia de velocidad
(p.p.m.)
Nmero de semanas
Ganancia de velocidad
(p.p.m.)
87
87
119
119
47
47
195
195
162
162
35
FUOC P03/75057/01013
35
FUOC P03/75057/01013
Nmero de semanas
Ganancia de velocidad
(p.p.m.)
Nmero de semanas
Ganancia de velocidad
(p.p.m.)
234
234
72
72
110
110
y = 1,659 + 25,318x
y = 1,659 + 25,318x
Solucionario
Solucionario
1.
1.
SCR
2
R = ----------SCT
SCR
2
R = ----------SCT
10
( y i y )
i=1
10
( y i y ) = 43.590,0
10
= 23.793,66
i=1
i=1
( y i y )
10
( y i y )
10
( yi y )
= 43.590,0
i=1
10
( y i y )
23.793,66
SCR
2
=1
= ---------------------------- = 0,5458
De manera que: R = ----------- = i---------------------------10
43.590,0
SCT
2
( yi y )
23.793,66
SCR
2
=1
= ---------------------------- = 0,5458
De manera que: R = ----------- = i---------------------------10
43.590,0
SCT
2
( yi y )
en cuenta que:
en cuenta que:
i=1
i=1
R2 = r2
R2 = r2
que tenemos una relacin positiva entre los gastos en publicidad y ventas.
que tenemos una relacin positiva entre los gastos en publicidad y ventas.
r = + R = + 0,5458 = 0,7388
r = + R = + 0,5458 = 0,7388
36
FUOC P03/75057/01013
36
FUOC P03/75057/01013
2.
2.
xi
(yi y )
( y i y )
y i
yi y
87
77,61
41,25
1.701,56
50,64
119
128,25
9,25
85,56
47
52,30
81,25
195
204,20
162
7
8
yi
( y i y )
xi
2.564,11
0,00
0,00
6.601,56
75,96
5.769,16
66,75
4.455,56
75,95
153,57
33,75
1.139,06
234
229,52
105,75
72
77,61
110
102,93
(yi y )
( y i y )
( y i y )
y i
yi y
87
77,61
41,25
1.701,56
50,64
2.564,11
119
128,25
9,25
85,56
0,00
0,00
47
52,30
81,25
6.601,56
75,96
5.769,16
5.768,86
195
204,20
66,75
4.455,56
75,95
5.768,86
25,32
640,95
162
153,57
33,75
1.139,06
25,32
640,95
11.183,06
101,27
10.255,82
234
229,52
105,75
11.183,06
101,27
10.255,82
56,25
3.164,06
50,64
2.564,11
72
77,61
56,25
3.164,06
50,64
2.564,11
18,25
333,06
25,32
641,05
110
102,93
18,25
333,06
25,32
641,05
28.204,05
1.026
28.663,50
yi
1.026
28.663,50
28.204,05
b) Para hacer el anlisis de los residuos, en primer lugar calcularemos los resi-
b) Para hacer el anlisis de los residuos, en primer lugar calcularemos los resi-
xi
yi
y i
e i = y i y i
xi
yi
y i
e i = y i y i
87
77,61
9,39
87
77,61
9,39
119
128,25
9,25
119
128,25
9,25
47
52,30
5,30
47
52,30
5,30
195
204,20
9,20
195
204,20
9,20
162
153,57
8,43
162
153,57
8,43
234
229,52
4,48
234
229,52
4,48
72
77,61
5,61
72
77,61
5,61
110
102,93
7,07
110
102,93
7,07
ma de residuos siguiente:
ma de residuos siguiente:
FUOC P03/75057/01013
37
FUOC P03/75057/01013
37
llegar a la conclusin de que el modelo lineal es adecuado para tratar este pro-
llegar a la conclusin de que el modelo lineal es adecuado para tratar este pro-
blema.
blema.
38
FUOC P03/75057/01013
38
FUOC P03/75057/01013
Anexos
Anexos
Anexo 1
Anexo 1
donde:
donde:
ei = yi y i
ei = yi y i
Podemos escribir:
Podemos escribir:
yi = y i + ei
yi = y i + ei
Y si ahora restamos a los dos miembros de esta igualdad la media de las obser-
Y si ahora restamos a los dos miembros de esta igualdad la media de las obser-
vaciones yi, obtenemos una expresin que nos relaciona las desviaciones con
vaciones yi, obtenemos una expresin que nos relaciona las desviaciones con
y i y = ( y i y ) + e i
y i y = ( y i y ) + e i
( yi y )
i=1
[ ( y i y ) + e i ]
i=1
2 ( y i y )e i =
i=1
i=1
y i e i
( y i y )
i=1
yei =
i=1
i=1
+ 2 ( y i y )e i +
i=1
i=1
i=1
y i e i y e i = 0 + 0 = 0
i=1
ei
y i e i = 0 y
( yi y )
i=1
[ ( y i y ) + e i ]
i=1
2 ( y i y )e i =
i=1
i=1
y i e i
i=1
ei = 0
i=1
yei =
i=1
i=1
( y i y )
+ 2 ( y i y )e i +
i=1
i=1
i=1
y i e i y e i = 0 + 0 = 0
i=1
ei
y i e i = 0 y
ei
i=1
= 0
39
FUOC P03/75057/01013
0 =
( yi 0 1 xi )
( y i y i )
i=1
0 =
i=1
( y i 0 1 x i )x i =
i=1
0 =
0 =
ei xi
i=1
y i ei
i=1
( 0 1 xi )e i
i=1
( yi y )
i=1
= SCT
ei xi
i=1
y i ei
i=1
i=1
i=1
( 0 1 xi )e i
i=1
i=1
i=1
= 0 e i + 1 e i x i = 0
( y i y )
i=1
ei
( yi y )
i=1
i=1
( y i y )
i=1
ei
i=1
Si denominamos:
i=1
n
i=1
( yi y )
= SCT
= SCR
i=1
( y i y ) = SCR
ei
ei
i=1
( y i 0 1 x i )x i =
= 0 e i + 1 e i x i = 0
i=1
Si denominamos:
( y i y i )
i=1
Y, por tanto:
n
( yi 0 1 xi )
i=1
i=1
Y, por tanto:
( yi y )
39
FUOC P03/75057/01013
ei
( y i y )
i=1
= SCE
ei
= SCE
i=1
i=1
40
FUOC P03/75057/01013
40
FUOC P03/75057/01013
Inferencia en la regresin
Inferencia en la regresin
1. Introduccin
1. Introduccin
mos la recta que mejor se ajustaba a nuestros datos haciendo que la suma de
mos la recta que mejor se ajustaba a nuestros datos haciendo que la suma de
El peso depende de la
altura y de otros factores
En el ejemplo de la relacin
entre el peso y la altura de las
personas, es evidente que
existen muchos factores, como
pueden ser aspectos genticos,
la actividad fsica, la alimentacin, etc., que hacen que
una persona de una determinada altura tenga un peso u
otro. Para una altura fija, de por
ejemplo 170 cm, no todas las
personas tienen el mismo peso.
cribir: y i = y i + e i , es decir:
cribir: y i = y i + e i , es decir:
y i = 0 + 1 x + e i
Podemos hacer lo mismo con varias muestras de esta misma poblacin.
y i = 0 + 1 x + e i
Podemos hacer lo mismo con varias muestras de esta misma poblacin.
Consideremos las observaciones de los pesos (kg) y alturas (cm) de tres muestras de alumnos de la UOC y las rectas de regresin correspondientes:
Consideremos las observaciones de los pesos (kg) y alturas (cm) de tres muestras de alumnos de la UOC y las rectas de regresin correspondientes:
El peso depende de la
altura y de otros factores
En el ejemplo de la relacin
entre el peso y la altura de las
personas, es evidente que
existen muchos factores, como
pueden ser aspectos genticos,
la actividad fsica, la alimentacin, etc., que hacen que
una persona de una determinada altura tenga un peso u
otro. Para una altura fija, de por
ejemplo 170 cm, no todas las
personas tienen el mismo peso.
41
FUOC P03/75057/01013
41
FUOC P03/75057/01013
Muestra j = 1
Muestra j = 1
Individuos
i=1
i=2
i=3
i=4
i=5
i=6
i=7
i=8
i=9
i = 10
Individuos
i=1
i=2
i=3
i=4
i=5
i=6
i=7
i=8
i=9
i = 10
Altura ( xij )
161
152
167
153
161
168
167
153
159
173
Altura ( xij )
161
152
167
153
161
168
167
153
159
173
Peso ( yij )
63
56
77
49
72
62
68
48
57
67
Peso ( yij )
63
56
77
49
72
62
68
48
57
67
Muestra j = 2
Muestra j = 2
Individuos
i=1
i=2
i=3
i=4
i=5
i=6
i=7
i=8
Individuos
i=1
i=2
i=3
i=4
i=5
i=6
i=7
i=8
Altura
161
152
167
153
161
168
167
153
Altura
161
152
167
153
161
168
167
153
63
56
77
49
72
62
68
48
Peso (yij)
63
56
77
49
72
62
68
48
(xij)
Peso (yij)
(xij)
Muestra j = 3
Muestra j = 3
Individuos
i=1
i=2
i=3
i=4
i=5
i=6
i=7
i=8
i=9
Individuos
i=1
i=2
i=3
i=4
i=5
i=6
i=7
i=8
i=9
Altura
161
152
167
153
161
168
167
153
159
Altura
161
152
167
153
161
168
167
153
159
63
56
77
49
72
62
68
48
57
Peso (yij)
63
56
77
49
72
62
68
48
57
(xij)
Peso (yij)
(xij)
Observamos que los valores obtenidos para cada coeficiente son relativamente similares:
Observamos que los valores obtenidos para cada coeficiente son relativamente similares:
Podemos pensar que si recogemos ms muestras de la misma poblacin, iremos obteniendo coeficientes parecidos a stos.
Podemos pensar que si recogemos ms muestras de la misma poblacin, iremos obteniendo coeficientes parecidos a stos.
ste vendr dado por una expresin anloga a las encontradas por las muestras.
ste vendr dado por una expresin anloga a las encontradas por las muestras.
Notacin
yi = 0 + 1 x + ei
Para encontrar este modelo para la poblacin, deberamos estudiar a todos los
Para encontrar este modelo para la poblacin, deberamos estudiar a todos los
varianza .
2) Los errores son independientes.
varianza .
2) Los errores son independientes.
Notacin
No ponemos los sombreros
sobre los parmetros para indicar que ahora se trata de la
recta de regresin para la poblacin.
42
FUOC P03/75057/01013
42
FUOC P03/75057/01013
estas distribuciones:
estas distribuciones:
x = E (Y x ) = E ( 0 + 1 x + e ) = 0 + 1 x + E ( e ) = 0 + 1 x
x = E (Y x ) = E ( 0 + 1 x + e ) = 0 + 1 x + E ( e ) = 0 + 1 x
za de los residuos.
za de los residuos.
de la poblacin.
de la poblacin.
recta se estiman por el mtodo de los mnimos cuadrados. Este mtodo determi-
recta se estiman por el mtodo de los mnimos cuadrados. Este mtodo determi-
na aquellos valores de los parmetros que hacen mnima la suma de los cuadra-
na aquellos valores de los parmetros que hacen mnima la suma de los cuadra-
( xi x )( yi y )
s xy
i=1
0 = y 1 x ; 1 = ------2 = -------------------------------------------n
2
sx
( xi x )
i=1
( xi x )( yi y )
s xy
i=1
0 = y 1 x ; 1 = ------2 = -------------------------------------------n
2
sx
( xi x )
i=1
43
FUOC P03/75057/01013
De manera que 0 y 1 son los valores estimados (o estimadores) de los parmetros 0 y 1 de la poblacin. Y la recta que mejor se ajusta a los datos es:
43
FUOC P03/75057/01013
Valor medio
Debemos interpretar:
Debemos interpretar:
y i = 0 + 1 x i
y i = 0+ 1 x i
Todava nos falta estimar la varianza de los errores aleatorios, 2. Este trmino
y i = 0 + 1 x i
y i = 0+ 1 x i
Todava nos falta estimar la varianza de los errores aleatorios, 2. Este trmino
de los residuos:
de los residuos:
2
2
1
s = ------------ ( y i y i )
n 2i = 1
Prdida de grados de
libertad
El razonamiento es el mismo
que el que hacemos al justificar
la divisin por (n 1) en la frmula de la varianza muestral:
n
10
Altura
161
152
167
153
161
168
167
153
159
63
56
77
49
72
62
68
48
57
(x)
Peso (yi)
2
2
1
s = ------------ ( y i y i )
n 2i = 1
Terminologa
2
1
s = ------------ ( y i 0 1 x i )
n 2i = 1
2
Valor medio
2
x
( xi x )
i=1
s = ---------------------------n1
Lo hacemos porque hemos
perdido un grado de libertad
al estimar la media a partir de
los datos de la muestra.
Terminologa
Habitualmente, s2 se denomina varianza residual.
2
1
s = ------------ ( y i 0 1 x i )
n 2i = 1
2
El razonamiento es el mismo
que el que hacemos al justificar
la divisin por (n 1) en la frmula de la varianza muestral:
n
10
173
Altura
161
152
167
153
161
168
167
153
159
173
67
Peso (yi)
63
56
77
49
72
62
68
48
57
67
Prdida de grados de
libertad
(x)
2
x
( xi x )
i=1
s = ---------------------------n1
Lo hacemos porque hemos
perdido un grado de libertad
al estimar la media a partir de
los datos de la muestra.
y = 96,112 + 0,979x
y = 96,112 + 0,979x
Para hacer los clculos ms cmodos, es aconsejable construir la tabla de clculos por la
varianza de los residuos que se muestra a continuacin.
i
xi
yi
y i
xi x
( xi x )
161
63
61,51
0,4
152
56
52,70
167
77
153
Para hacer los clculos ms cmodos, es aconsejable construir la tabla de clculos por la
varianza de los residuos que se muestra a continuacin.
i
xi
yi
y i
xi x
( xi x )
2,225
161
63
61,51
0,4
3,30
10,908
152
56
52,70
31,36
9,62
92,498
167
77
8,4
70,56
4,68
21,868
153
61,51
0,4
0,16
10,49
110,075
62
68,36
6,6
43,56
6,36
40,468
167
68
67,38
5,6
31,36
0,62
153
48
53,68
8,4
70,56
5,68
e i = y i y i
ei
0,16
1,49
9,4
88,36
67,38
5,6
49
53,68
161
72
168
7
8
e i = y i y i
ei
0,16
1,49
2,225
9,4
88,36
3,30
10,908
67,38
5,6
31,36
9,62
92,498
49
53,68
8,4
70,56
4,68
21,868
161
72
61,51
0,4
0,16
10,49
110,075
168
62
68,36
6,6
43,56
6,36
40,468
0,381
167
68
67,38
5,6
31,36
0,62
0,381
32,220
153
48
53,68
8,4
70,56
5,68
32,220
44
FUOC P03/75057/01013
44
FUOC P03/75057/01013
e i = y i y i
ei
xi
yi
y i
xi x
( xi x )
5,76
2,55
6,504
159
57
59,55
2,4
134,56
6,26
39,143
10
173
67
73,26
11,6
356,290
1.6
14
619
xi
yi
y i
xi x
( xi x )
159
57
59,55
2,4
10
173
67
73,26
11,6
1.6
14
619
476,4
La octava columna contiene los cuadrados de los residuos. Sumando todos los datos y
dividiendo por el nmero de observaciones menos 2, es decir, por 10 2 = 8, obtenemos
la varianza de los residuos:
e i = y i y i
ei
5,76
2,55
6,504
134,56
6,26
39,143
476,4
356,290
La octava columna contiene los cuadrados de los residuos. Sumando todos los datos y
dividiendo por el nmero de observaciones menos 2, es decir, por 10 2 = 8, obtenemos
la varianza de los residuos:
356,290
2
2
1
s = ------------ ( y i y i ) = ---------------------- = 44,536
10 2
n2
356,290
2
2
1
s = ------------ ( y i y i ) = ---------------------- = 44,536
10 2
n2
i=1
i=1
texto del problema: por este motivo, nicamente consideraremos hacer infe-
texto del problema: por este motivo, nicamente consideraremos hacer infe-
las observaciones yi; y si stas tienen una distribucin normal y son indepen-
las observaciones yi; y si stas tienen una distribucin normal y son indepen-
dientes (tal como hemos supuesto al establecer el modelo de regresin), entonces tambin tendr una distribucin normal. Tendremos bien determinada
dientes (tal como hemos supuesto al establecer el modelo de regresin), entonces tambin tendr una distribucin normal. Tendremos bien determinada
E ( 1 ) = 1
E ( 1 ) = 1
normal con una media igual al valor de este parmetro para la poblacin.
normal con una media igual al valor de este parmetro para la poblacin.
Aunque este valor es desconocido, este resultado nos ser muy til para te-
Aunque este valor es desconocido, este resultado nos ser muy til para te-
Varianza de 1 :
Varianza de 1 :
2
2
= --------------------------2
1
(
x
i x)
2
= --------------------------2
1
(
x
i x)
45
FUOC P03/75057/01013
45
FUOC P03/75057/01013
Acabamos de ver que las suposiciones del modelo de regresin lineal simple implican que el parmetro es una variable aleatoria distribuida normalmente
Acabamos de ver que las suposiciones del modelo de regresin lineal simple implican que el parmetro es una variable aleatoria distribuida normalmente
con:
con:
Media: 1
Media: 1
2
Varianza: = --------------------------2
1
( xi x )
2
Varianza: = --------------------------2
1
( xi x )
2
2
1
s = ------------ ( y i 0 1 x i )
n 2i = 1
2
2
1
s = ------------ ( y i 0 1 x i )
n 2i = 1
s
2
s = --------------------------2
1
(
x
i x)
s
2
s = --------------------------2
1
(
x
i x)
Dado que 1 sigue una distribucin normal con varianza desconocida (ya que
Dado que 1 sigue una distribucin normal con varianza desconocida (ya que
1 1
----------------s
[ 1 t 2, n 2 s 1 1 + t 2, n 2 s ]
1
[ 1 t 2, n 2 s 1 1 + t 2, n 2 s ]
ya que:
ya que:
1
P t 2, n 2 ----------------1- t 2, n 2 = 1
s
1
P t 2, n 2 ----------------1- t 2, n 2 = 1
s
Intervalo de confianza
por la pendiente con un nivel
significativo .
46
FUOC P03/75057/01013
46
FUOC P03/75057/01013
Consideremos una vez ms el ejemplo de los pesos y las alturas de una muestra de diez
personas. La recta de regresin correspondiente era: y = 96,112 + 0,979x, de manera
que 1 = 0,979.
Consideremos una vez ms el ejemplo de los pesos y las alturas de una muestra de diez
personas. La recta de regresin correspondiente era: y = 96,112 + 0,979x, de manera
que 1 = 0,979.
Calcularemos un intervalo de confianza del 95% para la pendiente. Por tanto, = 0,05 y mirando la tabla de la t de Student tenemos un valor crtico de t 2 ; n 2 = t 0,025;8 = 2,3060.
Calcularemos un intervalo de confianza del 95% para la pendiente. Por tanto, = 0,05 y mirando la tabla de la t de Student tenemos un valor crtico de t 2 ; n 2 = t 0,025;8 = 2,3060.
2
1
s
= ---------------------------2(
x
i x)
donde:
2
1
s
= ---------------------------2(
x
i x)
donde:
2
1
s = -----------n2
( y i y i )
2
1
s = -----------n2
i=1
2
1
s = -----------n2
i=1
( y i y i )
i=1
356,290
2
( y i y i ) = ---------------------- = 44 , 536
10 2
De manera que:
2
1
s = -----------n2
( y i y i )
i=1
356,290
= ---------------------- = 44 , 536
10 2
De manera que:
2
1
s
44,536
= ---------------------------2- = ------------------- = 0,093
476,4
(
x
x
)
i
0,093 = 0,306
2
1
s
44,536
= ---------------------------2- = ------------------- = 0,093
476,4
(
x
x
)
i
0,093 = 0,306
recta de regresin para saber si podemos afirmar o no que ste es igual a cero.
recta de regresin para saber si podemos afirmar o no que ste es igual a cero.
Hiptesis nula:
Hiptesis nula:
47
FUOC P03/75057/01013
No rechazar la hiptesis nula significa que no se puede considerar el parmetro 1 significativamente diferente de cero. Es decir, la variable X no tiene influencia sobre la variable Y y, por tanto, no existe una relacin lineal entre las
dos variables.
Interpretacin geomtrica
No rechazar H0 significa que la
recta estimada tiene una pendiente nula y, por tanto, para
cualquier valor de X la variable
Y toma un mismo valor.
47
FUOC P03/75057/01013
No rechazar la hiptesis nula significa que no se puede considerar el parmetro 1 significativamente diferente de cero. Es decir, la variable X no tiene influencia sobre la variable Y y, por tanto, no existe una relacin lineal entre las
dos variables.
de contraste:
de contraste:
1
t = -----s
1
t = -----s
grados de libertad.
grados de libertad.
Interpretacin geomtrica
No rechazar H0 significa que la
recta estimada tiene una pendiente nula y, por tanto, para
cualquier valor de X la variable
Y toma un mismo valor.
Recordemos que...
... el p-valor es la probabilidad
del resultado observado o de
uno ms alejado si la hiptesis
nula es cierta.
Si |t| > t/2, n2, se rechaza la hiptesis nula H0; por tanto, hay una relacin
Si |t| > t/2, n2, se rechaza la hiptesis nula H0; por tanto, hay una relacin
Si |t| t/2, n2, no se rechaza la hiptesis nula H0; por tanto, no hay una
Si |t| t/2, n2, no se rechaza la hiptesis nula H0; por tanto, no hay una
Continuando con el ejemplo de las alturas y los pesos, queremos contrastar la hiptesis
nula de que la variable X no es explicativa de la variable Y, es decir, que la pendiente de
la recta de regresin es cero.
Continuando con el ejemplo de las alturas y los pesos, queremos contrastar la hiptesis
nula de que la variable X no es explicativa de la variable Y, es decir, que la pendiente de
la recta de regresin es cero.
Hiptesis nula:
Hiptesis alternativa:
H0: 1 = 0
H1: 1 0
Hiptesis nula:
Hiptesis alternativa:
H0: 1 = 0
H1: 1 0
1
2) Calculamos el estadstico de contraste: t = ------- = 3,202
s
1
2) Calculamos el estadstico de contraste: t = ------- = 3,202
s
3) Establecemos un criterio de decisin a partir de un nivel significativo fijado: si escogemos un nivel significativo de = 0,05:
3) Establecemos un criterio de decisin a partir de un nivel significativo fijado: si escogemos un nivel significativo de = 0,05:
a) A partir del p-valor: P(|t| > 3,202) = 2P(t > 3,202) = 2 0,0063 = 0,0126 < 0,05; por tanto,
rechazamos la hiptesis nula.
a) A partir del p-valor: P(|t| > 3,202) = 2P(t > 3,202) = 2 0,0063 = 0,0126 < 0,05; por tanto,
rechazamos la hiptesis nula.
b) A partir del valor crtico que es t0,025;8 = 2,3060, dado que 3,202 > 2,306, llegamos a la
misma conclusin: rechazamos la hiptesis nula y podemos concluir que la variable altura es explicativa del peso de las personas con un 95% de confianza.
b) A partir del valor crtico que es t0,025;8 = 2,3060, dado que 3,202 > 2,306, llegamos a la
misma conclusin: rechazamos la hiptesis nula y podemos concluir que la variable altura es explicativa del peso de las personas con un 95% de confianza.
Recordemos que...
... el p-valor es la probabilidad
del resultado observado o de
uno ms alejado si la hiptesis
nula es cierta.
FUOC P03/75057/01013
48
FUOC P03/75057/01013
48
6. Resumen
6. Resumen
una poblacin y que las utilizamos para extraer algunas conclusiones del com-
una poblacin y que las utilizamos para extraer algunas conclusiones del com-
el comportamiento de la variable Y.
el comportamiento de la variable Y.
49
FUOC P03/75057/01013
49
FUOC P03/75057/01013
Ejercicios
Ejercicios
1.
1.
lo siguen:
lo siguen:
Nmero de
semanas
Ganancia de velocidad
(p.p.m.)
Nmero de
semanas
Ganancia de velocidad
(p.p.m.)
87
87
119
119
47
47
195
195
162
162
234
234
72
72
110
110
y i = 1,659 + 25,318xi
y i = 1,659 + 25,318xi
de regresin.
de regresin.
cia de velocidad.
cia de velocidad.
2.
2.
entre los gastos de publicidad semanal y las ventas. Se obtuvieron los datos si-
entre los gastos de publicidad semanal y las ventas. Se obtuvieron los datos si-
guientes:
guientes:
Gastos en publicidad
(x 1.000 )
Ventas
(x 1.000 )
Gastos en publicidad
(x 1.000 )
Ventas
(x 1.000 )
40
380
40
380
25
410
25
410
20
390
20
390
22
370
22
370
31
475
31
475
52
450
52
450
40
500
40
500
20
390
20
390
55
575
55
575
42
520
42
520
50
FUOC P03/75057/01013
x i = 347
i=1
10
10
y i = 4.460
i=1
10
( x i x ) = 1.522,1
i=1
10
10
( x i x ) ( y i y ) = 6.018
10
y i = 4.460
i=1
10
i=1
( xi x )( yi y )
10
( yi y )
( x i x ) = 1.522,1
= 6.018
= 43.590,0
i=1
( y i y )
= 19.796,34
10
i=1
i=1
10
i=1
10
( y i y ) = 43.590,0
( y i y i )
= 23.793,66
x i = 347
i=1
i=1
( y i y )
i=1
10
50
FUOC P03/75057/01013
10
( y i y i )
= 23.793,66
i=1
= 19.796,34
i=1
para la pendiente.
para la pendiente.
Solucionario
Solucionario
1.
1.
a) Intervalo de confianza:
a) Intervalo de confianza:
Como siempre, lo primero que haremos es una tabla de clculos adecuada con
Como siempre, lo primero que haremos es una tabla de clculos adecuada con
xi
yi
xi x
( xi x )
87
119
y i
e i = y i y i
ei
xi
yi
xi x
( xi x )
77,61
9,39
88,116
87
128,25
9,25
85,544
119
47
52,30
5,30
28,037
195
204,20
9,20
84,695
162
153,57
8,43
71,115
234
16
229,52
4,48
72
77,61
110
102,93
40
1.026
35
44
e i = y i y i
ei
77,61
9,39
88,116
128,25
9,25
85,544
47
52,30
5,30
28,037
195
204,20
9,20
84,695
162
153,57
8,43
71,115
20,061
234
16
229,52
4,48
20,061
5,61
31,506
72
77,61
5,61
31,506
7,07
49,971
110
102,93
7,07
49,971
459,045
40
1.026
35
44
459,045
[ 1 t 2, n 2 s 1 1 + t 2, n 2 s ]
1
y i
s
76,507
2
s = --------------------------2- = ------------------- = 1,739
1
44,0
(
x
x
)
i
[ 1 t 2, n 2 s 1 1 + t 2, n 2 s ]
1
s
76,507
2
s = --------------------------2- = ------------------- = 1,739
1
44,0
(
x
x
)
i
51
FUOC P03/75057/01013
51
FUOC P03/75057/01013
n
459,045
2
2
1
donde s = -----------( y i y i ) = ---------------------- = 76,507.
10 2
n 2 i
=1
n
459,045
2
2
1
donde s = -----------( y i y i ) = ---------------------- = 76,507.
10 2
n 2 i
=1
Por tanto, s =
Por tanto, s =
1,739 = 1,319 .
1,739 = 1,319 .
[22,092; 28,545]
[22,092; 28,545]
Hiptesis nula:
H0: 1 = 0
Hiptesis nula:
H0: 1 = 0
Hiptesis alternativa:
H1: 1 0
Hiptesis alternativa:
H1: 1 0
1
t = ------ = 19,200
s
1
t = ------ = 19,200
s
2.
2.
[ 1 t 2, n 2 s 1 1 + t 2, n 2 s ]
[ 1 t 2, n 2 s 1 1 + t 2, n 2 s ]
crticos.
crticos.
Primero calculamos:
Primero calculamos:
n
19.796,34
2
2
1
s = ------------ ( y i y i ) = --------------------------- = 2.474,54
10 2
n 2i = 1
n
19.796,34
2
2
1
s = ------------ ( y i y i ) = --------------------------- = 2.474,54
10 2
n 2i = 1
52
FUOC P03/75057/01013
de manera que:
52
FUOC P03/75057/01013
de manera que:
2
s
2.474,54
2
s = --------------------------2 = ------------------------ = 1,626
1
1.522,1
( xi x )
Por tanto, el error estndar de la pendiente vale: s =
1
1,626 = 1,275
s
2.474,54
2
s = --------------------------2 = ------------------------ = 1,626
1
1.522,1
( xi x )
Por tanto, el error estndar de la pendiente vale: s =
1
1,626 = 1,275
2) Un intervalo de confianza del 95% con n = 10, tenenemos unos valores cr-
2) Un intervalo de confianza del 95% con n = 10, tenenemos unos valores cr-
ticos:
ticos:
t0,025;8 = 2,3060.
t0,025;8 = 2,3060.
3) Por tanto, el intervalo de confianza es:
[1,013; 6,894]
[1,013; 6,894]
Este intervalo de confianza no contiene el valor cero; por tanto, este resultado
Este intervalo de confianza no contiene el valor cero; por tanto, este resultado
nos indica que el gasto en publicidad es explicativo de las ventas con una con-
nos indica que el gasto en publicidad es explicativo de las ventas con una con-
53
FUOC P03/75057/01013
53
FUOC P03/75057/01013
Anexos
Anexos
Anexo 1
Anexo 1
a) Valor esperado de 1 :
a) Valor esperado de 1 :
E ( 1 ) = 1
E ( 1 ) = 1
( xi x ) ( yi y )
s xy
i-------------------------------------------=1
- =
1 = -----n
2 =
2
sx
( xj x )
j=1
( xi x ) ( yi y )
s xy
i-------------------------------------------=1
- =
1 = -----n
2 =
2
sx
( xj x )
( xi x )
- yi
---------------------------n
2
i=1
(xj x )
j=1
j=1
( xi x )
- , podemos escribir: 1 =
Si hacemos: w i = ---------------------------n
2
( xj x )
i=1
i=1
E ( wi yi ) =
i=1
wi ( 0 + 1 xi )
i=1
Vemos que:
wi
= 0 y que
i=1
wi xi
i=1
Propiedad de la linealidad
La propiedad de la linealidad
de la esperanza de una variable
es:
E(kX) = kE(X).
wi 0 + 1 wi xi
i=1
wi 0 + 1 wi xi
i=1
E ( 1 ) = E w i y i =
wi E ( yi ) =
i=1
i=1
j=1
wi yi
i=1
( xi x )
j=1
- yi
---------------------------n
2
i=1
(xj x )
( xi x )
- , podemos escribir: 1 =
Si hacemos: w i = ---------------------------n
2
( xj x )
wi yi
j=1
E ( 1 ) = E w i y i =
i=1
i=1
i=1
Vemos que:
Observacin
wi
i=1
wi xi
wi E ( yi )
i=1
wi 0 + 1 wi xi
Propiedad de la linealidad
La propiedad de la linealidad
de la esperanza de una variable
es:
E(kX) = kE(X).
i=1
wi 0 + 1 wi xi
= 0 y que
i=1
i=1
i=1
wi ( 0 + 1 xi )
= 1
E ( wi yi ) =
= 0 wi + 1 w i xi
i=1
i=1
i=1
= 0 wi + 1 w i xi
= 1
Observacin
i=1
Puesto que:
n
n
( xi x )
1
=
------------------------------( xi x ) = 0
w i = ---------------------------
n
n
2
2 i=1
i=1
i=1
(
x
x
)
(
x
x
)
i
i
i=1
i=1
i=1
Ya que:
wi
i=1
= 0
i=1
i=1
w i xi wi x
i=1
n
( xi x )
1
=
------------------------------( xi x ) = 0
w i = ---------------------------
n
n
2
2 i=1
i=1
i=1
(
x
x
)
(
x
x
)
i
i
x = 1
--- x i
n
i=1
wi ( xi x )
Puesto que:
n
i=1
w i x i x wi
i=1
i=1
( xi x )
i=1
= 0
wi xi
wi ( xi x )
i=1
i=1
Ya que:
wi
i=1
= 0
w i xi wi x
i=1
i=1
i=1
i=1
x = 1
--- x i
n
i=1
w i x i x wi
i=1
i=1
wi xi
i=1
( xi x )
i=1
= 0
54
FUOC P03/75057/01013
De manera que:
( xi x )
2
n
(xi x )
=1
- = 1
- ( x i x ) = i--------------------------- w i ( xi x ) = ---------------------------n
n
2
2
i=1
i=1
(
x
x
)
(
x
x
)
i
i
( xi x )
(xi x )
=1
- = 1
- ( x i x ) = i--------------------------- w i ( xi x ) = ---------------------------n
n
2
2
i=1
i=1
(
x
x
)
(
x
x
)
i
i
i=1
i=1
wi xi
De manera que:
As pues:
54
FUOC P03/75057/01013
i=1
i=1
= 1
As pues:
i=1
wi xi
= 1
i=1
b) Varianza de 1 :
b) Varianza de 1 :
= Var ( 1 ) = Var w i y i =
1
i=1
Var ( w i y i ) =
i=1
w i Var ( y i ) =
i=1
Propiedad de la varianza
= Var ( 1 ) = Var w i y i =
1
i=1
Var ( w i y i ) =
i=1
w i Var ( y i )
i=1
2
n
( xi x )
2
2
2
2
1
= w i = ---------------------------- = ---------------------------n
n
2
2
i=1
i=1
( xi x )
( xi x )
i=1
i=1
2
Tenemos que la varianza de 1 es: = ---------------------------n
1
2
(
x
x
)
i
i=1
Propiedad de la varianza
Var(kX) = k2Var (X).
2
n
( xi x )
2
2
2
2
1
= w i = ---------------------------- = ---------------------------n
n
2
2
i=1
i=1
( xi x )
( xi x )
i=1
i=1
2
Tenemos que la varianza de 1 es: = ---------------------------n
1
2
(
x
x
)
i
i=1