Está en la página 1de 12

1

Aplicada2
REGRESION LINEAL SIMPLE
Ej21. A fin de estudiar la evolucin del ngulo de Clarke (en grados) con la edad del nio (sano)
se obtuvieron ambos datos en un grupo de 16 nios (entre 3 y 10 aos) elegidos al azar:
Edad(X).. 3. 3. 4. 4. 5. 5. 6. 6. 7. 7 8... 8... 9... 9... 10... 10
ngulo(y) 24 22 28 25 32 31 33 30 34 34 36 39 39 41 46 44

a) Encuentra la recta de regresin que relaciona ambas variables.

b) Existe relacin entre la edad y el ngulo de Clarke?.

c) Qu porcentaje de la variabilidad del ngulo queda explicada por la relacin que mantiene
con la variable edad?.

d) Qu valor del ngulo tendr un nio con 12 aos?Y uno de 5 aos?.


Antes de empezar a resolver los apartados propuestos, hacemos una recopilacin de datos que
podemos extraer de la tabla dada, ya que posteriormente sern de gran utilidad.

n = 16












Apartado a)

Para calcular la pendiente, la expresin matemtica es:

Para obtener su valor, necesitamos saber los valores de Sxy y Sxx:

2





Por lo tanto, la pendiente es:


Una vez obtenida la pendiente, podemos tener el valor del estimador para la ordenada:


Sustituimos valores:


Por lo tanto, la ecuacin de regresin ajustada es:
y(x) = 14.898812 + 2.880952x
Siendo:

y ngulo de Clarke.
x Edad de nio sano.


Apartado b)

Para comprobar si existe relacin entre variables, obtenemos el coeficiente de correlacin,
empleamos su expresin matemtica:


Debemos obtener Syy:



Sustituimos valores y obtenemos el resultado del coeficiente de correlacin:


Por lo tanto, al estar prximo a 1 el valor del coeficiente de correlacin, podemos afirmar que
existen evidencias significativas de que ambas variables estn relacionadas.


Apartado c)
Para obtener la variabilidad, obtenemos el coeficiente de determinacin, empleamos su
expresin matemtica:
3


Sustituimos valores y obtenemos el resultado del coeficiente de correlacin:

Por lo tanto, el porcentaje de variabilidad es de, aproximadamente 94.76%.


Apartado d)

Para obtener los valores del ngulo, emplearemos la recta ajustada:
y(x) = 14.898812 + 2.880952x
Para un nio sano de 12 aos.

Para este caso, no sera fiable obtener tal ngulo ya que al determinar la recta de regresin, el
lmite mximo es de 10 aos.

Para un nio sano de 5 aos.

Empleamos la recta ajustada:
y(5) = 14.898812 + 2.8809525 = 29.303572

Por lo tanto, para un nio sano de 5 aos, el ngulo segn la recta ajustada es de,
aproximadamente 29.

Ej16. Se pretende calibrar un cromatgrafo, instrumento usado para detectar cantidades muy
pequeas de sustancias. Para ello, se preparan cuatro probetas con distintas cantidades de una
sustancia dada y para cada una de ellas se realizan cuatro medidas con el aparato:
Cantidad Medida Cantidad Medida
0.25 6.55 5 211
0.25 7.98 5 204
0.25 6.54 5 212
0.25 6.37 5 213
1 29.7 20 929
1 30.0 20 905
1 30.1 20 922
1 29.5 20 928

Determinar:

a) Ajuste los datos de la tabla a un modelo lineal.

b) Calcule un intervalo de confianza al 95% para la pendiente de la recta de regresin. Es
significativa la regresin lineal a un nivel de significacin 0.05?.

c) Calcule el coeficiente de determinacin e interprete el resultado.

Antes de empezar a resolver los apartados propuestos, hacemos una recopilacin de datos que
podemos extraer de la tabla dada, ya que posteriormente sern de gran utilidad.
4


n = 16











Pasamos a resolver los distintos apartados que nos ofrece el enunciado del problema.


Apartado a)

Para calcular la pendiente, la expresin matemtica es:


Para obtener su valor, necesitamos saber los valores de Sxy y Sxx:





Por lo tanto, la pendiente es:


Una vez obtenida la pendiente, podemos tener el valor del estimador para la ordenada:


Sustituimos valores:

5


Por lo tanto, la ecuacin de regresin ajustada es:
y(x) = -14.193079 + 46.645993x
Siendo:

y Medida.
x Cantidad.


Apartado b)

En este apartado nos piden obtener un intervalo de confianza para la pendiente de la recta de
regresin, cuya expresin matemtica es:

Al 95%, obtenemos :
100(1 - ) = 95

Despejamos el parmetro que nos interesa: = 0.05, tenemos, en la tabla t-Student:

t/2, n -2 = t0.05/2, 16 -2 = t0.025, 14 = 2.1448

Debemos obtener el valor del estimador de la desviacin estndar:


Siendo:

Debemos obtener Syy:


Ya tenemos todos los datos necesarios para estimar la varianza:


Sustituimos valores en la expresin del intervalo de confianza para la pendiente:

Por lo tanto, el intervlo para la pendiente de la recta de regresin, al 95% es,
aproximadamente:
[46.039706, 47.252280]
6

Al no contener el valor cero el intervalo de confianza, podemos afirmar que es significativa la
regresin lineal para el propuesto nivel de significacin.


Apartado c)

Para obtener el coeficiente de determinacin, empleamos su expresin matemtica:

Disponemos de todos los datos necesarios para determinarlo ya que han sido calculados en
apartados anteriores.
Sustituimos valores y obtenemos el resultado del coeficiente de determinacin:


Al estar prximo a 1, la regresin es significativa, por lo tanto, el modelo est bien ajustado.
Esto quiere decir que existe dependencia lineal entre las variables x e y
Ej20. Los siguientes datos son observaciones sobre los caballos de vapor de un motor a
1800 rpm en funcin de la viscosidad del aceite:
HP Viscosidad HP Viscosidad
16.3 43 19.0 57
16.4 44 18.1 59
16.8 45 18.8 61
17.0 47 18.2 62
16.9 48 19.2 63
17.5 49 18.5 66
16.7 50 20.2 67
18.1 54 21.2 67
18.6 55 19.7 68
17.7 56 22.2 70



7

Determinar:

a) Calcula las estimaciones de los coeficientes de regresin.

b) Halle el intervalo de confianza del 99% para la media de los caballos de vapor cuando la
viscosidad es de 60.

c) Prueba la hiptesis de que la pendiente sea nula. Es significativa la regresin?.


Antes de empezar a resolver los apartados propuestos, hacemos una recopilacin de datos que
podemos extraer de la tabla dada, ya que posteriormente sern de gran utilidad.

n = 20











Pasamos a resolver los distintos apartados que nos ofrece el enunciado del problema.


Apartado a)

Para calcular la pendiente, la expresin matemtica es:


Para obtener su valor, necesitamos saber los valores de Sxy y Sxx:



8



Por lo tanto, la pendiente es:


Una vez obtenida la pendiente, podemos tener el valor del estimador para la ordenada:


Sustituimos valores:


Por lo tanto, la ecuacin de regresin ajustada es:
y(x) = 9.226393 + 0.161337x
Siendo:

y HP.
x Viscosidad.


Apartado b)

En este apartado nos piden obtener un intervalo para la respuesta media, cuya expresin
matemtica es:


Al 99%, obtenemos :
100(1 - ) = 99

Despejamos el parmetro que nos interesa: = 0.01, tenemos, en la tabla t-Student:

t/2, n -2 = t0.01/2, 20 -2 = t0.005, 18 = 2.878

Debemos obtener el valor del estimador de la desviacin estndar:
9



Siendo:


Debemos obtener Syy:


Ya tenemos todos los datos necesarios para estimar la varianza:


El nico dato que nos falta por obtener es el valor del parmetro Y cuando x vale 60, para ello,
usamos la recta ajustada calculada en el Apartado a):

Y(60) = 9.226393 + 0.16133760 = 18.906613.

Sustituimos valores en la expresin del intervlo de confianza para la respuesta media


Por lo tanto, el intervalo de prediccin al 99% es,aproximadamente:
[18.408457, 19.404769]


Apartado c)

Para estudiar si la regresin es significativa, la pendiente debe ser distinta de cero. Calcularemos
tanto la regin crtica como el p-valor, para contrastar los resultados.

La prueba de hiptesis es:

10


El estadstico es:


Disponemos de todos los datos necesarios, calculado en los apartados anteriores, para obtener el
valor del estadstico:


Para comprobar si aceptamos o rechazamos la hiptesis nula, empleamos la regin crtica, que
para esta prueba es:
|T| > t/2, n -2

Al 99%, obtenemos :
100(1 - ) = 99

Despejamos el parmetro que nos interesa: = 0.01, tenemos, en la tabla t-Student:

t/2, n -2 = t0.01/2, 20 -2 = t0.005, 18 = 2.878

Comprobamos el valor del estadstico con la regin crtica:


Se cumple la condicin de la regin crtica, por lo tanto, rechazamos la hiptesis nula y
aceptamos la hiptesis alternativa.

Esto quiere decir que, la pendiente no vale cero, por lo tanto, existen evidencias significativas de
que hay regresin lineal.

Ahora, vamos a obtener el p-valor de la prueba, para dicho clculo, debemos tener claro en que
condiciones estamos, en nuestro caso, existen dos regiones crticas, por lo tanto, tenemos dos
colas de probabilidad, el p-valor en estas condiciones, se calcula cmo:
p-valor = 2 P(T > |t|) = 2 P(T > 8.601063)
11


Si buscamos, con 18 grados de libertad, en las tablas t-Student, no encontramos un valor exacto
ni superior, slo un nivel inferior, que corresponde al rea de cola: 0.0005.

Por lo tanto, el rea de cola ser menor que 0.0005, el p-valor corresponder:
p-valor <. 0.0010

Al ser el nivel de significacin del problema, = 0.01, mayor que el p-valor, rechazamos la
hiptesis nula.

Rechazar la hiptesis nula quiere decir que se acepta la hiptesis alternativa, en otras palabras,
la pendiente es distinta de cero por lo que existe evidencia significativa de que hay regresin
lineal.

Como se puede observar, ambos mtodos, la regin crtica como el p-valor, satisfacen la
hiptesis alternativa, es decir, que existe evidencias significativas que hay regresin lineal en el
modelo obtenido.
Problema 4.7. Se llev a cabo un estudio para determinar la relacin entre el nmero de
aos de experiencia y el salario mensual, en miles de pesetas, entre los informticos
de una regin espaola. Para ello, se tom una muestra aleatoria de 17 informticos y se
obtuvieron los siguientes datos

Exper. Salario Exper. Salario Exper. Salario

13 26
'
1 31 36
'
4 27 36
'
0
16 33
'
2 19 33
'
8 25 36
'
5
30 36
'
1 20 36
'
5 7 21
'
4
2 16
'
5 1 16
'
9 15 31
'
0
8 26
'
4 4 19
'
8 13 31
'
4
6 19
'
1 10 24
'
6

Datos del problema [ASCII] [spss-10] [sgplus-5]
1. Calcular la regresin lineal de la variable salario frente a aos de experiencia.
Calcular intervalos de confianza al 95% para los coeficientes de este modelo.
2. Calcular el coeficiente de correlacin lineal y el coeficiente de determinacin.
Puede rechazarse la hiptesis nula de que el coeficiente de determinacin es cero
con = 0
'
05?
3. Estimar y calcular un intervalo de confianza al 90% y 95% para la prediccin del
salario de un informtico que tiene 8 aos de experiencia.
4. Se observa alguna anomala en el grfico de los residuos frente a la variable
regresora.

12

También podría gustarte