Está en la página 1de 40

Estadstica Inferencial II

Ral Jimnez Gonzlez

Instituto Tecnolgico de Ensenada

Contenido
CAPTULO 1. Regresin lineal simple y mltiple
1.1. Regresin Lineal simple
1.1.1. Prueba de hiptesis en la regresin lineal simple.
1.1.2. Calidad del ajuste en regresin lineal simple
1.1.3. Estimacin y prediccin por intervalo en regresin lineal simple
1.1.4. Uso de software estadstico
1.2. Regresin lineal mltiple
1.2.1. Pruebas de hiptesis en regresin lineal mltiple
1.2.2. Intervalos de confianza y prediccin en regresin mltiple
1.2.3. Uso de un software estadstico
1.3. Regresin no lineal
CAPTULO 2. Diseo de experimentos de un factor
2.1. Familia de diseos para comparar tratamientos
2.2. El modelo de efectos fijos
2.3. Diseo completamente aleatorio y ANOVA
2.4. Comparaciones o pruebas de rangos mltiples
2.5. Verificacin de los supuestos del Modelo
2.6. Uso de un software estadstico
CAPTULO 3. Diseo de bloques.
3.1. Diseos en bloques completos al azar.
3.2. Diseo en cuadrado latino.
3.3. Diseo en cuadrado grecolatino.
3.4. Uso de un software estadstico.
CAPTULO 4. Conceptos bsicos en diseos factoriales
4.1. Diseos factoriales con dos factores
4.2. Diseos factoriales con tres factores
4.3. Diseo factorial general
4.4. Modelos de efectos aleatorios
4.5. Uso de un software estadstico
CAPTULO 5. Series de tiempo
5.1. Modelo clsico de series de tiempo
5.2. Anlisis de fluctuaciones
5.3. Anlisis de tendencia
5.4. Anlisis de variaciones cclicas
5.5. Medicin de variaciones estacionales e irregulares
5.6. Aplicacin de ajustes estacionales
5.7. Pronsticos basados en factores de tendencia y estacionales.

1.1. Regresin Lineal simple


El anlisis de regresin se usa con el propsito de prediccin. La meta del anlisis de
regresin es desarrollar un modelo estadstico que se pueda usar para predecir los
valores de una variable dependiente o de respuesta basados en los valores de al menos
una variable independiente o explicativa. Este captulo se centra en un modelo de
regresin lineal simple, que usa una variable numrica independiente para predecir
la variable numrica dependiente .
Para establecer una relacin cuantitativa entre
y
es necesario disponer de
cierta informacin muestral. Esta informacin consiste de un conjunto de pares de
observaciones de
y , donde cada uno de estos pares pertenece a una unidad
elemental particular de la muestra. Por ejemplo, suponga que el rendimiento de un
proceso qumico est relacionado con la temperatura de operacin, o la experiencia
profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de
personas, la produccin agraria y la cantidad de fertilizantes utilizados, etc. Si mediante
un modelo matemtico es posible describir tal relacin, entonces este modelo puede ser
usado para propsitos de prediccin, optimizacin o control
Para ilustrar el concepto, considrense los datos de la tabla 1.1. En esta tabla, se
relaciona la cantidad de fibra (madera) en la pulpa con la resistencia del producto
(papel).
Tabla 1.1 Datos de resistencia de pulpa
Porcentaje de fibra Resistencia
4
6
8
10
12
14
16
18
20
22
24
26
28
30

134
145
142
149
144
160
156
157
168
166
167
171
174
183

Es claro que la variable de respuesta o variable dependiente es la resistencia, por


eso se denota con . Para tener una idea de la relacin que existe entre
y , los 14
pares de datos son graficados en un diagrama de dispersin de la figura 1.1. De la
inspeccin de este diagrama de dispersin se ve que los puntos cercanos siguen una
lnea recta, lo que indica que la suposicin de linealidad entre las dos variables parece
ser razonable
El diagrama de dispersin es una grafica en la que cada punto trazado representa
un par de valores observados por las variables independiente y dependiente. El valor de
la variable independiente X, se traza en relacin con el eje horizontal y el valor de la
variable dependiente Y, en relacin con el eje vertical. La naturaleza de la relacin entre

dos variables puede tomar muchas formas, que van desde algunas funciones
matemticas sencillas a otras en extremo complicadas. La relacin ms elemental
consiste en una lnea recta o relacin lineal.
Grfica de dispersin de Resistencia vs. Porcentaje de fibra
190
180

Resistencia

170
160
150
140
130
5

10

15
20
Porcentaje de fibra

25

30

Figura 1.1 Diagrama de dispersin para los datos de resistencia


de la pulpa

La relacin del modelo matemtico adecuado tiene influencia de la distribucin


de los valores X y Y en el diagrama de dispersin. Es sencillo ver esto si se examinan
las siguientes graficas.

Figura 1.2 Relacin entre dos variables

En la grafica 1 se observa que los valores de Y, en general, aumentan en forma


lineal cuando se incrementa X .
En la grafica 2 es un ejemplo de una relacin lineal negativa. Cuando X crece, se
observa que los valores de Y decrecen. Un ejemplo de este tipo de relacin puede ser el
precio de un producto especfico y la cantidad de ventas.

En la grafica 3 se muestra un conjunto de datos en el que existe muy poca o


ninguna relacin entre X y Y. Para cada valor de X aparecen valores altos y bajos de Y.
En la grafica 4 muestran una relacin curvilnea entre X y Y. Los valores de Y
aumentan cuando X crece, pero el incremento disminuye para valores altos de X. un
ejemplo de esta relacin curvilnea puede ser la edad y el costo de mantenimiento de
una maquina. Cuando la mquina tiene muchos aos, el costo de mantenimiento se
eleva con rapidez al principio, pero despus de cierto nmero de aos se nivela.
En la grafica 5 muestra una relacin parablica o en forma de U entre X y Y.
Conforme X aumenta, al principio Y disminuye; pero si X aumenta ms, Y no slo deja
de disminuir sino que aumenta despus de su valor mnimo. Un ejemplo tipo de relacin
puede ser el nmero de errores por hora en una tarea y nmero de horas trabajadas.
Por ultimo en la grafica 6 indica una relacin exponencial o curvilnea negativa
entre X y Y. en este caso, Y disminuye con rapidez al principio del incremento de X
pero despus, cuando X aumenta ms, la velocidad de disminucin es mucho menor. Un
ejemplo de esta relacin exponencial puede ser el valor de reventa de un tipo dado de
automvil y los aos que tiene. El primer ao el valor baja en forma drstica respeto a
su precio original; sin embargo, la disminucin es mucho ms lenta en los aos
subsecuentes.

El anlisis de regresin lineal simple se refiere a encontrar la lnea recta que mejor se
ajuste a los datos. El mejor ajuste puede definirse de varias maneras. Quiz la ms
sencilla sea encontrar la lnea recta para la cual las diferencias entre los valores reales y
los valores pronosticados a partir de la recta ajustada de regresin sean tan pequeas
como sea posible. Sin embargo, como estas diferencias son positivas para algunas
observaciones y negativas para otras, en trminos matemticos se minimiza la suma de
los cuadrados de las diferencias.
Grfica de lnea ajustada

Resistencia = 130,7 + 1,624 Porcentaje de fibra


190

S
R-cuad.
R-cuad.(ajustado)

180

3,87648
93,0%
92,4%

Resistencia

170
160
150
140
130
5

10

15
20
Porcentaje de fibra

25

30

Figura 1.3 Lnea recta que mejor se ajusta a los datos, donde la
distancia a los puntos es la ms pequea posible

Suponga que las variables X y Y estn relacionadas linealmente y que para cada
valor de X, la variable dependiente, Y, es una variable aleatoria. Es decir, que cada
observacin de Y puede ser descrita por el modelo:

(1.1)

Donde es un error aleatorio con media cero y varianza . Tambin suponga


que los errores aleatorios no estn correlacionados. La ecuacin (1.1) es conocida como
el modelo de regresin lineal simple. Bajo el supuesto de que este modelo es adecuado
y como el valor esperado del error es cero, ( )
, se puede ver que el valor esperado
de la variable Y, para cada valor de X, est dado por lnea recta
(

)
(1.2)

En donde
son los parmetros del modelo y son constantes desconocidas.
Por lo tanto, para tener bien especificada la ecuacin que relaciona las dos variables ser
necesario estimar los dos parmetros, que tienen los siguientes significados:
- Es el punto en el cual la lnea recta intercepta o cruza el eje y.
- Es la pendiente de la lnea, es decir, es la cantidad en que se incrementa o
disminuye la variable por cada unidad que se incrementa
Un procedimiento para ajustar la mejor recta y, por lo tanto, para estimar
es mediante el mtodo de mnimos cuadrados, el cual consiste en lo siguiente:
si de la ecuacin (1.1) despejamos los errores, los elevamos al cuadrado y los sumamos,
obtendremos lo siguiente:
( )

-)
(1.3)

De esta forma, se quieren encontrar los valores de


que minimizan la
suma de los errores cuadrados. Es decir, se busca ajustar la recta de manera que la suma
de las distancias en forma vertical de los puntos a la recta se minimice, como se ilustra
en la figura 1.3.
El procedimiento matemtico para minimizar los errores de la ecuacin (1.3) y
as encontrar los estimadores de mnimos cuadrados de
, consiste en derivar a
con respecto a ,
y derivar tambin a con respecto a ,
se obtiene:
(

-)

-)

Al igualar a cero las dos ecuaciones y resolverlas en forma simultnea con


respecto a las dos incgnitas (
), se obtiene la solucin nica:

(1.4)


(1.5)

donde
)(

)(

)
(1.6)

)
(1.7)

son las medias muestrales de las dos variables, es decir,

De esta forma, para obtener la recta ajustada es necesario aplicar las frmulas
anteriores, lo cual es muy sencillo, como se muestra en la tabla 1.2 para los datos de la
resistencia de la pulpa.
Tabla 1.2 Procedimiento para realizar los clculos para la regresin simple para los datos de la resistencia
De la pulpa

4
6
8
10
12
14
16
18
20
22
24
26
28
30

134
145
142
149
144
160
156
157
168
166
167
171
174
183

16
36
64
100
144
196
256
324
400
484
576
676
784
900

=4
956

17 956
21 025
20 164
22 201
20 736
25 600
24 336
24 649
28 224
27 556
27 889
27 241
30 276
33 489

= 353
342

137,2
140,4
143,7
146,9
150,2
153,4
156,7
159,9
163,2
166,4
169,7
172,9
176,2
179,4

536
870
1 136
1 490
1 728
2 240
2 496
2 826
3 360
3 652
4 008
4 446
4 872
5 490

2216.6

= 39
150

)(
(

)
)

)(

10,24
21,16
2,89
4,41
38,44
43,56
0,49
8,41
23,04
0,16
7,29
3.61
4,84
12,96
(
)

-3,2
4,6
-1,7
2,1
-6,2
6,6
-0,7
-2,9
4,8
-0,4
-2,7
-1,9
-2,2
3,6
(

Por lo tanto, la lnea recta que mejor explica la relacin entre porcentaje de fibra
y resistencia del papel, est dada por

En la figura 1.3 se muestra el ajuste de esta lnea. De esta manera, por cada
punto porcentual de incremento en el porcentaje de fibra, se espera un incremento de
resistencia de 1.6242 en promedio. La ecuacin (1.8) sirve para estimar la resistencia
promedio esperada para cualquier porcentaje de fibra utilizada.

Nota: La calculadora cientfica, trae la funcin de Regresin Lineal, una vez


activada esta funcin, se procede a capturar por parejas (X, Y) correspondientes sin
olvidar separarlas por una coma entre ambos datos, se manda cada par a memoria, al
finalizar la captura se obtienen los coeficientes correspondientes presionando la inversa
correspondiente de acuerdo al modelo de esta.
Utilizando un paquete computacional el resultado arrojado sera el siguiente:
Resumen de Excel
Estadsticas de la regresin
Coeficiente de correlacin mltiple
0,964432318
Coeficiente de determinacin R^2
0,930129695
R^2 ajustado
0,92430717
Error tpico
3,876481166
Observaciones
14
ANLISIS DE VARIANZA
Regresin
Residuos
Total

Intercepcin
Porcentaje de fibra

Grados de libertad
1
12
13

Suma de cuadrados
2400,531868
180,3252747
2580,857143

Promedio de los cuadrados


2400,531868
15,02710623

F
159,7467824

Valor crtico de F
2,70702E-08

Coeficientes
130,6747253
1,624175824

Error tpico
2,417790201
0,128504099

Estadstico t
54,047173
12,63909737

Probabilidad
1,05975E-15
2,70702E-08

Inferior 95%
125,406813
1,344189444

Pronstico Resistencia
137,1714286
140,4197802
143,6681319
146,9164835
150,1648352
153,4131868
156,6615385
159,9098901
163,1582418
166,4065934
169,6549451
172,9032967
176,1516484
179,4

Residuos
-3,171428571
4,58021978
-1,668131868
2,083516484
-6,164835165
6,586813187
-0,661538462
-2,90989011
4,841758242
-0,406593407
-2,654945055
-1,903296703
-2,151648352
3,6

Anlisis de los residuales


Observacin
1
2
3
4
5
6
7
8
9
10
11
12
13
14

Resumen de Minitab
Anlisis de regresin: Resistencia vs. Porcentaje de fibra
La ecuacin de regresin es
Resistencia = 131 + 1,62 Porcentaje de fibra

Predictor
Constante
Porcentaje de fibra

Coef.
de EE
2,418
0,1285

Coef
130,675
1,6242

S = 3,87648
R-cuad. = 93,0%
Anlisis de varianza
Fuente
Regresin
Error residual
Total

GL
1
12
13

P
0,000
0,000

R-cuad.(ajustado) = 92,4%

SC
2400,5
180,3
2580,9

MC
2400,5
15,0

Porcentaje
de fibra Resistencia
4,0
134,00
6,0
145,00
8,0
142,00
10,0
149,00
12,0
144,00
14,0
160,00
16,0
156,00
18,0
157,00
20,0
168,00
22,0
166,00
24,0
167,00
26,0
171,00
28,0
174,00
30,0
183,00

Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14

T
54,05
12,64

F
159,75

Ajuste
137,17
140,42
143,67
146,92
150,16
153,41
156,66
159,91
163,16
166,41
169,65
172,90
176,15
179,40

P
0,000

Ajuste
SE
Residuo
1,97
-3,17
1,75
4,58
1,55
-1,67
1,37
2,08
1,22
-6,16
1,11
6,59
1,04
-0,66
1,04
-2,91
1,11
4,84
1,22
-0,41
1,37
-2,65
1,55
-1,90
1,75
-2,15
1,97
3,60

Residuo
estndar
-0,95
1,32
-0,47
0,57
-1,68
1,77
-0,18
-0,78
1,30
-0,11
-0,73
-0,54
-0,62
1,08

Tabla 1.4 Formulas bsicas para el Anlisis de regresin para el modelo

Es el punto en el cual la lnea recta intercepta o cruza el eje Y

Es la pendiente de la lnea, es decir, es la cantidad en que se incrementa o

)(

Sumatoria de XX

Variabilidad total

)(

Sumatoria de XY

Media de X
Media de Y

disminuye la variable por cada unidad que se incrementa


Ecuacin de la regresin lineal estimada

Sumatoria de los cuadrados del error

Suma de cuadrados de la regresin


Estimador insesgado de la varianza
Cuadrado medio del error

Cuadrado medio total

Error estndar de estimacin


Coeficiente de determinacin en regresin lineal simple

Estadstico

para prueba de hiptesis en regresin lineal simple

Estimacin por intervalos para

, en

regresin lineal simple

Estimacin por intervalos para la pendiente en


regresin lineal simple
)

Estimacin para la ordenada al


origen en regresin lineal simple

Ejemplo. Suponga que el gerente de una cadena de servicios de entrega de


paquetera desea desarrollar un modelo para predecir las ventas semanales (en miles de
dlares) para las tiendas individuales basado en el nmero de clientes que realizan
compras. Se seleccion una muestra aleatoria entre todas las tiendas de la cadena con
los siguientes resultados.
Tienda
1
2
3
4
5
6
7
8
9
10

Clientes
907
926
506
741
789
889
874
510
529
420

Ventas ($000)
11,20
11,05
6,48
9,21
9,42
10,08
9,45
6,73
7,24
6,12

Tienda
11
12
13
14
15
16
17
18
19
20

Clientes
679
872
924
607
452
729
794
844
1010
621

Ventas ($000)
7,63
9,43
9,46
7,64
6,92
8,95
9,33
10,23
11,77
7,41

(a) Grafique el diagrama de dispersin.


(b) Suponga una relacin lineal y utilice el mtodo de mnimos cuadrados para encontrar
los coeficientes de regresin
y
(c) Interprete el significado de la pendiente.
(d) Pronostique las ventas semanales (en miles de dlares) para las tiendas que tienen 600
clientes.

(e) Qu otros factores adems del nmero de clientes pueden afectar las ventas?

Respuestas
a)
Grfica de dispersin de Ventas vs. Clientes
12
11

Ventas

10
9
8
7
6
400

500

600

700
Clientes

800

900

1000

b) Los coeficientes son

= 2,3086 y = 0,0088
c) Por cada cliente ms, se espera un incremento en las ventas de 0,0088612 de miles
de dlares en promedio.
(
)
d)
e) Factores tan variados como, atencin al cliente, lejana, falta de estacionamiento etc.,
etc.
Resumen de Excel
Coeficientes

Error tpico

Estadstico t

Probabilidad

Intercepcin

2,308620077

0,486903934

4,741428269

0,000162977

Clientes

0,008861219

0,000647589

13,68338889

5,93374E-11

1.1.1. Prueba de hiptesis en la regresin lineal simple.


En cualquier anlisis de regresin no basta hacer los clculos que se explicaron antes,
sino que es necesario evaluar qu tan bien el modelo (la lnea recta) explica la relacin
entre y . Una primera forma de hacer esto es probar una serie hiptesis sobre el
modelo. Para ello es necesario suponer una distribucin de probabilidad para el
trmino de error,
Es usual suponer normalidad:
se distribuye en forma normal,
independiente, con media cero y varianza .
Por lo general, la hiptesis de mayor inters plantea que la pendiente es
significativamente diferente de cero. Esto se logra al aprobar la siguiente hiptesis:

(1.9)

El estadstico de prueba es:

(1.10)

Si la hiptesis nula es verdadera l estadstico (1.10) tiene una distribucin Student con
grados de libertad. Se rechaza
si el valor absoluto de este
estadstico es mayor que el correspondiente valor crtico obtenido de tablas, es decir,
se rechaza
si:
| |
(
)
(1.11)

En caso contrario no se rechaza


. No rechazar que
, en el caso del
modelo de regresin lineal simple, implica que no existe una relacin lineal
significativa entre y ; por tanto, no existe relacin entre estas variables o sta es de
otro tipo.
La suma de cuadrados de los residuos o suma de cuadrados del error (
) y se
utiliza para estimar la varianza del error de ajuste de un modelo, y est dada por:
(

)
(

A partir de la ecuacin (1.12) se obtiene que el valor esperado de la suma de


), del error est dado por:
cuadrados (
(

)
(1.13)

Por lo tanto, un estimador insesgado de

est dado por:

En el caso de los datos de la tabla 1.1, datos de resistencia de la pulpa, el


planteamiento de hiptesis sera el siguiente:

Aplicando el estadstico de prueba

El valor de -Student encontrado en tablas con


0,05 de nivel de significancia es
(

grados de libertad y un

Se rechaza la Hiptesis nula

Dado que el valor absoluto de


es significativamente mayor que el valor
encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechazamos
la hiptesis nula por lo tanto si existe una relacin entre ambas variables. 0 bien, dado
que el valor-p es menor que el nivel de significancia, se rechaza la hiptesis nula
valor-p
.
En ocasiones, en lugar de probar que
, puede ser de inters probar que es
igual a cierta constante (
), en este caso en el numerador del estadstico
de la expresin (1.10) se resta , es decir, el estadstico queda de la siguiente
manera(
)
, y el criterio de rechazo es el mismo.
Si se utiliza como criterio de rechazo la comparacin de la significancia
observada (p-value o valor p) contra la significancia predefinida ( ), entonces se
rechaza
si el valor p
.
Por otro lado, con respecto del parmetro
siguiente hiptesis:

suele ser de inters probar la

(1.15)

El estadstico de prueba es el siguiente:

]
(

El cual tiene una distribucin -Student con


grados de libertad, por lo que
se rechaza si:
| |
(
)
o si se utiliza el criterio de la significancia observada se rechaza
si el valor-p
.
No rechazar que
simplemente significa que el punto de corte de la lnea recta
pasa por el origen, es decir pasa por (0, 0). En ocasiones, en lugar de probar que
, puede ser de inters probar que es igual a cierta constante (
); en
ese caso, en el numerador del estadstico de la expresin (1.16) se resta , es decir, el
estadstico queda de la siguiente manera:

]
(1.17)

y el criterio de rechazo es el mismo.

En el caso de los datos de la tabla 1.1, datos de resistencia de la pulpa, el


planteamiento de hiptesis sera el siguiente:

Aplicando el estadstico de prueba

El valor de -Student encontrado en tablas con


de nivel de significancia es
(

grados de libertad y un 0,05

Se rechaza la Hiptesis nula

Dado que el valor absoluto de


es significativamente mayor que el valor
encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechazamos
la hiptesis nula por lo tanto el punto de corte de la lnea recta no pasa por el origen,
es decir, no pasa por (0, 0). O bien, dado que el valor-p es menor que el nivel de
significancia, se rechaza la hiptesis nula valor-p
.
La estimacin de los parmetros del modelo y las pruebas de hiptesis sobre los
mismos se sintetizan en la siguiente tabla:
Parmetro

Estimacin

Intercepcin

Error estndar

Estadstico

Pendiente

Valor-p

| |)

| |)

Las pruebas de hiptesis para el ejemplo de las ventas contra clientes, el


resumen que nos arroja Excel y Minitab incluye el clculo del valor de t y el valor-p,
optando por cualesquiera de ambos estadsticos las hiptesis quedaran de la siguiente
manera:

El valor de -Student encontrado en tablas con


de nivel de significancia es
(

grados de libertad y un 0,05

Se rechaza la Hiptesis nula

Dado que el valor absoluto de


es significativamente mayor que el valor
encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechazamos
la hiptesis nula por lo tanto si existe una relacin entre ambas variables. 0 bien, dado
que el valor-p es menor que el nivel de significancia, se rechaza la hiptesis nula
valor-p
.
En el caso de las hiptesis para la intercepcin tenemos:

Se rechaza la Hiptesis nula

Dado que el valor absoluto de


es significativamente mayor que el valor
encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechazamos
la hiptesis nula por lo tanto el punto de corte de la lnea recta no pasa por el origen,
es decir, no pasa por (0, 0). O bien, dado que el valor-p es menor que el nivel de
significancia, se rechaza la hiptesis nula valor-p
.

Resumen de Excel
Coeficientes

Error tpico

Estadstico t

Probabilidad

Intercepcin

2,308620077

0,486903934

4,741428269

0,000162977

Clientes

0,008861219

0,000647589

13,68338889

5,93374E-11

Ejercicios
1.- Cul es el propsito general del anlisis de regresin?
2.- En el anlisis de regresin intervienen dos tipos de variables: las independientes y
las dependientes. Explique con sus palabras y a travs de ejemplos, las caractersticas de
estos dos tipos de variables.
3.- En el artculo de Concrete Research (Caractersticas del concreto cerca de la
superficie: Permeabilidad intrnseca), se presentaron los datos sobre la resistencia a la
compresin y la permeabilidad intrnseca
de varias mezclas y curados de concreto.
Las cantidades resumidas son
,
, = 23 530,
, = 157.42, y

= 1 697.80. Suponga que las dos variables se relacionan de acuerdo con el modelo
de regresin lineal simple.
a) Calcule las estimaciones de mnimos cuadrados de la pendiente y la ordenada al
origen
b) Use la ecuacin de la recta ajustada para predecir la permeabilidad que se observara
cuando la resistencia a la compresin es = 4,3.
c) D una estimacin puntual de la permeabilidad media cuando la resistencia a la
compresin es = 3,7.
d) Suponga que el valor observado de la permeabilidad para = 3,7 es = 46,1.

4.- Se utilizaron mtodos de regresin para analizar los datos de un estudio para
investigar la relacin entre la temperatura superficial de una carretera (x) y la deflexin
del pavimento (y). Las cantidades resumidas fueron
,
, = 8.86,

, = 143 215.8,
= 1 083.67.
a) Calcule las estimaciones de mnimos cuadrados de la pendiente y la ordenada al
origen. Grafique la recta de regresin
b) Use la ecuacin de la recta ajustada para predecir la deflexin del pavimento que se
observara cuando la temperatura superficial es de 85 .
c) Cul es la deflexin media del pavimento cuando la temperatura superficial es
90 ?
d) Qu cambio en la deflexin media del pavimento se esperara para un cambio de 1
en la temperatura superficial?
5.- Se piensa que el nmero de libras de vapor consumidas mensualmente por una
planta qumica se relaciona con la temperatura ambiente promedio (en ) de ese mes.
En la tabla siguiente se muestra la temperatura y el consumo anual:
Mes
Ene.
Feb.
Mar.
Abr.
May
Jun.
Jul.
Ago.
Sep.
Oct.
Nov.
Dic.

Temperatura
21
24
32
47
50
59
68
74
62
50
41
30

Consumo/1 000
185.79
214.47
288.03
424.84
454.58
539.03
621.55
675.06
562.03
452.93
369.95
273.98

a) Suponiendo que un modelo de regresin lineal simple es apropiado, ajuste el


modelo de regresin que relacione el consumo de vapor ( ) con la temperatura
promedio ( ).
b) Cul es la estimacin del consumo esperado de vapor cuando la temperatura
promedio es 55 ?
c) Qu cambio se espera en el consumo de vapor promedio cuando la temperatura
mensual promedio cambia 1 ?
d) Suponga que la temperatura mensual promedio es de 47 . Calcule el vapor
ajustado y el residual correspondiente.
6.- En un artculo de Journal of Environmental Energineering se reportan los resultados de
un estudio sobre la presencia de sodio y cloruros en corrientes superficiales de la parte
central de Rhode Island. Los datos que se presentan a continuacin corresponden a la
concentracin de cloruros (en mg/l) y al rea de carretera de la vertiente (en %).

4.4 6.6 9.7 10.6 10.8 10.9 11.8 12.1 14.3 14.7 15.0 17.3 19.2 23.1 27.4 27.7 31.8 39.5
0.19 0.15 0.57 0.70 0.67 0.63 0.47 0.70 0.60 0.78 0.81 0.78 0.69 1.30 1.05 1.06 1.74 1.62

Trace un diagrama de dispersin de los datos. Parecera apropiado un modelo


de regresin lineal simple en este caso?
b) Ajuste el modelo de regresin lineal simple usando el mtodo de mnimos
cuadrados.
c) Estime la concentracin de cloruros media de una vertiente que tiene 1% del
rea de carretera.
d) Encuentre el valor ajustado que corresponde a = 0.47
a)

7.- Demuestre que en un modelo de regresin lineal simple el punto ( ) se localiza


exactamente sobre la recta de regresin de mnimos cuadrados.
8.- En un artculo de Wear se presentan los datos del desgaste por rozamiento del acero
dulce y la viscosidad del aceite. Los datos representativos, con = viscosidad del aceite
y = volumen del desgaste (
), son:
240 181 193 155 172 110 113 75 94
1.6 9.4 15.5 20.0 22.0 35.5 43.0 40.5 33.0

a) Construya un diagrama de dispersin de los datos. Parecera plausible un


modelo de regresin lineal simple?
b) Ajuste el modelo de regresin lineal simple usando mnimos cuadrados.
c) Estime el desgaste por rozamiento cuando la viscosidad es = 30.
d) Obtenga el valor ajustado de
cuando
= 22,0 y calcule el residual
correspondiente.

9.- Considrense los datos del ejercicio 4 para


carretera y = deflexin del pavimento.

= temperatura superficial de una

a) Pruebe la significacin de la regresin utilizando


. Encuentre el valor P para
esta prueba. Qu conclusiones pueden sacarse?
b) Estime
c) Estime los errores estndar de la pendiente y la ordenada al origen.
10.- En un proceso de extraccin se estudia la relacin entre tiempo de extraccin y
rendimiento. Los datos obtenidos se muestran en la siguiente tabla.
Tiempo
(minutos)
Rendimiento
(%)

10

15

20

12

13

15

12

14

20

19

18

64 81,7 76,2 68,5 77,9 82,2 74,2 70 76 83,2 85,3

a) En este problema cul variable se considera independiente y cul dependiente?


b) Mediante un diagrama de dispersin analice la relacin entre estas dos variables.
c) Haga un anlisis de regresin (ajuste una lnea recta a estos datos, aplique
pruebas de hiptesis y verifique residuos).
d) La calidad del ajuste es satisfactoria? Argumente
e) Destaque el valor de la pendiente de la recta e interprtelo en trminos practicos.
f) Estime el rendimiento promedio que se espera a un tiempo de extraccin de 25
minutos y obtenga un intervalo de confianza para esta estimacin.

11.- Considere los datos del ejercicio 5 para = consumo de vapor y = temperatura
promedio.
a) Pruebe la significacin de la regresin usando
. Cul es el valor P para esta
prueba? Enuncie las conclusiones que resultan de esta prueba.
b) Estime
c) Estime los errores estndar de la pendiente y la ordenada al origen.
d) Pruebe la hiptesis
contra
usando
.
Encuentre el valor P para esta prueba.
e) Pruebe la hiptesis
contra
usando
. Encuentre
el valor P para esta prueba y saque conclusiones.
12.- En el ejercicio 6 se presentan los datos para
corrientes superficiales y = rea de carretera.
a) Pruebe la hiptesis
contra
indicado con un nivel de significancia del 0,01 (

= concentracin de cloruros en
usando el procedimiento
).

1.1.2. Calidad del ajuste en regresin lineal simple


En la seccin anterior estudiamos pruebas de hiptesis para verificar que hay una
relacin significativa entre y ; sin embargo, no hemos visto si tal relacin permite
hacer estimaciones con una precisin aceptable. Por ejemplo, es de inters saber qu
tanta de la variabilidad presente en fue explicada por el modelo, adems si se cumplen
los supuestos de los residuos.

Coeficiente de determinacin

. Un primer criterio para evaluar la calidad del


ajuste es observar la forma en que el modelo se ajust a los datos. En el caso de la
regresin lineal simple esto se distingue al observar si los puntos tienden a ajustarse
razonablemente bien a la lnea recta (vase la figura 1.3). Pero otro criterio ms
cuantitativo es el que proporciona el coeficiente de determinacin, el cual est definido por:

(1.17)

Es claro que
. En general
se interpreta como la proporcin de la
variabilidad en los datos ( ) que es explicada por el modelo. En el caso de los datos de
la resistencia de la pulpa (tabla 1.1) tenemos

(
(

)(
)

= 2580.86

Por lo tanto, podemos decir que 93% de la variacin observada en la resistencia


es explicada por el modelo (lnea recta), lo cual nos dice que la calidad del ajuste es
satisfactorio, y que por ello, la relacin entre
es descrita adecuadamente por una
lnea recta.
Nota. El resultado arrojado por Excel o Minitab, incluye el anlisis de varianza
para el modelo de regresin simple cuyo cuadro sinttico es el siguiente:
Fuente de variacin
Regresin

Error o residual

Suma de cuadrados

Grados de libertad

Cuadrado medio

Valor-p
(

Total

Resumen de Excel
Resumen de Excel

Estadsticas de la regresin
Coeficiente de correlacin
mltiple
Estadsticas
de la regresin 0,964432318
correlacin mltiple
0,964432318
Coeficiente de determinacin
R^2
0,930129695
Coeficiente
0,930129695
R^2
ajustadode determinacin R^2
0,92430717
R^2 ajustado
0,92430717
Error tpico
3,876481166
Error tpico
3,876481166
Observaciones
14
Observaciones
14
ANLISIS DE VARIANZA
Regresin

Regresin
Residuos
Residuos
Total
Total

Intercepcin
Porcentaje de fibra

Grados de
de libertad
libertad
Grados
1
1
12
12
13
13

Suma de
de cuadrados
cuadrados
Suma
2400,531868
2400,531868
180,3252747
180,3252747
2580,857143
2580,857143

Promedio de
de los
los cuadrados
cuadrados
Promedio
2400,531868
2400,531868
15,02710623
15,02710623

Coeficientes
130,6747253
Coeficientes
1,624175824

Error tpico
2,417790201
Error tpico
0,128504099

Estadstico t
54,047173
Estadstico
t
12,63909737

Valor crtico
crtico de
de FF
FF
Valor
159,7467824
2,70702E-08
159,7467824
2,70702E-08

Probabilidad
1,05975E-15
Probabilidad
2,70702E-08

Inferior 95%
125,406813
Inferior
95%
1,344189444

Intercepcin de varianza en Minitab


130,6747253
2,417790201
54,047173
1,05975E-15
125,406813
Anlisis
Porcentaje
de fibra
1,624175824
0,128504099
12,63909737
2,70702E-08
1,344189444
Anlisis de los
residuales
Fuente
GL
SC
MC
F
P
Regresin
1
2400,5
2400,5
159,75
0,000
Observacin
Pronstico
Resistencia
Residuos
Anlisis de los residuales
Error residual
12
180,3
1
137,1714286 15,0 -3,171428571
Total
13
2580,9
2
140,4197802
4,58021978
Observacin
Pronstico
Resistencia
Residuos
3
143,6681319
-1,668131868
14
137,1714286
-3,171428571
146,9164835
2,083516484
150,1648352
-6,164835165
25
4,58021978
S = 3,87648
R-cuad. 140,4197802
= 93,0%
R-cuad.(ajustado)
= 92,4%
153,4131868
6,586813187
36
143,6681319
-1,668131868
7
156,6615385
-0,661538462
48
146,9164835
2,083516484
159,9098901
-2,90989011
5
150,1648352
-6,164835165
163,1582418 ajustado
4,841758242
Coeficiente9 de determinacin
. Este coeficiente se calcula de la
10
166,4065934
-0,406593407
6
153,4131868
6,586813187
siguiente manera:
11
169,6549451
-2,654945055
7
156,6615385
-0,661538462
12
172,9032967
-1,903296703
8
159,9098901
-2,90989011
13
176,1516484
-2,151648352
9
163,1582418
4,841758242
14
179,4
3,6
10
166,4065934
-0,406593407
(1.18)
11
169,6549451
-2,654945055
12
172,9032967
-1,903296703
13
-2,151648352
donde el cuadrado
medio total, 176,1516484, se obtiene
al dividir la suma de cuadrados total,
,
14
179,4
3,6
entre sus grados d libertad. Cuando hay muchos trminos en un modelo, el estadstico

se prefiere en lugar de , puesto que este ltimo es engaoso al incrementarse en


forma artificial con cada trmino que se agrega al modelo, aunque sea un trmino que
no contribuya en nada a la explicacin de la respuesta. En cambio, el
incluso baja
de valor cuando el trmino que se agrega no aporta nada. Se cumple que

. En general, para fines de prediccin se recomienda un coeficiente de


determinacin ajustado de al menos 0.7.
En el caso de los datos de la resistencia de la pulpa (tabla 1.1), el coeficiente de
determinacin ajustado est dado por:

Observe que estos coeficientes son arrojados automticamente en Excel y


Minitab.

Coeficiente de correlacin . Es bien conocido que el coeficiente de correlacin, ,


mide la intensidad de la relacin lineal entre dos variables
Si se tiene pares de
datos de la forma (
), entonces este coeficiente se obtiene de la siguiente manera:

(1.19)

Se puede ver que


; si es prximo a
, entonces tendremos
una relacin lineal negativa fuerte, y si es prximo a cero, entonces diremos que no
hay correlacin lineal, y finalmente se es prximo a , entonces tendremos una
relacin lineal positiva fuerte. Por ejemplo, para los datos de la resistencia de la
pulpa (tabla 1.1), el coeficiente de correlacin es;

)(

)(

)(

lo cual habla de una correlacin lineal positiva fuerte.

Error estndar de estimacin . Una medicin sobre la calidad del ajuste de un


modelo lo da el error estndar de estimacin, que es una estimacin de la desviacin
estndar del error, . En el caso de la regresin lineal simple, est dado por:

=
(1.20)

Es claro que a medida que el modelo ajuste mejor, la


consecuencia el error estndar de estimacin tambin ser menor.

ser menor y en

Anlisis grfico de residuos.


Como complemento a lo que se ha discutido hasta aqu, un anlisis adecuado de los
residuos proporciona informacin adicional sobre la calidad del ajuste del modelo de
regresin y de esa manera es posible verificar si el modelo es adecuado. Las grficas
que suelen hacerse para completar el diagnstico del modelo consisten en:
a) graficar los residuos en papel de probabilidad normal,
b) graficar los residuos contra los predichos.

Por ejemplo, para los datos de la resistencia de la pulpa (tabla 1.2), se construye
la grfica de probabilidad normal que se muestra en la figura 1.4. En sta se aprecia
que el supuesto de normalidad sobre los errores se cumple razonablemente bien, ya
que los puntos en esta grfica tienden a ajustarse a la lnea recta.
Grfica de probabilidad normal
(la respuesta es Resistencia)

99

95
90

Porcentaje

80
70
60
50
40
30
20
10
5

-10

-5

0
Residuo

10

Figura 1.4 Grfica de probabilidad normal para los residuos de la resistencia de la pulpa

A partir de la tabla 1.2 es fcil obtener la grfica de residuos contra predichos


que se muestra en la figura 1.5. Si el modelo es adecuado se espera que en esta grfica
los puntos no sigan ningn patrn y que, por lo tanto, estn distribuidos ms o menos
aleatoriamente a lo largo y ancho de la grfica. Cuando esto ocurre significa que el
modelo se ajusta de igual manera a lo largo de los valores de . Por el contrario, si se
aprecia algn patrn habr que ver cul es el tipo de patrn que se observa en la grfica
y diagnosticar cul es la falla que registra el modelo.

vs. ajustes

(la respuesta es Resistencia)


7,5
5,0

Residuo

2,5
0,0
-2,5
-5,0
140

150

160
Valor ajustado

170

180

Figura 1.5 Grfica de residuos contra estimados o predichos para la resistencia de la pulpa

En particular la figura 1.5 no muestra ninguna anomala, lo cual es una evidencia


ms a favor del modelo de regresin simple para este ejemplo.

1.1.3. Estimacin y prediccin por intervalo en regresin lineal simple


Una de las aplicaciones ms importantes en un anlisis de regresin es hacer
estimaciones de la respuesta media para un valor dado de X. En el caso particular de la
regresin lineal simple, sabemos que un estimador puntual de la respuesta media lo da
la recta de regresin:

Adems de esto, en ocasiones es de inters obtener una estimacin por intervalos


para a partir de cualquier valor de X, para lo cual aplicamos la siguiente ecuacin:

]
(1.21)

A este intervalo se le conoce como intervalo para la recta de regresin. Note que su
amplitud depende del
y de la distancia entre
y . La amplitud es mnima cuando
= y se incrementa conforme |
| se hace ms grande.
Para ilustrar lo anterior consideremos el modelo ajustado a los datos del ejemplo de
la resistencia de la pulpa (tabla 1.1), y obtenemos el intervalo de confianza para la
respuesta media en
= 12 (porcentaje de fibra)
Primeramente calculemos el estimador puntual para cuando
por

)(

= 12 , est dado

y un intervalo de confianza al 95% para

De aqu que el intervalo de confianza para la respuesta media en


por:
(

= 12 est dada

Adems de la estimacin puntual para la pendiente y la ordenada al origen,

, es posible obtener estimaciones de los intervalos de confianza para estos


parmetros. La anchura de estos intervalos de confianza es una medida de la calidad
global de la recta de regresin. Si los trminos del error, del modelo de regresin
tienen una distribucin normal e independiente, entonces tienen ambos una distribucin
igual a la de una variable aleatoria
grados de libertad. Esto lleva a la
siguiente definicin de los intervalos de confianza del
(
)% para la pendiente y
la ordenada al origen.

(1.22)

]
(1.23)

En el caso del intervalo de confianza para la pendiente de los datos del


porcentaje de fibra (tabla 1.1) tenemos

Por lo que pendiente de forma puntual es 1,6242, y por intervalos con un 95% de
nivel de confianza tenemos que esta se encuentra entre 1,3442 y 1,9042
Ejemplo
En un artculo se presentaron los datos de la concentracin del licor verde
( ), y la produccin de una mquina papelera ( ). Los datos se muestran en la tabla
siguiente

Nmero de
observacin
1
2
3
4
5
6
7
8
9
10
11
12
13

Concentracin
Del licor verde
( )
40
42
49
46
44
48
46
43
53
52
54
57
58

Produccin
(tons
)
825
830
890
895
890
910
915
960
990
1010
1012
1030
1050

a) Encuentre un intervalo de confianza de 99% para


b) La concentracin media de
cuando la produccin es
toneladas
c) Encuentre un intervalo de prediccin de 99% para la concentracin de
cuando
toneladas

1.2. Regresin lineal mltiple


En muchas situaciones prcticas existen varias variables independientes que se cree que
influyen o estn relacionadas con una variable de respuesta , y por lo tanto ser
necesario tomar en cuenta si se quiere predecir o entender mejor el comportamiento de
. Por ejemplo, para explicar o predecir el consumo de electricidad en una casa
habitacin tal vez sea necesario considerar el tipo de residencia, el nmero de personas
que la habitan, la temperatura promedio de la zona, etctera.
Sea
variables independientes o regresoras, y sea una variable
de respuesta, entonces el modelo de regresin lineal mltiple con
variables
independientes es el polinomio de primer orden:}

(1.22)

Donde los
son los parmetros del modelo que se conocen como coeficientes de
( )
regresin y es el error aleatorio, con media cero, ( )
. Si en la
ecuacin (1.22)
, estamos en el caso de regresin lineal simple y el modelo es una
lnea recta; si
, tal ecuacin representa un plano. En general, la ecuacin
(1.22)representa un hiperplano en el espacio de
dimensiones generado por las
variables { }.

El trmino lineal del modelo de regresin se emplea debido a que la ecuacin


(1.22) es funcin lineal de los parmetros desconocidos
La interpretacin
de stos es muy similar a lo ya explicado para el caso de regresin lineal simple:
es
la ordenada al origen, y
mide el cambio esperado en por cambio unitario en
cuando el resto de las variables regresoras se mantienen fijas o constantes.
Para encontrar los coeficientes de regresin mltiple por el mtodo de mnimos
cuadrados aplicamos el siguiente sistema de ecuaciones normales:

(1.23)

Estas ecuaciones se pueden resolver para , y mediante cualquier


mtodo apropiado para resolver sistemas de ecuaciones lineales
Por ejemplo La siguiente tabla muestra los pesos Y a la libra ms cercana, las
estaturas X1 a la pulgada ms cercana y las edades X2 al ao ms cercano de 12
muchachos.
Tabla 1.5 Peso, estatura y edad
Peso Estatura Edad
64
71
53
67
55
58
77
57
56
51
76
68

57
59
49
62
51
50
55
48
52
42
61
57

8
10
6
11
8
7
10
9
10
6
12
9

Para encontrar los coeficientes de regresin ( , y ) mltiple mediante el


mtodo de mnimos cuadrados seria de la siguiente manera:

Tabla 1.6 Procedimiento para realizar los clculos para la regresin mltiple
Y

X1

X2

Y2

X 12

X 22

X 1Y

X 2Y

X1 X 2

64
71
53
67
55
58
77
57
56
51
76
68

57
59
49
62
51
50
55
48
52
42
61
57

8
10
6
11
8
7
10
9
10
6
12
9

4096
5041
2809
4489
3025
3364
5929
3249
3136
2601
5776
4624

3249
3481
2401
3844
2601
2500
3025
2304
2704
1764
3721
3249

64
100
36
121
64
49
100
81
100
36
144
81

3648
4189
2597
4154
2805
2900
4235
2736
2912
2142
4636
3876

512
710
318
737
440
406
770
513
560
306
912
612

456
590
294
682
408
350
550
432
520
252
732
513

x1

x2

y 2

x22

x1 y

x2 y

x1 x2

753

x12

643

106

48,139

34,843

976

40,830

6,796

5,779

Al sustituir las sumatorias calculadas en las ecuaciones normales, se obtiene

Resolver este sistema de tres ecuaciones lineales para , y , es por lo


menos tedioso. Es comn emplear matrices para simplificar el proceso. Hoy en da, esta
clase de clculos son realizados por la computadora.
El resultado seria el siguiente
tanto la ecuacin de regresin es

por lo

La solucin manual aplicando el sistema de tres ecuaciones lineales con tres


incgnitas (3x3) pudiera ser aplicando el mtodos de eliminacin de Gauss o bien el
mtodo de Cramer. Para este tipo de planteamiento se recomienda el mtodo de Cramer
el cual consiste en la siguiente secuencia:

(
(

) (
)

)
)

Siguiendo la misma secuencia de la multiplicacin para el denominador, as


como para y
|

Sustituyendo los valores tendremos

753
40,830
6,796

643
34,843
5,779

106
5,779
976

753
40,830
6,796

643
34,843
5,779

12
643
106

643
34,843
5,779

106
5,779
976

12
643
106

643
34,843
5,779

(2.56070963x1010+ 2.525323601x1010+ 2.501139642x1010) (2.510006097x1010+ 2.514782127x1010+ 2.562360144x1010)


( 408081216 + 393885082 + 393885082 ) ( 391495948 + 400762092 + 403526224 )

Siguiendo el mismo procedimiento correspondiente para y tenemos los


coeficientes de regresin mltiple

Anlisis de regresin: Peso vs. Estatura; Edad en Minitab


La ecuacin de regresin es
Peso = 3,7 + 0,855 Estatura + 1,51 Edad

Predictor
Constante
Estatura
Edad

Coef
3,65
0,8546
1,506

S = 5,36321

Coef.
de EE
16,17
0,4517
1,414

T
0,23
1,89
1,07

R-cuad. = 70,9%

P
0,826
0,091
0,315

R-cuad.(ajustado) = 64,4%

Anlisis de varianza
Fuente
Regresin
Error residual
Total

GL
2
9
11

SC
629,37
258,88
888,25

MC
314,69
28,76

F
10,94

P
0,004

Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
R^2 ajustado
Error tpico
Observaciones

0,841756673
0,708554296
0,643788584
5,363214691
12

ANLISIS DE VARIANZA
Regresin
Residuos
Total

Intercepcin
Estatura
Edad

Grados de libertad
2
9
11

Suma de cuadrados
629,3733536
258,8766464
888,25

Promedio de los cuadrados


314,6866768
28,76407182

F
10,9402688

Valor crtico de F
0,003895018

Coeficientes
3,651215805
0,854609929
1,50633232

Error tpico
16,16780562
0,451664156
1,414265835

Estadstico t
0,22583249
1,892135824
1,06509843

Probabilidad
0,82637676
0,0910251
0,31457045

Inferior 95%
-32,9229014
-0,167125373
-1,692959262

Pronstico Peso
64,41464032
69,13652482
54,56509625
73,20668693
59,28698075
56,9260385
65,71808511
58,22948328
63,15425532
48,58282675
73,85840932
65,92097264

Residuos
-0,414640324
1,863475177
-1,565096251
-6,20668693
-4,28698075
1,073961499
11,28191489
-1,229483283
-7,154255319
2,417173252
2,141590679
2,079027356

Anlisis de los residuales


Observacin
1
2
3
4
5
6
7
8
9
10
11
12

1.2.1. Pruebas de hiptesis en regresin lineal mltiple


Las hiptesis sobre los parmetros del modelo son equivalentes a las realizadas para
regresin lineal simple, pero ahora son ms necesarias porque en regresin mltiple
tenemos ms parmetros en el modelo; sin embargo, por lo general es necesario evaluar
su verdadera contribucin a la explicacin de la respuesta. Tambin requerimos de la
suposicin de que los errores se distribuyen en forma normal, independientes, con

media cero y varianza (


las observaciones son:

(
(

)). Una consecuencia de esta suposicin es que

).

La hiptesis global ms importante sobre un modelo de regresin mltiple


consiste en ver si la regresin es significativa. Esto se logra probando la siguiente
hiptesis:

Aceptar
significa que ningn trmino o variable en el modelo tiene una
contribucin significativa al explicar la variable de respuesta, . Mientras que rechazar
implica que por lo menos un trmino en el modelo contribuye de manera
significativa a explicar . El procedimiento para probar esta hiptesis es una
generalizacin del procedimiento utilizado para probar la hiptesis equivalente en
regresin lineal simple.
El estadstico de prueba para la significancia del modelo de regresin lineal
mltiple esta dado por:

(
)
(1.24)

que bajo

tiene una distribucin


) o tambin si

).

As, se rechaza

Ejemplo
Se probar la significacin de la regresin (con
pesos , estaturas y edades de la tabla 1.5

) utilizando los datos de los

El valor de
calculado por formula nos da un valor de
comodidad observamos el resumen arrojado por Excel y/o Minitab

si

= 10,9402 ,por

10,94

En tanto que el valor de encontrado en tablas cuando tenemos un nivel de


significancia de 0,05 y 2 grados de libertad en el numerador y 9 en el denominador el
cual es igual a 4,26
(
(

)
)

)= (

Se rechaza la Hiptesis nula

Dado que el valor encontrado en formula es mayor al punto crtico en base al


nivel de significancia por lo que rechazamos la hiptesis nula y aceptamos la alterna lo

cual implica que por lo menos un trmino en el modelo contribuye de manera


significativa a explicar
Tabla 1.7 ANOVA para la significancia del modelo de regresin lineal mltiple
Fuente de
Suma de
Grados de Cuadrado
variacin
cuadrados
libertad
medio
Regresin
K

(
)

Resumen

Error o residuo

Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin
R^2
Total
R^2 ajustado
Error tpico
Observaciones

0,841756673
0,708554296
0,643788584
5,363214691
12

n-1

ANLISIS DE VARIANZA
Regresin
Residuos
Total

Grados de libertad
2
9
11

Suma de cuadrados
629,3733536
258,8766464
888,25

Promedio de los cuadrados


314,6866768
28,76407182

F
10,9402688

Valor crtico de F
0,003895018

Coeficientes

Error tpico
16,16780562
0,451664156
1,414265835
F

Estadstico t
0,22583249
1,892135824
1,06509843

Probabilidad
0,82637676
0,0910251
0,31457045

Inferior 95%
-32,9229014
-0,167125373
-1,692959262

Anlisis
de varianza en 3,651215805
Minitab
Intercepcin
Estatura
Edad
Fuente
Regresin
Anlisis de los residuales
Error residual
Total Observacin

0,854609929

1,50633232
SC
MC
629,37
314,69 10,94
258,88
28,76
888,25
Pronstico Peso
Residuos

GL
2
9
11
1
2
3
4
5
6
7
8
9
10
11
12

64,41464032
69,13652482
54,56509625
73,20668693
59,28698075
56,9260385
65,71808511
58,22948328
63,15425532
48,58282675
73,85840932
65,92097264

P
0,004

-0,414640324
1,863475177
-1,565096251
-6,20668693
-4,28698075
1,073961499
11,28191489
-1,229483283
-7,154255319
2,417173252
2,141590679
2,079027356

Coeficiente de determinacin

El que un modelo sea significativo no necesariamente implica que sea bueno en


trminos de que explique la variacin de los datos. Por ello es importante tener
mediciones adicionales de la calidad del ajuste del modelo, como las grficas de
residuales y el coeficiente de determinacin. Con la informacin del anlisis de varianza
de la tabla 1.7 es muy sencillo calcular el coeficiente de determinacin
, y el
coeficiente de determinacin ajustado
:

(1.25)

)
(

)
(1.26)

Ambos coeficientes se interpretan de forma similar al caso de regresin lineal


simple, es decir, como el porcentaje de variabilidad de los datos que son explicados por
el modelo. Se cumple que
; en general, para hablar de un modelo que
tiene un ajuste satisfactorio es necesario que ambos coeficientes tengan valores
superiores a 0,7. Cuando en el modelo hay trminos que no contribuyen de manera
significativa a ste, el
tiende a ser menor que el
. Por lo tanto, es deseable
depurar el modelo y para ello las siguientes pruebas de hiptesis son de mucha utilidad.

Para los datos de la tabla 1.5 tenemos que

Coeficiente de correlacin mltiple


Es la raz cuadrada del coeficiente de determinacin

(1.27)
y es una medida de la intensidad de la relacin entre la variable dependiente, , y el conjunto de
)
variables o trminos en el modelo (

Error estndar de estimacin


Al igual que en regresin lineal simple, el error estndar de estimacin proporciona la
medida del error de ajuste de un modelo, stas tienen una interpretacin similar a la que
se dio para el caso de regresin lineal simple. En cuanto al clculo en el caso mltiple,
el error estndar de estimacin,

)
(1.28)

En el caso del ejemplo de los pesos, estatura y edades tenemos

1.2.2. Intervalos de confianza y prediccin en regresin mltiple


En los modelos de regresin mltiple con frecuencia es conveniente construir
estimaciones de intervalos de confianza para los coeficientes de regresin * +. Por
ejemplo, a partir de la tabla 1.6 es claro que un estimador por intervalos de cada
coeficiente en lo individual est dado por:

(1.29)

Tabla 1.8 Anlisis de regresin mltiple


Parmetro
Estimacin Error estndar

Intercepcin

Estadstico

Valor-p
| |)
(

Resumen

Estadsticas de la regresin
Coeficiente de correlacin mltiple
.
Coeficiente de determinacin R^2
.
R^2 ajustado
Error tpico
Observaciones

0,841756673
.
0,708554296
.
0,643788584
5,363214691
12

Grados de libertad
2
9
11

Regresin
Residuos
Total

Intercepcin
Estatura
Edad

Suma de cuadrados
629,3733536
258,8766464
888,25

Coeficientes
3,651215805
0,854609929
1,50633232

Error tpico
16,16780562
0,451664156
1,414265835

Pronstico Peso

Residuos

73,20668693
59,28698075
56,9260385
65,71808511
58,22948328
63,15425532
48,58282675
73,85840932
65,92097264

-6,20668693
-4,28698075
1,073961499
11,28191489
-1,229483283
-7,154255319
2,417173252
2,141590679
2,079027356

| |)

.
.

ANLISIS DE VARIANZA

.
.

Promedio de los cuadrados


314,6866768
28,76407182

Estadstico t
0,22583249
1,892135824
1,06509843

| |)

F
10,9402688

Valor crtico de F
0,003895018

Probabilidad
0,82637676
0,0910251
0,31457045

Inferior 95%
-32,9229014
-0,167125373
-1,692959262

Anlisis de los residuales


Observacin

1
64,41464032
-0,414640324 de confianza con respecto a la respuesta
Tambin es posible
obtener un intervalo
2
69,13652482
1,863475177
media en un punto particular,
digamos -1,565096251
est dado por:
3
54,56509625

4
5
6
7
8
9
10
11
12

( )

Ejercicios de regresin lineal mltiple

13.- Por qu se requiere la regresin lineal mltiple?


14.- Se realizo un estudio para investigar la relacin de la resistencia al corte del terreno
( ) con la profundidad en pies ( ) y el contenido de humedad ( ). Se hicieron 10
observaciones, obtenindose las siguientes cantidades resumidas

,
,

a) Establezca las ecuaciones normales de mnimos cuadrados para el modelo


b) Estime los parmetros del modelo del inciso a)
c) Cul es la resistencia predicha cuando
pies y

15.- En una empresa dedicada a anodizar artculos de aluminio (bateras de cocina), el


anodizado se logra con una solucin hecha a base de cidos (sulfrico, ctrico, brico) y
dicromato de aluminio. En este proceso se controla el pH de la solucin, la temperatura,
la corriente y el tiempo de permanencia. Debido al poco grosor del anodizado, han
aumentado las quejas por la escasa resistencia y durabilidad del producto. Para resolver
este problema se decide estudiar, mediante un experimento, la relacin del pH y la
temperatura con el grosor del anodizado. Los datos se muestran en la siguiente tabla:

pH
1,2
1,8
1,2
1,8
1,2
1,8
1,2
1,8
1,5
1,5

Temperatura
-8
-8
8
8
-8
-8
8
8
0
0

Espesor
9
14
10
19
8
12
11
20
14
13

a) Cules son las variables independientes y cul la dependiente? Argumente


b) Ajuste un modelo del tipo
y anote la
ecuacin del modelo ajustado
c) A partir del modelo ajustado, cul es el espesor estimado cuando se utiliza un
pH = 2 y una temperatura de 10 grados?
d) El modelo es adecuado? Argumente con base en graficas de residuos, pruebas
de hiptesis y coeficientes de determinacin.
16.- Se realiz un experimento para estudiar el sabor del queso panela en funcin de la
cantidad del cuajo y la sal. La variable de respuesta observada es el sabor promedio
reportado por un grupo de cinco panelistas que probaron todos los quesos y los
calificaron en una escala hednica. Los datos obtenidos se muestran a continuacin:
Sal
6
5,5
4,5
4
4,5
5,5
5
5

Cuajo
0,3
0,387
0,387
0,3
0,213
0,213
0,3
0,3

Sabor
5,67
7,44
7,33
6,33
7,11
7,22
6,33
6,66

a) Ajuste el modelo
b) El modelo explica la variacin observada en el sabor? Argumente con base en la
significancia del modelo, los residuales y el coeficiente de determinacin.

c) Ajuste un modelo que incluya trminos cuadrticos y analice con detalle la calidad del
ajuste aplique las pruebas de hiptesis
d) Compare el error estndar de estimacin (
(
) para ambos modelos
e) Cul modelo prefiere para explicar el sabor?

) y los coeficientes de determinacin

17.- Se piensa que la energa elctrica consumida mensualmente por una planta qumica
se relaciona con la temperatura ambiente promedio ( ), el nmero de das laborales del
mes ( ), la pureza promedio del producto ( ) y las toneladas del producto producidas
( ). Se cuenta con los datos del ltimo ao, los cuales se presentan en la tabla
siguiente:

240
236
290
274
301
316
300
296
267
276
288
261

25
31
45
60
65
72
80
84
75
60
50
38

24
21
24
25
25
26
25
25
24
25
25
23

91
90
88
87
91
94
87
86
88
91
90
89

100
95
110
88
94
99
97
96
110
105
100
98

a) Ajuste un modelo de regresin lineal mltiple a estos datos


b) Prediga el consumo de electricidad para un mes en el que
das
y
toneladas
c) Calcule
para este modelo. Interprete esta cantidad
d) Grafique los residuales contra . Interprete la grafica

1.2.3. Uso de un software estadstico


Excel
En la hoja de clculo de Excel se incluye la regresin lineal simple y mltiple; para
ello, es necesario realizar la siguiente secuencia de opciones:
Datos

Anlisis de datos

Regresin

Generalmente Excel no trae instalado la herramienta de anlisis de datos esta debe


instalarse con la siguiente secuencia:
1.- En la hoja de clculo de Excel (pantalla principal) hacer click con el puntero en el
smbolo del sistema localizado en el extremo superior izquierdo
2.- De la ventana desplegada hacer click en opciones de Excel

3.- De la ventana desplegada hacer click en complementos

4.- De la ventana desplegada hacer click en ir

5.- De la ventana desplegada hacer click en ir

6.- De esta ventana activar la casilla de herramientas para anlisis (palomearla) y dar
click en aceptar. De esta manera hemos activado la opcin de anlisis de datos.
Para capturar la tabla de datos para el anlisis de regresin lineal simple o
mltiple, primeramente capturamos los datos en la hoja de clculo, posteriormente
activamos Datos seguido de Anlisis de datos y seleccionamos Regresin
Datos

Anlisis de datos

Regresin

En la ventana de captura se solicitar el rango de celdas donde se encuentran los


datos para la variable dependiente Rango
de entrada y para la(s) variable(s)
regresora(s) Rango de entrada

Activamos la casilla de rtulos, por default est indicado en una hoja nueva,
seleccionamos adems cualquiera de las opciones de residuos, grafica de residuales, y
curva de regresin ajustada y aceptar.

Minitab
En minitab la secuencia de captura para la regresin lineal simple o mltiple en la hoja
de clculo una vez capturada las columnas de datos seleccionamos Estadsticas luego
Regresin seguida de Regresin nuevamente

De la ventana desplegada en Respuesta indicamos la variable de respuesta, en este caso


es resistencia y en predictor indicamos porcentaje de fibra activando tambin cualquiera
de las opciones posibles, terminando en aceptar.

1.3. Regresin no lineal


Si las dos variables X y Y se relacionan segn un modelo de lnea recta, se habla de
regresin lineal simple

Cuando las variables X y Y se relacionan segn una lnea curva, se habla de


regresin no lineal o curvilnea. Aqu se puede distinguir entre regresin parablica,
exponencial, potencial etc.
Supongamos que al hacer la representacin grfica correspondiente la
distribucin bidimensional, hemos obtenido la figura 6.1c. Se observa una clara relacin
entre las dos variables, pero desde luego, esa relacin no es lineal.
Por tanto, debemos buscar la funcin que ha de describir la dependencia entre
las dos variables.
Nos limitaremos al estudio de las ms utilizadas: la funcin parablica, la
logartmica, la exponencial y la potencial.

Parbola de Regresin
En muchos casos, es una funcin de segundo grado la que se ajusta lo suficiente a la
situacin real dada.
La expresin general de un polinomio de 2 grado es:

donde a, b y c son los parmetros.


El problema consiste, por tanto, en determinar dichos parmetros para una
distribucin dada. Seguiremos para ello, un razonamiento similar al que hicimos en el
caso del modelo de regresin lineal simple, utilizando el procedimiento de ajuste de los
mnimos cuadrados, es decir, haciendo que la suma de los cuadrados de las desviaciones
con respecto a la curva de regresin sea mnima:
(

donde, siguiendo la notacin habitual, yi son los valores observados de la variable


dependiente, e los valores estimados segn el modelo; por tanto, podemos escribir D
de la forma:
(

Para encontrar los valores de a, b y c que hacen mnima la expresin anterior,


deberemos igualar las derivadas parciales de D con respecto a dichos parmetros a cero
y resolver el sistema resultante. Las ecuaciones que forman dicho sistema se conocen

como ecuaciones normales de Gauss (igual que en el caso de la regresin lineal


simple).

Funcin Exponencial, Potencial y Logartmica


El problema de ajustar un modelo potencial, de la forma
y uno exponencial
se reduce al de la funcin lineal, con solo tomar logaritmos.
Modelo potencial:
Si tomamos logaritmos en la expresin de la funcin potencial, obtendremos:

Como vemos es la ecuacin de una recta:


, donde ahora
.
De modo que el problema es sencillo, basta con transformar Y en
y X en
y
ajustar una recta a los valores transformados. El parmetro b del modelo potencial
coincide con el coeficiente de regresin de la recta ajustada a los datos transformados, y
A lo obtenemos mediante el antilog(a).

Modelo exponencial:
Tomando logaritmos en la expresin de la funcin exponencial, obtendremos:

Tambin se trata de la ecuacin de una recta


, pero ahora
ajustndola a
y a X; de modo que, para obtener el parmetro A del modelo
exponencial, basta con hacer antilog(a), y el parmetro B se obtiene tomando antilog(b).

Modelo logartmico:
La curva logartmica Y = a + b
es tambin una recta, pero en lugar de estar
referida a las variables originales X e Y, est referida a
y a Y.
Hemos visto, cmo, a pesar de ser inicialmente modelos mucho ms complejos
que el de una recta, estos tres ltimos se reducen al modelo lineal sin ms que
transformar adecuadamente los datos de partida.

También podría gustarte