Está en la página 1de 50

9,0

Estadística Inferencial II

8,5
8,0
7,5
7,0
6,5
6,0
1975 1980 1985 1990 1995 2000
A ños
2 CAPÍTULO 1 Regresión lineal simple y múltiple

Contenido
CAPÍTULO 1. Regresión lineal simple y múltiple………………………………. 4
1.1. Regresión Lineal simple………………………………………………………. 4
1.1.1. Prueba de hipótesis en la regresión lineal simple…………...……………. 12
1.1.2. Calidad del ajuste en regresión lineal simple……………...……………. .. 19
1.1.3. Estimación y predicción por intervalo en regresión lineal simple……….... 23
1.1.4. Uso de software estadístico………………………………………....……... 25

1.2. Regresión lineal múltiple……………………………………………………… 30


1.2.1. Pruebas de hipótesis en regresión lineal múltiple…………………………. 34
1.2.2. Intervalos de confianza y predicción en regresión múltiple……………...... 37
1.2.3. Uso de un software estadístico………………………………………....….. 40
1.3. Regresión no lineal……………………………………………………………. 43

CAPÍTULO 2. Diseño de experimentos de un factor……………………….…. 45


2.1. Familia de diseños para comparar tratamientos………………………………. 49
2.2. El modelo de efectos fijos……………………………….……………………. 50
2.3. Diseño completamente aleatorio y ANOVA…………………………………. 50
2.4. Comparaciones o pruebas de rangos múltiples……………………………….. 62
2.5. Verificación de los supuestos del Modelo……………………………………. 71
2.6. Uso de un software estadístico………………………………………….…….. 80

CAPÍTULO 3. Diseño de bloques………………………………………………. 84


3.1. Diseños en bloques completos al azar………………………………………… 85
3.2. Diseño en cuadrado latino…………………………………………………….. 95
3.3. Diseño en cuadrado grecolatino…………………………………..………..... 104
3.4. Uso de un software estadístico………………………………………………. 108

CAPÍTULO 4. Conceptos básicos en diseños factoriales………………….…. 112


4.1. Diseños factoriales con dos factores…………………………………………. 114
4.2. Diseños factoriales con tres factores…………………………………………. 123
4.3. Diseño factorial general……………………………………………………… 128
4.4. Modelos de efectos aleatorios………………………………………….…….. 130
4.5. Uso de un software estadístico ………………………………………….…… 134

CAPÍTULO 5. Series de tiempo………………………………………….…….. 138


5.1. Modelo clásico de series de tiempo……………………………………....…... 141
5.2. Análisis de fluctuaciones……………………………………………………... 143
5.3. Análisis de tendencia…………………………………………………………. 146
5.4. Análisis de variaciones cíclicas…………………………………… ……......147
5.5. Medición de variaciones estacionales e irregulares………………………….. 148
5.6. Aplicación de ajustes estacionales………………………………………......... 148
5.7. Pronósticos basados en factores de tendencia y estacionales……………........150

Apéndice. Tablas Estadísticas……………………………………………………..166


Bibliografía……………………………………………………………………....…174

Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González


CAPÍTULO 1

Regresión lineal simple y múltiple

1.1. Regresión Lineal simple


1.1.1. Prueba de hipótesis en la regresión lineal simple
1.1.2. Calidad del ajuste en regresión lineal simple
1.1.3. Estimación y predicción por intervalo en regresión lineal simple
1.1.4. Uso de software estadístico
4 CAPÍTULO 1 Regresión lineal simple y múltiple Regresión lineal simple 4

1.1. Regresión Lineal simple

El análisis de regresión se usa con el propósito de predicción. La meta del análisis de


regresión es desarrollar un modelo estadístico que se pueda usar para predecir los
valores de una variable dependiente o de respuesta basados en los valores de al menos
una variable independiente o explicativa. Este capítulo se centra en un modelo de
regresión lineal simple, que usa una variable numérica independiente para predecir
la variable numérica dependiente .

Para establecer una relación cuantitativa entre y es necesario disponer de


cierta información muestral. Esta información consiste de un conjunto de pares de
observaciones de y , donde cada uno de estos pares pertenece a una unidad
elemental particular de la muestra. Por ejemplo, suponga que el rendimiento de un
proceso químico está relacionado con la temperatura de operación, o la experiencia
profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de
personas, la producción agraria y la cantidad de fertilizantes utilizados, etc. Si mediante
un modelo matemático es posible describir tal relación, entonces este modelo puede ser
usado para propósitos de predicción, optimización o control

Para ilustrar el concepto, considérense los datos de la tabla 1.1. En esta tabla, se
relaciona la cantidad de fibra (madera) en la pulpa con la resistencia del producto
(papel).

Tabla 1.1 Datos de resistencia de pulpa


Porcentaje de fibra Resistencia

4 134
6 145
8 142
10 149
12 144
14 160
16 156
18 157
20 168
22 166
24 167
26 171
28 174
30 183

Es claro que la variable de respuesta o variable dependiente es la resistencia, por


eso se denota con . Para tener una idea de la relación que existe entre y , los 14
pares de datos son graficados en un diagrama de dispersión de la figura 1.1. De la
inspección de este diagrama de dispersión se ve que los puntos cercanos siguen una
línea recta, lo que indica que la suposición de linealidad entre las dos variables parece
ser razonable
5 CAPÍTULO 1 Regresión lineal simple y múltiple Regresión lineal simple 5

El diagrama de dispersión es una grafica en la que cada punto trazado representa


un par de valores observados por las variables independiente y dependiente. El valor de
la variable independiente X, se traza en relación con el eje horizontal y el valor de la
variable dependiente Y, en relación con el eje vertical. La naturaleza de la relación entre
dos variables puede tomar muchas formas, que van desde algunas funciones
6 CAPÍTULO 1 Regresión lineal simple y múltiple Regresión lineal simple 6

matemáticas sencillas a otras en extremo complicadas. La relación más elemental


consiste en una línea recta o relación lineal.
Gráfica de dispersión de Resistencia vs. Porcentaje de fibra
190

180

170
Resistencia

160

150

140

130
5 10 15 20 25 30
Porcentaje de fibra

Figura 1.1 Diagrama de dispersión para los datos de resistencia de la pulpa

La relación del modelo matemático adecuado tiene influencia de la distribución


de los valores y en el diagrama de dispersión. Es sencillo ver esto si se examinan
las siguientes graficas (figura 1.2)

Plan A Plan B Plan C


Relación lineal positiva Relación lineal negativa No hay relación entre X y Y

Plan D Plan E Plan F


Relación curvilínea positiva Relación curvilínea en forma de U Relación curvilínea negativa

Figura 1.2 Relación entre dos variables

En la grafica A se observa que los valores de Y, en general, aumentan en forma


lineal cuando se incrementa .
En la grafica B es un ejemplo de una relación lineal negativa. Cuando crece,
se observa que los valores de Y decrecen. Un ejemplo de este tipo de relación puede ser
el precio de un producto específico y la cantidad de ventas.
7 CAPÍTULO 1 Regresión lineal simple y múltiple Regresión lineal simple 7

En la grafica C se muestra un conjunto de datos en el que existe muy poca o


ninguna relación entre y Y. Para cada valor de aparecen valores altos y bajos de Y.
En la grafica D muestran una relación curvilínea entre y Y. Los valores de Y
aumentan cuando crece, pero el incremento disminuye para valores altos de . un
ejemplo de esta relación curvilínea puede ser la edad y el costo de mantenimiento de
una maquina. Cuando la máquina tiene muchos años, el costo de mantenimiento se
eleva con rapidez al principio, pero después de cierto número de años se nivela.
En la grafica E muestra una relación parabólica o en forma de U entre y Y.
Conforme aumenta, al principio Y disminuye; pero si aumenta más, Y no sólo deja
de disminuir sino que aumenta después de su valor mínimo. Un ejemplo tipo de relación
puede ser el número de errores por hora en una tarea y número de horas trabajadas.
Por ultimo en la grafica F indica una relación exponencial o curvilínea negativa
entre y Y. en este caso, Y disminuye con rapidez al principio del incremento de
pero después, cuando aumenta más, la velocidad de disminución es mucho menor. Un
ejemplo de esta relación exponencial puede ser el valor de reventa de un tipo dado de
automóvil y los años que tiene. El primer año el valor baja en forma drástica respeto a
su precio original; sin embargo, la disminución es mucho más lenta en los años
subsecuentes.

El análisis de regresión lineal simple se refiere a encontrar la línea recta que mejor se
ajuste a los datos. El mejor ajuste puede definirse de varias maneras. Quizá la más
sencilla sea encontrar la línea recta para la cual las diferencias entre los valores reales y
los valores pronosticados a partir de la recta ajustada de regresión sean tan pequeñas
como sea posible. Sin embargo, como estas diferencias son positivas para algunas
observaciones y negativas para otras, en términos matemáticos se minimiza la suma de
los cuadrados de las diferencias.
Gráfica de línea ajustada
Resistencia = 130,7 + 1,624 Porcentaje de fibra
190 S 3,87648
R-cuad. 93,0%
R-cuad.(ajustado) 92,4%
180

170
Resistencia

160

150

140

130
5 10 15 20 25 30
Porcentaje de fibra

Figura 1.3 Línea recta que mejor se ajusta a los datos, donde la
distancia a los puntos es la más pequeña posible

Suponga que las variables y Y están relacionadas linealmente y que para cada
valor de , la variable dependiente, Y, es una variable aleatoria. Es decir, que cada
observación de Y puede ser descrita por el modelo:
8 CAPÍTULO 1 Regresión lineal simple y múltiple Regresión lineal simple 8

donde es un error aleatorio con media cero y varianza . También suponga que los
errores aleatorios no están correlacionados. La ecuación (1.1) es conocida como el
modelo de regresión lineal simple. Bajo el supuesto de que este modelo es adecuado y
como el valor esperado del error es cero, , se puede ver que el valor esperado
de la variable Y, para cada valor de , está dado por línea recta

(1.2)

En donde son los parámetros del modelo y son constantes desconocidas.


Por lo tanto, para tener bien especificada la ecuación que relaciona las dos variables será
necesario estimar los dos parámetros, que tienen los siguientes significados:

- Es el punto en el cual la línea recta intercepta o cruza el eje y.


- Es la pendiente de la línea, es decir, es la cantidad en que se incrementa o
disminuye la variable por cada unidad que se incrementa

Un procedimiento para ajustar la mejor recta y, por lo tanto, para estimar


es mediante el método de mínimos cuadrados, el cual consiste en lo siguiente:
si de la ecuación (1.1) despejamos los errores, los elevamos al cuadrado y los sumamos,
obtendremos lo siguiente:

(1.3)

De esta forma, se quieren encontrar los valores de que minimizan la


suma de los errores cuadrados. Es decir, se busca ajustar la recta de manera que la suma
de las distancias en forma vertical de los puntos a la recta se minimice, como se ilustra
en la figura 1.3.
El procedimiento matemático para minimizar los errores de la ecuación (1.3) y
así encontrar los estimadores de mínimos cuadrados de , consiste en derivar a
con respecto a , y derivar también a con respecto a , se obtiene:

Al igualar a cero las dos ecuaciones y resolverlas en forma simultánea con


respecto a las dos incógnitas ( ), se obtiene la solución única:

(1.4)

donde
9 CAPÍTULO 1 Regresión lineal simple y múltiple Regresión lineal simple 9

(1.7)

son las medias muéstrales de las dos variables, es decir,

De esta forma, para obtener la recta ajustada es necesario aplicar las fórmulas
anteriores, lo cual es muy sencillo, como se muestra en la tabla 1.2 para los datos de la
resistencia de la pulpa.

Tabla 1.2 Procedimiento para realizar los cálculos para la regresión simple para los datos de la resistencia
de la pulpa.

4 134 16 17 956 536 137,2 -3,2 10,24


6 145 36 21 025 870 140,4 4,6 21,16
8 142 64 20 164 1 136 143,7 -1,7 2,89
10 149 100 22 201 1 490 146,9 2,1 4,41
12 144 144 20 736 1 728 150,2 -6,2 38,44
14 160 196 25 600 2 240 153,4 6,6 43,56
16 156 256 24 336 2 496 156,7 -0,7 0,49
18 157 324 24 649 2 826 159,9 -2,9 8,41
20 168 400 28 224 3 360 163,2 4,8 23,04
22 166 484 27 556 3 652 166,4 -0,4 0,16
24 167 576 27 889 4 008 169,7 -2,7 7,29
26 171 676 27 241 4 446 172,9 -1,9 3.61
176,2 -2,2 4,84
28 174 784 30 276 4 872
179,4 3,6 12,96
30 183 900 33 489 5 490
Ʃ Ʃ Ʃ =4 Ʃ = 353 Ʃ = 39 Ʃ 2216.6
956 342 150
1 CAPÍTULO 1 Regresión lineal simple y múltiple Regresión lineal simple 10
0

Por lo tanto, la línea recta que mejor explica la relación entre porcentaje de fibra
y resistencia del papel, está dada por

En la figura 1.3 se muestra el ajuste de esta línea. De esta manera, por cada
punto porcentual de incremento en el porcentaje de fibra, se espera un incremento de
resistencia de 1,6242 en promedio. La ecuación (1.8) sirve para estimar la resistencia
promedio esperada para cualquier porcentaje de fibra utilizada.

Nota: La calculadora científica, trae la función de Regresión Lineal, una vez


activada esta función, se procede a capturar por parejas (X, Y) correspondientes sin
olvidar separarlas por una coma entre ambos datos, se manda cada par a memoria, al
finalizar la captura se obtienen los coeficientes correspondientes presionando la inversa
correspondiente de acuerdo al modelo de esta.

Utilizando un paquete computacional el resultado arrojado sería el siguiente:


Resumen de Excel

Estadísticas de la regresión
Coeficiente de correlación múltiple 0,964432318
Coeficiente de determinación R^2 0,930129695
R^2 ajustado 0,92430717
Error típico 3,876481166
Observaciones 14

ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 1 2400,531868 2400,531868 159,7467824 2,70702E-08
Residuos 12 180,3252747 15,02710623
Total 13 2580,857143

Intercepción 130,6747253
Coeficientes 2,417790201
Error típico 54,047173t
Estadístico 1,05975E-15
Probabilidad 125,406813
Inferior 95%
Porcentaje de fibra 1,624175824 0,128504099 12,63909737 2,70702E-08 1,344189444

Análisis de los residuales

Observación Pronóstico Resistencia Residuos


1 137,1714286 -3,171428571
2 140,4197802 4,58021978
3 143,6681319 -1,668131868
4 146,9164835 2,083516484
5 150,1648352 -6,164835165
6 153,4131868 6,586813187
7 156,6615385 -0,661538462
8 159,9098901 -2,90989011
9 163,1582418 4,841758242
10 166,4065934 -0,406593407
11 169,6549451 -2,654945055
12 172,9032967 -1,903296703
13 176,1516484 -2,151648352
14 179,4 3,6

Resumen de Minitab
Análisis de regresión: Resistencia vs. Porcentaje de fibra

La ecuación de regresión es
Resistencia = 131 + 1,62 Porcentaje de fibra

Coef.
1 CAPÍTULO 1 Regresión lineal simple y múltiple Regresión lineal simple 11
1
Predictor Coef de EE T P
Constante 130,675 2,418 54,05 0,000
Porcentaje de fibra 1,6242 0,1285 12,64 0,000
1 CAPÍTULO 1 Regresión lineal simple y múltiple Regresión lineal simple 12
2

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 2400,5 2400,5 159,75 0,000
Error residual 12 180,3 15,0
Total 13 2580,9

Porcentaje Ajuste Residuo


Obs de fibra Resistencia Ajuste SE Residuo estándar
1 4,0 134,00 137,17 1,97 -3,17 -0,95
2 6,0 145,00 140,42 1,75 4,58 1,32
3 8,0 142,00 143,67 1,55 -1,67 -0,47
4 10,0 149,00 146,92 1,37 2,08 0,57
5 12,0 144,00 150,16 1,22 -6,16 -1,68
6 14,0 160,00 153,41 1,11 6,59 1,77
7 16,0 156,00 156,66 1,04 -0,66 -0,18
8 18,0 157,00 159,91 1,04 -2,91 -0,78
9 20,0 168,00 163,16 1,11 4,84 1,30
10 22,0 166,00 166,41 1,22 -0,41 -0,11
11 24,0 167,00 169,65 1,37 -2,65 -0,73
12 26,0 171,00 172,90 1,55 -1,90 -0,54
13 28,0 174,00 176,15 1,75 -2,15 -0,62
14 30,0 183,00 179,40 1,97 3,60 1,08

Tabla 1.4. Formulas básicas para el Análisis de regresión para el modelo

Es el punto en el cual la línea recta intercepta o cruza el eje Y

Es la pendiente de la línea, es decir, es la cantidad en que se incrementa o


disminuye la variable por cada unidad que se incrementa
Ecuación de la regresión lineal estimada

Sumatoria de XY

Sumatoria de XX

Variabilidad total

Media de X

Media de Y

Sumatoria de los cuadrados del error

Suma de cuadrados de la regresión

Estimador insesgado de la varianza

Cuadrado medio del error

Cuadrado medio total


1 CAPÍTULO 1 Regresión lineal simple y múltiple Regresión lineal simple 13
3

= Error estándar de estimación

Coeficiente de determinación en regresión lineal simple

Estadístico para prueba de hipótesis en regresión lineal simple

Estimación por intervalos para , en


regresión lineal simple

Estimación por intervalos para la pendiente en


regresión lineal simple

Estimación para la ordenada al


origen en regresión lineal simple

Ejemplo
Suponga que el gerente de una cadena de servicios de entrega de paquetería desea
desarrollar un modelo para predecir las ventas semanales (en miles de dólares) para las
tiendas individuales basado en el número de clientes que realizan compras. Se
seleccionó una muestra aleatoria entre todas las tiendas de la cadena con los siguientes
resultados.

Tienda Clientes Ventas ($000) Tienda Clientes Ventas ($000)


1 907 11,20 11 679 7,63
2 926 11,05 12 872 9,43
3 506 6,48 13 924 9,46
4 741 9,21 14 607 7,64
5 789 9,42 15 452 6,92
6 889 10,08 16 729 8,95
7 874 9,45 17 794 9,33
8 510 6,73 18 844 10,23
9 529 7,24 19 1010 11,77
10 420 6,12 20 621 7,41

(a) Grafique el diagrama de dispersión.


(b) Suponga una relación lineal y utilice el método de mínimos cuadrados para encontrar
los coeficientes de regresión y
(c) Interprete el significado de la pendiente.
(d) Pronostique las ventas semanales (en miles de dólares) para las tiendas que tienen 600
clientes.
1 CAPÍTULO 1 Regresión lineal simple y múltiple Regresión lineal simple 14
4
(e) ¿Qué otros factores además del número de clientes pueden afectar las ventas?
1 CAPÍTULO 1 Regresión lineal simple y múltiple Regresión lineal simple 15
5

Respuestas

a)

Gráfica de dispersión de Ventas vs. Clientes


12

11

10
Ventas

7
6
400 500 600 700 800 900 1000
Clientes

b) Los coeficientes son = 2,3086 y = 0,0088


c) Por cada cliente más, se espera un incremento en las ventas de 0,0088612 de miles
de dólares en promedio.
d)
e) Factores tan variados como, atención al cliente, lejanía, falta de estacionamiento etc.,
etc.

Resumen de Excel

Coeficientes Error típico Estadístico t Probabilidad


Intercepción 2,308620077 0,486903934 4,741428269 0,000162977
Clientes 0,008861219 0,000647589 13,68338889 5,93374E-11

1.1.1. Prueba de hipótesis en la regresión lineal simple.

En cualquier análisis de regresión no basta hacer los cálculos que se explicaron antes,
sino que es necesario evaluar qué tan bien el modelo (la línea recta) explica la relación
entre y . Una primera forma de hacer esto es probar una serie hipótesis sobre el
modelo. Para ello es necesario suponer una distribución de probabilidad para el
término de error, Es usual suponer normalidad: se distribuye en forma normal,
independiente, con media cero y varianza .

Por lo general, la hipótesis de mayor interés plantea que la pendiente es


significativamente diferente de cero. Esto se logra al aprobar la siguiente hipótesis

(1.9)
13 CAPÍTULO 1 Regresión lineal simple
Prueba
y múltiple
de hipótesis en regresión lineal simple 13

El estadístico de prueba es:

(1.10)

Si la hipótesis nula es verdadera él estadístico (1.10) tiene una distribución -


Student con grados de libertad. Se rechaza si el valor absoluto de este
estadístico es mayor que el correspondiente valor crítico obtenido de tablas, es decir,
se rechaza si:

(1.11)

En caso contrario no se rechaza . No rechazar que , en el caso del


modelo de regresión lineal simple, implica que no existe una relación lineal
significativa entre y ; por tanto, no existe relación entre estas variables o ésta es de
otro tipo.

La suma de cuadrados de los residuos o suma de cuadrados del error ( y se


utiliza para estimar la varianza del error de ajuste de un modelo, y está dada por:

A partir de la ecuación (1.12) se obtiene que el valor esperado de la suma de


cuadrados , del error está dado por:

(1.13)
Por lo tanto, un estimador insesgado de está dado por:

En el caso de los datos de la tabla 1.1, datos de resistencia de la pulpa, el


planteamiento de hipótesis sería el siguiente:

Aplicando el estadístico de prueba

El valor de -Student encontrado en tablas con grados de libertad y un


0,05 de nivel de significancia es
14 CAPÍTULO 1 Regresión lineal simple
Prueba
y múltiple
de hipótesis en regresión lineal simple 14

Se rechaza la Hipótesis nula

Dado que el valor absoluto de es significativamente mayor que el valor


encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechazamos
la hipótesis nula por lo tanto si existe una relación entre ambas variables. 0 bien, dado
que el valor-p es menor que el nivel de significancia, se rechaza la hipótesis nula
valor-p .

En ocasiones, en lugar de probar que , puede ser de interés probar que es


igual a cierta constante ( , en este caso en el numerador del estadístico
de la expresión (1,10) se resta , es decir, el estadístico queda de la siguiente
manera , y el criterio de rechazo es el mismo.
Si se utiliza como criterio de rechazo la comparación de la significancia
observada (p-value o valor p) contra la significancia predefinida ( ), entonces se
rechaza si el valor p .

Por otro lado, con respecto del parámetro suele ser de interés probar la
siguiente hipótesis:

(1.15)

El estadístico de prueba es el siguiente:

El cual tiene una distribución -Student con grados de libertad, por lo que
se rechaza si:

o si se utiliza el criterio de la significancia observada se rechaza si el valor-p .


No rechazar que simplemente significa que el punto de corte de la línea recta
pasa por el origen, es decir pasa por (0, 0). En ocasiones, en lugar de probar que
, puede ser de interés probar que es igual a cierta constante ; en
ese caso, en el numerador del estadístico de la expresión (1.16) se resta , es decir, el
estadístico queda de la siguiente manera:

(1.17)
y el criterio de rechazo es el mismo.

En el caso de los datos de la tabla 1.1, datos de resistencia de la pulpa, el


planteamiento de hipótesis sería el siguiente:
15 CAPÍTULO 1 Regresión lineal simple
Prueba
y múltiple
de hipótesis en regresión lineal simple 15

Aplicando el estadístico de prueba

El valor de -Student encontrado en tablas con grados de libertad y un 0,05


de nivel de significancia es

Se rechaza la Hipótesis nula

Dado que el valor absoluto de es significativamente mayor que el valor


encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechazamos
la hipótesis nula por lo tanto el punto de corte de la línea recta no pasa por el origen,
es decir, no pasa por (0, 0). O bien, dado que el valor-p es menor que el nivel de
significancia, se rechaza la hipótesis nula valor-p .

La estimación de los parámetros del modelo y las pruebas de hipótesis sobre los
mismos se sintetizan en la siguiente tabla:

Parámetro Estimación Error estándar Estadístico Valor-p

Intercepción

Pendiente

Las pruebas de hipótesis para el ejemplo de las ventas contra clientes, el


resumen que nos arroja Excel y Minitab incluye el cálculo del valor de t y el valor-p,
optando por cualesquiera de ambos estadísticos las hipótesis quedarían de la siguiente
manera:

El valor de -Student encontrado en tablas con grados de libertad y un 0,05


de nivel de significancia es

Se rechaza la Hipótesis nu
16 CAPÍTULO 1 Regresión lineal simple
Prueba
y múltiple
de hipótesis en regresión lineal simple 16

Dado que el valor absoluto de es significativamente mayor que el valor


encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechazamos
la hipótesis nula por lo tanto si existe una relación entre ambas variables. 0 bien, dado
que el valor-p es menor que el nivel de significancia, se rechaza la hipótesis nula
valor-p .

en el caso de las hipótesis para la intercepción tenemos:

Se rechaza la Hipótesis nula

Dado que el valor absoluto de es significativamente mayor que el valor


encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechazamos
la hipótesis nula por lo tanto el punto de corte de la línea recta no pasa por el origen,
es decir, no pasa por (0, 0). O bien, dado que el valor-p es menor que el nivel de
significancia, se rechaza la hipótesis nula valor-p .

Resumen de Excel
Coeficientes Error típico Estadístico t Probabilidad
Intercepción 2,308620077 0,486903934 4,741428269 0,000162977
Clientes 0,008861219 0,000647589 13,68338889 5,93374E-11

Ejercicios

1.- ¿Cuál es el propósito general del análisis de regresión?

2.- En el análisis de regresión intervienen dos tipos de variables: las independientes y


las dependientes. Explique con sus palabras y a través de ejemplos, las características de
estos dos tipos de variables.

3.- En el artículo de Concrete Research (Características del concreto cerca de la


superficie: Permeabilidad intrínseca), se presentaron los datos sobre la resistencia a la
compresión y la permeabilidad intrínseca de varias mezclas y curados de concreto.
Las cantidades resumidas son , Ʃ , Ʃ = 23 530, Ʃ , Ʃ = 157,42, y
Ʃ = 1 697,80. Suponga que las dos variables se relacionan de acuerdo con el modelo
de regresión lineal simple.

a) Calcule las estimaciones de mínimos cuadrados de la pendiente y la ordenada al


origen
b) Use la ecuación de la recta ajustada para predecir la permeabilidad que se observaría
cuando la resistencia a la compresión es = 4,3.
c) Dé una estimación puntual de la permeabilidad media cuando la resistencia a la
compresión es = 3,7.
d) Suponga que el valor observado de la permeabilidad para = 3,7 es = 46,1
17 CAPÍTULO 1 Regresión lineal simple y múltiple Ejercicios 17

4.- Se utilizaron métodos de regresión para analizar los datos de un estudio para
investigar la relación entre la temperatura superficial de una carretera (x) y la deflexión
del pavimento (y). Las cantidades resumidas fueron , Ʃ , Ʃ = 8,86,
Ʃ , Ʃ = 143 215,8, Ʃ = 1 083,67.

a) Calcule las estimaciones de mínimos cuadrados de la pendiente y la ordenada al


origen. Grafique la recta de regresión
b) Use la ecuación de la recta ajustada para predecir la deflexión del pavimento que se
observaría cuando la temperatura superficial es de 85 .
c) ¿Cuál es la deflexión media del pavimento cuando la temperatura superficial es
90 ?
d) ¿Qué cambio en la deflexión media del pavimento se esperaría para un cambio de 1
en la temperatura superficial?

5.- Se piensa que el número de libras de vapor consumidas mensualmente por una
planta química se relaciona con la temperatura ambiente promedio (en ) de ese mes.
En la tabla siguiente se muestra la temperatura y el consumo anual:

Mes Temperatura Consumo/1 000


Ene. 21 185,79
Feb. 24 214,47
Mar. 32 288,03
Abr. 47 424,84
May 50 454,58
Jun. 59 539,03
Jul. 68 621,55
Ago. 74 675,06
Sep. 62 562,03
Oct. 50 452,93
Nov. 41 369,95
Dic. 30 273,98

a) Suponiendo que un modelo de regresión lineal simple es apropiado, ajuste el


modelo de regresión que relacione el consumo de vapor ( ) con la temperatura
promedio ( ).
b) ¿Cuál es la estimación del consumo esperado de vapor cuando la temperatura
promedio es 55 ?
c) ¿Qué cambio se espera en el consumo de vapor promedio cuando la temperatura
mensual promedio cambia 1 ?
d) Suponga que la temperatura mensual promedio es de 47 . Calcule el vapor
ajustado y el residual correspondiente.
18 CAPÍTULO 1 Regresión lineal simple y múltiple Ejercicios 18

6.- En un artículo de Journal of Environmental Energineering se reportan los resultados de


un estudio sobre la presencia de sodio y cloruros en corrientes superficiales de la parte
central de Rhode Island. Los datos que se presentan a continuación corresponden a la
concentración de cloruros (en mg/l) y al área de carretera de la vertiente (en %).

4,4 6,6 9,7 10,6 10,8 10,9 11,8 12,1 14,3 14,7 15,0 17,3 19,2 23,1 27,4 27,7 31,8 39,5
0,19 0,15 0,57 0,70 0,67 0,63 0,47 0,70 0,60 0,78 0,81 0,78 0,69 1,30 1,05 1,06 1,74 1, 62

a) Trace un diagrama de dispersión de los datos. ¿Parecería apropiado un modelo

de regresión lineal simple en este caso?


b) Ajuste el modelo de regresión lineal simple usando el método de mínimos
cuadrados.
c) Estime la concentración de cloruros media de una vertiente que tiene 1% del
área de carretera.
d) Encuentre el valor ajustado que corresponde a = 0,47

7.- Demuestre que en un modelo de regresión lineal simple el punto ( ) se localiza


exactamente sobre la recta de regresión de mínimos cuadrados.

8.- En un artículo de Wear se presentan los datos del desgaste por rozamiento del acero
dulce y la viscosidad del aceite. Los datos representativos, con = viscosidad del aceite
y = volumen del desgaste ( ), son:
240 181 193 155 172 110 113 75 94
1,6 9,4 15,5 20,0 22,0 35,5 43,0 40,5 33,0

a) Construya un diagrama de dispersión de los datos. ¿Parecería plausible un


modelo de regresión lineal simple?
b) Ajuste el modelo de regresión lineal simple usando mínimos cuadrados.
c) Estime el desgaste por rozamiento cuando la viscosidad es = 30.
d) Obtenga el valor ajustado de cuando = 22,0 y calcule el residual
correspondiente.

9.- Considérense los datos del ejercicio 4 para = temperatura superficial de una
carretera y = deflexión del pavimento.

a) Pruebe la significación de la regresión utilizando . Encuentre el valor P para


esta prueba. ¿Qué conclusiones pueden sacarse?
b) Estime
c) Estime los errores estándar de la pendiente y la ordenada al origen.
19 CAPÍTULO 1 Regresión lineal simple y múltiple Ejercicios 19

10.- En un proceso de extracción se estudia la relación entre tiempo de extracción y


rendimiento. Los datos obtenidos se muestran en la siguiente tabla.

Tiempo 10 15 20 8 12 13 15 12 14 20 19 18
(minutos)
Rendimiento 64 81,7 76,2 68,5 77,9 82,2 74,2 70 76 83,2 85,3
(%)
20 CAPÍTULO 1 Regresión lineal simple y múltiple Ejercicios 20

a) ¿En este problema cuál variable se considera independiente y cuál dependiente?


b) Mediante un diagrama de dispersión analice la relación entre estas dos variables.
c) Haga un análisis de regresión (ajuste una línea recta a estos datos, aplique
pruebas de hipótesis y verifique residuos).
d) ¿La calidad del ajuste es satisfactoria? Argumente
e) Destaque el valor de la pendiente de la recta e interprételo en términos prácticos.
f) Estime el rendimiento promedio que se espera a un tiempo de extracción de 25
minutos y obtenga un intervalo de confianza para esta estimación.

11.- Considere los datos del ejercicio 5 para = consumo de vapor y = temperatura
promedio.
a) Pruebe la significación de la regresión usando . ¿Cuál es el valor P para esta
prueba? Enuncie las conclusiones que resultan de esta prueba.
b) Estime
c) Estime los errores estándar de la pendiente y la ordenada al origen.
d) Pruebe la hipótesis contra usando .
Encuentre el valor P para esta prueba.
e) Pruebe la hipótesis contra usando . Encuentre
el valor P para esta prueba y saque conclusiones.

12.- En el ejercicio 6 se presentan los datos para = concentración de cloruros en


corrientes superficiales y = área de carretera.
a) Pruebe la hipótesis contra usando el procedimiento
indicado con un nivel de significancia del 0,01 ( .

1.1.2. Calidad del ajuste en regresión lineal simple

En la sección anterior estudiamos pruebas de hipótesis para verificar que hay una
relación significativa entre y ; sin embargo, no hemos visto si tal relación permite
hacer estimaciones con una precisión aceptable. Por ejemplo, es de interés saber qué
tanta de la variabilidad presente en fue explicada por el modelo, además si se cumplen
los supuestos de los residuos.

Coeficiente de determinación . Un primer criterio para evaluar la calidad del


ajuste es observar la forma en que el modelo se ajustó a los datos. En el caso de la
regresión lineal simple esto se distingue al observar si los puntos tienden a ajustarse
razonablemente bien a la línea recta (véase la figura 1.3). Pero otro criterio más
cuantitativo es el que proporciona el coeficiente de determinación, el cual está definido por:

(1.17)
21 CAPÍTULO 1 Regresión lineal simple y múltiple Ejercicios 21

Es claro que . En general se interpreta como la proporción de la


variabilidad en los datos ( ) que es explicada por el modelo. En el caso de los datos de
la resistencia de la pulpa (tabla 1.1) tenemos
22 CAPÍTULO 1 Regresión lineal simple y múltiple Ejercicios 22

= = 2580,86

Por lo tanto, podemos decir que 93% de la variación observada en la resistencia


es explicada por el modelo (línea recta), lo cual nos dice que la calidad del ajuste es
satisfactorio, y que por ello, la relación entre es descrita adecuadamente por una
línea recta.

Nota. El resultado arrojado por Excel o Minitab, incluye el análisis de varianza


para el modelo de regresión simple cuyo cuadro sintético es el siguiente:
Fuente de variación Suma de cuadrados Grados de libertad Cuadrado medio Valor-p

Regresión 1

Error o residual

Total

Resumen de Excel

Estadísticas de la regresión
Coeficiente de correlación múltiple 0,964432318
Coeficiente de determinación R^2 0,930129695
R^2 ajustado 0,92430717
Error típico 3,876481166
Observaciones 14

ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 1 2400,531868 2400,531868 159,7467824 2,70702E-08
Residuos 12 180,3252747 15,02710623
Total 13 2580,857143

Análisis de varianza en Minitab

Fuente GL SC MC F P
Regresión 1 2400,5 2400,5 159,75 0,000
Error residual 12 180,3 15,0
Total 13 2580,9

S = 3,87648 R-cuad. = 93,0% R-cuad.(ajustado) = 92,4%

Coeficiente de determinación ajustado . Este coeficiente se calcula de la


siguiente manera:

(1.18)
21 CAPÍTULO 1 Regresión lineal simpleCalidad
y múltiple
de ajuste en regresión lineal simple 21

donde el cuadrado medio total, , se obtiene al dividir la suma de cuadrados total,


, entre sus grados d libertad. Cuando hay muchos términos en un modelo, el
estadístico se prefiere en lugar de , puesto que este último es engañoso al
incrementarse en forma artificial con cada término que se agrega al modelo, aunque sea
un término que no contribuya en nada a la explicación de la respuesta. En cambio, el
incluso baja de valor cuando el término que se agrega no aporta nada.
Se cumple que . En general, para fines de predicción se
recomienda un coeficiente de determinación ajustado de al menos 0,7.
En el caso de los datos de la resistencia de la pulpa (tabla 1.1), el coeficiente de
determinación ajustado está dado por:

Observe que estos coeficientes son arrojados automáticamente en Excel y


Minitab.

Coeficiente de correlación . Es bien conocido que el coeficiente de correlación,


, mide la intensidad de la relación lineal entre dos variables Si se tiene pares
de datos de la forma ( , entonces este coeficiente se obtiene de la siguiente manera:

(1.19)

Se puede ver que ; si es próximo a , entonces tendremos


una relación lineal negativa fuerte, y si es próximo a cero, entonces diremos que no
hay correlación lineal, y finalmente se es próximo a , entonces tendremos una
relación lineal positiva fuerte. Por ejemplo, para los datos de la resistencia de la
pulpa (tabla 1.1), el coeficiente de correlación es;

lo cual habla de una correlación lineal positiva fuerte.


22 CAPÍTULO 1 Regresión lineal simpleCalidad
y múltiple
de ajuste en regresión lineal simple 22

Error estándar de estimación . Una medición sobre la calidad del ajuste de un


modelo lo da el error estándar de estimación, que es una estimación de la desviación
estándar del error . En el caso de la regresión lineal simple, está dado por:

=
(1.20)

Es claro que a medida que el modelo ajuste mejor, la será menor y en


consecuencia el error estándar de estimación también será menor.

Análisis gráfico de residuos.


Como complemento a lo que se ha discutido hasta aquí, un análisis adecuado de los
residuos proporciona información adicional sobre la calidad del ajuste del modelo de
regresión y de esa manera es posible verificar si el modelo es adecuado. Las gráficas
que suelen hacerse para completar el diagnóstico del modelo consisten en:

a) graficar los residuos en papel de probabilidad normal,


b) graficar los residuos contra los predichos.

Por ejemplo, para los datos de la resistencia de la pulpa (tabla 1.2), se construye
la gráfica de probabilidad normal que se muestra en la figura 1.4. En ésta se aprecia
que el supuesto de normalidad sobre los errores se cumple razonablemente bien, ya
que los puntos en esta gráfica tienden a ajustarse a la línea recta.

Gráfica de probabilidad normal


(la respuesta es Resistencia)
99

95

90

80
70
Porcentaje

60
50
40
30
20

10

5
1
-10 -5 0 5 10
Residuo

Figura 1.4 Gráfica de probabilidad normal para los residuos de la resistencia de la pulpa

A partir de la tabla 1.2 es fácil obtener la gráfica de residuos contra predichos


que se muestra en la figura 1.5. Si el modelo es adecuado se espera que en esta gráfica
los puntos no sigan ningún patrón y que, por lo tanto, estén distribuidos más o menos
aleatoriamente a lo largo y ancho de la gráfica. Cuando esto ocurre significa que el
modelo se ajusta de igual manera a lo largo de los valores de . Por el contrario, si se
aprecia algún patrón habrá que ver cuál es el tipo de patrón que se observa en la gráfica
y diagnosticar cuál es la falla que registra el modelo
23 CAPÍTULO 1 Estimación
Regresiónylineal
predicción
simplepor
y múltiple
intervalos en regresión lineal simple 23

vs. ajustes
(la respuesta es Resistencia)
7,5

5,0

2,5
Residuo

0,0

-2,5

-5,0

140 150 160 170 180


Valor ajustado

Figura 1.5 Gráfica de residuos contra estimados o predichos para la resistencia de la pulpa

En particular la figura 1.5 no muestra ninguna anomalía, lo cual es una evidencia


más a favor del modelo de regresión simple para este ejemplo.

1.1.3. Estimación y predicción por intervalo en regresión lineal simple


Una de las aplicaciones más importantes en un análisis de regresión es hacer
estimaciones de la respuesta media para un valor dado de X. En el caso particular de la
regresión lineal simple, sabemos que un estimador puntual de la respuesta media lo da
la recta de regresión:

Además de esto, en ocasiones es de interés obtener una estimación por intervalos


para a partir de cualquier valor de X, para lo cual aplicamos la siguiente ecuación:

(1.21)

A este intervalo se le conoce como intervalo para la recta de regresión. Note que su
amplitud depende del y de la distancia entre y . La amplitud es mínima cuando
= y se incrementa conforme se hace más grande.
Para ilustrar lo anterior consideremos el modelo ajustado a los datos del ejemplo de
la resistencia de la pulpa (tabla 1.1), y obtenemos el intervalo de confianza para la
respuesta media en = 12 (porcentaje de fibra)

Primeramente calculemos el estimador puntual para cuando = 12, está dado


por

y un intervalo de confianza al 95% para


24 CAPÍTULO 1 Estimación
Regresiónylineal
predicción
simplepor
y múltiple
intervalos en regresión lineal simple 24

De aquí que el intervalo de confianza para la respuesta media en = 12 está dada


por:

Además de la estimación puntual para la pendiente y la ordenada al origen,


, es posible obtener estimaciones de los intervalos de confianza para estos
parámetros. La anchura de estos intervalos de confianza es una medida de la calidad
global de la recta de regresión. Si los términos del error, del modelo de regresión
tienen una distribución normal e independiente, entonces tienen ambos una distribución
igual a la de una variable aleatoria grados de libertad. Esto lleva a la
siguiente definición de los intervalos de confianza del % para la pendiente y
la ordenada al origen.

(1.22)

(1.23)

En el caso del intervalo de confianza para la pendiente de los datos del


porcentaje de fibra (tabla 1.1) tenemos

Por lo que pendiente de forma puntual es 1,6242, y por intervalos con un 95% de
nivel de confianza tenemos que esta se encuentra entre 1,3442 y 1,9042

Ejercicios

1.- En un artículo se presentaron los datos de la concentración del licor verde ( ,


y la producción de una máquina papelera ( . Los datos se muestran en la tabla
siguiente
25 CAPÍTULO 1 Regresión
Estimación
linealy simple
predicción
y múltiple
por intervalos en regresión lineal simple 25

Número de Concentración Producción


observación Del licor verde (tons

1 40 825
2 42 830
3 49 890
4 46 895
5 44 890
6 48 910
7 46 915
8 43 960
9 53 990
10 52 1010
11 54 1012
12 57 1030
13 58 1050

a) Encuentre un intervalo de confianza de 99% para


b) La concentración media de cuando la producción es toneladas

c) Encuentre un intervalo de predicción de 99% para la concentración de


cuando toneladas

2.- Remítase a los datos del ejercicio 3 (de la sección anterior) para
intrínseca del concreto y a la compresión.
Encuentre un intervalo de confianza de 95% para:
a) la pendiente
b) la ordenada al origen
c) la permeabilidad media cuando
d) Encuentre un intervalo de predicción 95% para la permeabilidad cuando

3.- En el ejercicio 4 (de la sección anterior) se presentaron los datos de la temperatura


superficial de una carretera y la deflexión del pavimento . Encuentre un intervalo de
confianza de 99% para:
a) la pendiente
b) la ordenada al origen
c) la deflexión media cuando la temperatura es
d) Encuentre un intervalo de predicción de 99% para la deflexión del pavimento cuando
la temperatura es de .

1.1.4. Uso de un software estadístico

Excel
En la hoja de cálculo de Excel se incluye la regresión lineal simple y múltiple; para
ello, es necesario realizar la siguiente secuencia de opciones:

Datos Análisis de datos Regresión


26 CAPÍTULO 1 Regresión
Estimación
linealy simple
predicción
y múltiple
por intervalos en regresión lineal simple 25

Generalmente Excel no trae instalado la herramienta de análisis de datos esta


debe instalarse con la siguiente secuencia:

1.- En la hoja de cálculo de Excel (pantalla principal) hacer clic con el puntero en el
símbolo del sistema localizado en el extremo superior izquierdo

2.- De la ventana desplegada hacer clic en opciones de Excel (parte inferior)

3.- De la ventana desplegada hacer clic en complementos


27 CAPÍTULO 1 Regresión lineal simple y múltiple
Uso de un software estadístico 27

4.- De la ventana desplegada hacer clic en ir

5.- De esta ventana activar la casilla de herramientas para análisis (palomearla) y dar
clic en aceptar. De esta manera hemos activado la opción de análisis de datos.

Para capturar la tabla de datos para el análisis de regresión lineal simple o


múltiple, primeramente capturamos los datos en la hoja de cálculo, posteriormente
activamos Datos seguido de Análisis de datos y seleccionamos Regresión

Datos Análisis de datos Regresión


28 CAPÍTULO 1 Regresión lineal simple y múltiple
Uso de un software estadístico 28

En la ventana de captura se solicitará el rango de celdas donde se encuentran los


datos para la variable dependiente Rango de entrada y para la(s) variable(s)
regresora(s) Rango de entrada

Activamos la casilla de rótulos, por default está indicado en una hoja nueva,
seleccionamos además cualquiera de las opciones de residuos, grafica de residuales, y
curva de regresión ajustada y aceptar.

En Minitab
En Minitab la secuencia de captura para la regresión lineal simple o múltiple en la hoja
de cálculo una vez capturada las columnas de datos seleccionamos Estadísticas luego
Regresión seguida de Regresión nuevamente
29 CAPÍTULO 1 Regresión lineal simple y múltiple
Uso de un software estadístico 29

de la ventana desplegada en respuesta indicamos la variable de respuesta, en este caso


es resistencia y en predictor indicamos porcentaje de fibra activando también cualquiera
de las opciones posibles, terminando en aceptar.

Nota: De la ventana de captura aparecen automáticamente en el cuadro de la izquierda


la información de la tabla, en respuesta, se indica con un clic del ratón en resistencia y
este automáticamente se manifiesta en el recuadro, en predictores de igual manera se da
un clic en porcentaje de fibra y igualmente se manifiestan en el recuadro.
30 CAPÍTULO 1 Regresión lineal simple y múltiple
Uso de un software estadístico 30

1.2. Regresión lineal múltiple

En muchas situaciones prácticas existen varias variables independientes que se cree que
influyen o están relacionadas con una variable de respuesta , y por lo tanto será
necesario tomar en cuenta si se quiere predecir o entender mejor el comportamiento de
. Por ejemplo, para explicar o predecir el consumo de electricidad en una casa
habitación tal vez sea necesario considerar el tipo de residencia, el número de personas
que la habitan, la temperatura promedio de la zona, etcétera.

Sea variables independientes o regresoras, y sea una variable


de respuesta, entonces el modelo de regresión lineal múltiple con variables
independientes es el polinomio de primer orden:}

(1.22)

Donde los son los parámetros del modelo que se conocen como coeficientes
de regresión y es el error aleatorio, con media cero, . Si en la
ecuación (1.22) , estamos en el caso de regresión lineal simple y el modelo es una
línea recta; si , tal ecuación representa un plano. En general, la ecuación (1.22)
representa un hiperplano en el espacio de dimensiones generado por las variables
{ }.
El término lineal del modelo de regresión se emplea debido a que la ecuación
(1.22) es función lineal de los parámetros desconocidos La interpretación
de éstos es muy similar a lo ya explicado para el caso de regresión lineal simple: es
la ordenada al origen, y mide el cambio esperado en por cambio unitario en
cuando el resto de las variables regresoras se mantienen fijas o constantes.
Para encontrar los coeficientes de regresión múltiple por el método de mínimos
cuadrados aplicamos el siguiente sistema de ecuaciones normales:

(1.23)

Estas ecuaciones se pueden resolver para , y mediante cualquier


método apropiado para resolver sistemas de ecuaciones lineales

Por ejemplo La siguiente tabla muestra los pesos Y a la libra más cercana, las
estaturas X1 a la pulgada más cercana y las edades X2 al año más cercano de 12
muchachos.
31 CAPÍTULO 1 Regresión lineal simple y múltiple Regresión lineal múltiple 31

Tabla 1.5 Peso, estatura y edad


Peso Estatura Edad

64 57 8
71 59 10
53 49 6
67 62 11
55 51 8
58 50 7
77 55 10
57 48 9
56 52 10
51 42 6
76 61 12
68 57 9

Para encontrar los coeficientes de regresión ( , y ) múltiple mediante el


método de mínimos cuadrados seria de la siguiente manera

Tabla 1.6 Procedimiento para realizar los cálculos para la regresión múltiple

Y X1 X2 Y2 X 12 X 22 X 1Y X 2Y X1 X 2
64 57 8 4096 3249 64 3648 512 456
71 59 10 5041 3481 100 4189 710 590
53 49 6 2809 2401 36 2597 318 294
67 62 11 4489 3844 121 4154 737 682
55 51 8 3025 2601 64 2805 440 408
58 50 7 3364 2500 49 2900 406 350
77 55 10 5929 3025 100 4235 770 550
57 48 9 3249 2304 81 2736 513 432
56 52 10 3136 2704 100 2912 560 520
51 42 6 2601 1764 36 2142 306 252
76 61 12 5776 3721 144 4636 912 732
68 57 9 4624 3249 81 3876 612 513

y  x1  x2  y 
2
x1  x2  x1 y 
2 2
x2 y  x1 x2 
753 643 106 48,139 34,843 976 40,830 6,796 5,779

Al sustituir las sumatorias calculadas en las ecuaciones normales, se obtiene


32 CAPÍTULO 1 Regresión lineal simple y múltiple Regresión lineal múltiple 31

Resolver este sistema de tres ecuaciones lineales para , y , es por lo


menos tedioso. Es común emplear matrices para simplificar el proceso. Hoy en día, esta
clase de cálculos son realizados por la computadora.

El resultado seria el siguiente , y por lo


tanto la ecuación de regresión es

La solución manual aplicando el sistema de tres ecuaciones lineales con tres


incógnitas (3x3) pudiera ser aplicando el métodos de eliminación de Gauss o bien el
método de Cramer. Para este tipo de planteamiento se recomienda el método de Cramer
el cual consiste en la siguiente secuencia:

Siguiendo la misma secuencia de la multiplicación para el denominador, así


como para y

Sustituyendo los valores tendremos


Regresión lineal múltiple 33

753 643 106 753 643


40,830 34,843 5,779 40,830 34,843
6,796 5,779 976 6,796 5,779

12 643 106 12 643


643 34,843 5,779 643 34,843
106 5,779 976 106 5,779

(2.56070963x10 10+ 2.525323601x1010 + 2.501139642x1010) – (2.510006097x1010+ 2.514782127x1010+ 2.562360144x1010)

( 408081216 + 393885082 + 393885082 ) – ( 391495948 + 400762092 + 403526224 )

Siguiendo el mismo procedimiento correspondiente para y tenemos los


coeficientes de regresión múltiple

Análisis de regresión: Peso vs. Estatura; Edad en Minitab

La ecuación de regresión es
Peso = 3,7 + 0,855 Estatura + 1,51 Edad

Coef.
Predictor Coef de EE T P
Constante 3,65 16,17 0,23 0,826
Estatura 0,8546 0,4517 1,89 0,091
Edad 1,506 1,414 1,07 0,315

S = 5,36321 R-cuad. = 70,9% R-cuad.(ajustado) = 64,4%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 629,37 314,69 10,94 0,004
Error residual 9 258,88 28,76
Total 11 888,25
34 CAPÍTULO 1 Regresión lineal
Pruebas
simple
deyhipótesis
múltiple en regresión lineal múltiple 34

Resultados en Excel
Resumen

Estadísticas de la regresión
Coeficiente de correlación múltiple 0,841756673
Coeficiente de determinación R^2 0,708554296
R^2 ajustado 0,643788584
Error típico 5,363214691
Observaciones 12

ANÁLISIS DE VARIANZA
Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 2 629,3733536 314,6866768 10,9402688 0,003895018
Residuos 9 libertad
Grados de 258,8766464 28,76407182
Total 11 888,25

Intercepción 3,651215805
Coeficientes 16,16780562
Error típico 0,22583249t
Estadístico 0,82637676
Probabilidad -32,9229014
Inferior 95%
Estatura 0,854609929 0,451664156 1,892135824 0,0910251 -0,167125373
Edad 1,50633232 1,414265835 1,06509843 0,31457045 -1,692959262

Análisis de los residuales

Observación
1 64,41464032 -0,414640324
2 69,13652482 1,863475177
3 54,56509625
Pronóstico Peso -1,565096251
Residuos
4 73,20668693 -6,20668693
5 59,28698075 -4,28698075
6 56,9260385 1,073961499
7 65,71808511 11,28191489
8 58,22948328 -1,229483283
9 63,15425532 -7,154255319
10 48,58282675 2,417173252
11 73,85840932 2,141590679
12 65,92097264 2,079027356

1.2.1. Pruebas de hipótesis en regresión lineal múltiple

Las hipótesis sobre los parámetros del modelo son equivalentes a las realizadas para
regresión lineal simple, pero ahora son más necesarias porque en regresión múltiple
tenemos más parámetros en el modelo; sin embargo, por lo general es necesario evaluar
su verdadera contribución a la explicación de la respuesta. También requerimos de la
suposición de que los errores se distribuyen en forma normal, independientes, con
media cero y varianza . Una consecuencia de esta suposición es que
las observaciones son: .

La hipótesis global más importante sobre un modelo de regresión múltiple


consiste en ver si la regresión es significativa. Esto se logra probando la siguiente
hipótesis:

Aceptar significa que ningún término o variable en el modelo tiene una


contribución significativa al explicar la variable de respuesta . Mientras que rechazar
implica que por lo menos un término en el modelo contribuye de manera
significativa a explicar . El procedimiento para probar esta hipótesis es una
generalización del procedimiento utilizado para probar la hipótesis equivalente en
regresión lineal simple.
35 CAPÍTULO 1 Regresión lineal
Pruebas
simple
deyhipótesis
múltiple en regresión lineal múltiple 35

El estadístico de prueba para la significancia del modelo de regresión lineal


múltiple esta dado por:

(1.24)

que bajo tiene una distribución . Así, se rechaza si


o también si

Ejemplo
Se probará la significación de la regresión (con utilizando los datos de los
pesos , estaturas y edades de la tabla 1.5

El valor de calculado por formula nos da un valor de = 10,9402 ,por


comodidad observamos el resumen arrojado por Excel y/o Minitab

10,94

En tanto que el valor de encontrado en tablas cuando tenemos un nivel de


significancia de 0,05 y 2 grados de libertad en el numerador y 9 en el denominador el
cual es igual a 4,26

= =

Se rechaza la Hipótesis nula

Dado que el valor encontrado en formula es mayor al punto crítico en base al


nivel de significancia por lo que rechazamos la hipótesis nula y aceptamos la alterna lo
cual implica que por lo menos un término en el modelo contribuye de manera
significativa a explicar

Tabla 1.7 ANOVA para la significancia del modelo de regresión lineal múltiple

Fuente de Suma de Grados de Cuadrado


variación cuadrados libertad medio
Regresión K

Error o residuo

Total n-1
36 CAPÍTULO 1 Regresión lineal
Pruebas
simple
deyhipótesis
múltiple en regresión lineal múltiple 36

ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 2 629,3733536 314,6866768 10,9402688 0,003895018
Residuos 9 258,8766464 28,76407182
Total 11 888,25

Análisis de varianza en Minitab

Fuente GL SC MC F P
Regresión 2 629,37 314,69 10,94 0,004
Error residual 9 258,88 28,76
Total 11 888,25

Coeficiente de determinación
El que un modelo sea significativo no necesariamente implica que sea bueno en
términos de que explique la variación de los datos. Por ello es importante tener
mediciones adicionales de la calidad del ajuste del modelo, como las gráficas de
residuales y el coeficiente de determinación. Con la información del análisis de varianza
de la tabla 1.7 es muy sencillo calcular el coeficiente de determinación , y el
coeficiente de determinación ajustado :

(1.25)

(1.26)

Ambos coeficientes se interpretan de forma similar al caso de regresión lineal


simple, es decir, como el porcentaje de variabilidad de los datos que son explicados por
el modelo. Se cumple que ; en general, para hablar de un modelo que
tiene un ajuste satisfactorio es necesario que ambos coeficientes tengan valores
superiores a 0,7. Cuando en el modelo hay términos que no contribuyen de manera
significativa a éste, el tiende a ser menor que el . Por lo tanto, es deseable
depurar el modelo y para ello las siguientes pruebas de hipótesis son de mucha utilidad.

Para los datos de la tabla 1.5 tenemos que


37 CAPÍTULO 1 Regresión lineal
Pruebas
simple
deyhipótesis
múltiple en regresión lineal múltiple 37

Coeficiente de correlación múltiple


Es la raíz cuadrada del coeficiente de determinación

(1.27)

y es una medida de la intensidad de la relación entre la variable dependiente, , y el


conjunto de variables o términos en el modelo

Error estándar de estimación


Al igual que en regresión lineal simple, el error estándar de estimación proporciona la
medida del error de ajuste de un modelo, éstas tienen una interpretación similar a la que
se dio para el caso de regresión lineal simple. En cuanto al cálculo en el caso múltiple,
el error estándar de estimación,

(1.28)

En el caso del ejemplo de los pesos, estatura y edades tenemos

1.2.2. Intervalos de confianza y predicción en regresión múltiple


En los modelos de regresión múltiple con frecuencia es conveniente construir
estimaciones de intervalos de confianza para los coeficientes de regresión . Por
ejemplo, a partir de la tabla 1.6 es claro que un estimador por intervalos de cada
coeficiente en lo individual está dado por:

(1.29)

Tabla 1.8 Análisis de regresión múltiple


Parámetro Estimación Error estándar Estadístico Valor-p
Intercepción

. . .
. . .
.
.
38 CAPÍTULO 1 Regresión lineal
Pruebas
simple
deyhipótesis
múltiple en regresión lineal múltiple 38

Coeficientes Error típico Estadístico t Probabilidad Inferior 95%


Intercepción 3,651215805 16,16780562 0,22583249 0,82637676 -32,9229014
Estatura 0,854609929 0,451664156 1,892135824 0,0910251 -0,167125373
Edad 1,50633232 1,414265835 1,06509843 0,31457045 -1,692959262

También es posible obtener un intervalo de confianza con respecto a la respuesta


media en un punto particular, digamos está dado por:

Ejercicios de regresión lineal múltiple

13.- ¿Por qué se requiere la regresión lineal múltiple?

14.- Se realizo un estudio para investigar la relación de la resistencia al corte del terreno
( ) con la profundidad en pies ( ) y el contenido de humedad . Se hicieron 10
observaciones, obteniéndose las siguientes cantidades resumidas
, , , , , , ,
, y

a) Establezca las ecuaciones normales de mínimos cuadrados para el modelo

b) Estime los parámetros del modelo del inciso a)


c) ¿Cuál es la resistencia predicha cuando pies y ?

15.- En una empresa dedicada a anodizar artículos de aluminio (baterías de cocina), el


anodizado se logra con una solución hecha a base de ácidos (sulfúrico, cítrico, bórico) y
dicromato de aluminio. En este proceso se controla el pH de la solución, la temperat ura,
la corriente y el tiempo de permanencia. Debido al poco grosor del anodizado, han
aumentado las quejas por la escasa resistencia y durabilidad del producto. Para resolver
este problema se decide estudiar, mediante un experimento, la relación del pH y la
temperatura con el grosor del anodizado. Los datos se muestran en la siguiente tabla:

pH Temperatura Espesor
1,2 -8 9
1,8 -8 14
1,2 8 10
1,8 8 19
1,2 -8 8
1,8 -8 12
1,2 8 11
1,8 8 20
1,5 0 14
1,5 0 13

a) ¿Cuáles son las variables independientes y cuál la dependiente? Argumente


39 CAPÍTULO 1 Regresión
Intervalos
lineal
desimple
confianza
y múltiple
y predicción en regresión múltiple 39

b) Ajuste un modelo del tipo y anote la


ecuación del modelo ajustado
c) A partir del modelo ajustado, ¿cuál es el espesor estimado cuando se utiliza un
pH = 2 y una temperatura de 10 grados?
d) ¿El modelo es adecuado? Argumente con base en graficas de residuos, pruebas
de hipótesis y coeficientes de determinación.

16.- Se realizó un experimento para estudiar el sabor del queso panela en función de la
cantidad del cuajo y la sal. La variable de respuesta observada es el sabor promedio
reportado por un grupo de cinco panelistas que probaron todos los quesos y los
calificaron en una escala hedónica. Los datos obtenidos se muestran a continuación:

Sal Cuajo Sabor


6 0,3 5,67
5,5 0,387 7,44
4,5 0,387 7,33
4 0,3 6,33
4,5 0,213 7,11
5,5 0,213 7,22
5 0,3 6,33
5 0,3 6,66

a) Ajuste el modelo
b) ¿El modelo explica la variación observada en el sabor? Argumente con base en la
significancia del modelo, los residuales y el coeficiente de determinación.
c) Ajuste un modelo que incluya términos cuadráticos y analice con detalle la calidad del
ajuste aplique las pruebas de hipótesis
d) Compare el error estándar de estimación ( y los coeficientes de determinación
( ) para ambos modelos
e) ¿Cuál modelo prefiere para explicar el sabor?

17.- Se piensa que la energía eléctrica consumida mensualmente por una planta química
se relaciona con la temperatura ambiente promedio ( , el número de días laborales del
mes ( , la pureza promedio del producto y las toneladas del producto producidas
. Se cuenta con los datos del último año, los cuales se presentan en la tabla
siguiente:

240 25 24 91 100
236 31 21 90 95
290 45 24 88 110
274 60 25 87 88
301 65 25 91 94
316 72 26 94 99
300 80 25 87 97
296 84 25 86 96
267 75 24 88 110
276 60 25 91 105
288 50 25 90 100
261 38 23 89 98
40 CAPÍTULO 1 Regresión
Intervalos
lineal
desimple
confianza
y múltiple
y predicción en regresión múltiple 40

a) Ajuste un modelo de regresión lineal múltiple a estos datos


41 CAPÍTULO 1 Regresión
Intervalos
lineal
desimple
confianza
y múltiple
y predicción en regresión múltiple 41

b) Prediga el consumo de electricidad para un mes en el que ,


días y toneladas
c) Calcule para este modelo. Interprete esta cantidad
d) Grafique los residuales contra . Interprete la grafica

1.2.3. Uso de un software estadístico


Para capturar la tabla de datos para el análisis de regresión lineal múltiple,
primeramente capturamos los datos en la hoja de cálculo, posteriormente activamos
Datos seguido de Análisis de datos y seleccionamos Regresión, y aceptar

Datos Análisis de datos Regresión

En la ventana de captura se solicitará el rango de celdas donde se encuentran los


datos para la variable dependiente Rango de entrada y para la(s) variable(s)
regresora(s) Rango de entrada (para los datos de X1 y X2, se sombrean ambos
simultáneamente con el ratón, en este caso a partir de la columna 2)
42 CAPÍTULO 1 Regresión lineal simple y múltiple Uso de software estadístico 41

Activamos la casilla de rótulos, por default está indicado en una hoja nueva,
seleccionamos además cualquiera de las opciones de residuos, grafica de residuales, y
curva de regresión ajustada y aceptar y tendremos el resultado.

Resumen

Estadísticas de la regresión
Coeficiente de correlación múltiple 0,841756673
Coeficiente de determinación R^2 0,708554296
R^2 ajustado 0,643788584
Error típico 5,363214691
Observaciones 12

ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 2 629,3733536 314,6866768 10,9402688 0,003895018
Residuos 9 258,8766464 28,76407182
Total 11 888,25

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0% Superior 95,0%
Intercepción 3,651215805 16,16780562 0,22583249 0,82637676 -32,92290147 40,22533308 -32,92290147 40,22533308
Estatura 0,854609929 0,451664156 1,892135824 0,0910251 -0,167125376 1,876345234 -0,167125376 1,876345234
Edad 1,50633232 1,414265835 1,06509843 0,31457045 -1,692959268 4,705623908 -1,692959268 4,705623908

Utilizando Minitab
En Minitab la secuencia de captura para la regresión lineal simple o múltiple en la hoja
de cálculo una vez capturada las columnas de datos seleccionamos Estadísticas luego
Regresión seguida de Regresión nuevamente

Estadísticas Regresión Regresión

De la ventana desplegada en respuesta indicamos la variable de respuesta, en


este caso es resistencia y en predictor indicamos porcentaje de fibra activando también
cualquiera de las opciones posibles, terminando en aceptar.
43 CAPÍTULO 1 Regresión lineal simple y múltiple Uso de software estadístico 41

Nota: De la ventana de captura aparecen automáticamente en el cuadro de la izquierda


la información de la tabla, en respuesta , se indica con un clic del ratón en peso y este
automáticamente se manifiesta, en predictores de igual manera se da un clic a cada uno
y estos se manifiestan en el recuadro.

Análisis de regresión: Peso vs. Estatura; Edad

La ecuación de regresión es
Peso = 3,7 + 0,855 Estatura + 1,51 Edad

Coef.
Predictor Coef de EE T P
Constante 3,65 16,17 0,23 0,826
Estatura 0,8546 0,4517 1,89 0,091
Edad 1,506 1,414 1,07 0,315

S = 5,36321 R-cuad. = 70,9% R-cuad.(ajustado) = 64,4%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 629,37 314,69 10,94 0,004
Error residual 9 258,88 28,76
Total 11 888,25

Fuente GL SC sec.
Estatura 1 596,74
Edad 1 32,63

Observaciones poco comunes


Ajuste Residuo
Obs Estatura Peso Ajuste SE Residuo estándar
7 55,0 77,00 65,72 1,96 11,28 2,26R

R denota una observación con un residuo estandarizado grande.


44 CAPÍTULO 1 Regresión lineal simple y múltiple Regresión no lineal 43

1.3. Regresión no lineal


Si las dos variables X y Y se relacionan según un modelo de línea recta, se habla de
regresión lineal simple

Cuando las variables X y Y se relacionan según una línea curva, se habla de


regresión no lineal o curvilínea. Aquí se puede distinguir entre regresión parabólica,
exponencial, potencial etc.

Supongamos que al hacer la representación gráfica correspondiente la


distribución bidimensional, hemos obtenido la figura 6.1c. Se observa una clara relación
entre las dos variables, pero desde luego, esa relación no es lineal.

Por tanto, debemos buscar la función que ha de describir la dependencia entre


las dos variables.

Nos limitaremos al estudio de las más utilizadas: la función parabólica, la


logarítmica, la exponencial y la potencial.

Parábola de Regresión
En muchos casos, es una función de segundo grado la que se ajusta lo suficiente a la
situación real dada.
La expresión general de un polinomio de 2º grado es:

donde a, b y c son los parámetros.

El problema consiste, por tanto, en determinar dichos parámetros para una


distribución dada. Seguiremos para ello, un razonamiento similar al que hicimos en el
caso del modelo de regresión lineal simple, utilizando el procedimiento de ajuste de los
mínimos cuadrados, es decir, haciendo que la suma de los cuadrados de las desviaciones
con respecto a la curva de regresión sea mínima:

donde, siguiendo la notación habitual, yi son los valores observados de la variable


dependiente, e los valores estimados según el modelo; por tanto, podemos escribir D
de la forma:
45 CAPÍTULO 1 Regresión lineal simple y múltiple Regresión no lineal 43

Para encontrar los valores de a, b y c que hacen mínima la expresión anterior,


deberemos igualar las derivadas parciales de D con respecto a dichos parámetros a cero
y resolver el sistema resultante. Las ecuaciones que forman dicho sistema se conocen
como ecuaciones normales de Gauss (igual que en el caso de la regresión lineal
simple).

Función Exponencial, Potencial y Logarítmica


El problema de ajustar un modelo potencial, de la forma y uno exponencial
se reduce al de la función lineal, con solo tomar logaritmos.

Modelo potencial:
Si tomamos logaritmos en la expresión de la función potencial, obtendremos:

Como vemos es la ecuación de una recta: , donde ahora .


De modo que el problema es sencillo, basta con transformar Y en y X en y
ajustar una recta a los valores transformados. El parámetro b del modelo potencial
coincide con el coeficiente de regresión de la recta ajustada a los datos transformados, y
A lo obtenemos mediante el antilog(a).

Modelo exponencial:
Tomando logaritmos en la expresión de la función exponencial, obtendremos:

También se trata de la ecuación de una recta , pero ahora


ajustándola a y a X; de modo que, para obtener el parámetro A del modelo
exponencial, basta con hacer antilog(a), y el parámetro B se obtiene tomando antilog(b).

Modelo logarítmico:
La curva logarítmica Y = a + b es también una recta, pero en lugar de estar
referida a las variables originales X e Y, está referida a y a Y.