Está en la página 1de 40

Estadstica Inferencial II

Ral Jimnez Gonzlez

Instituto Tecnolgico de Ensenada

Contenido
CAPTULO 1. Regresin lineal simple y mltiple 1.1. Regresin Lineal simple 1.1.1. Prueba de hiptesis en la regresin lineal simple. 1.1.2. Calidad del ajuste en regresin lineal simple 1.1.3. Estimacin y prediccin por intervalo en regresin lineal simple 1.1.4. Uso de software estadstico 1.2. Regresin lineal mltiple 1.2.1. Pruebas de hiptesis en regresin lineal mltiple 1.2.2. Intervalos de confianza y prediccin en regresin mltiple 1.2.3. Uso de un software estadstico 1.3. Regresin no lineal CAPTULO 2. Diseo de experimentos de un factor 2.1. Familia de diseos para comparar tratamientos 2.2. El modelo de efectos fijos 2.3. Diseo completamente aleatorio y ANOVA 2.4. Comparaciones o pruebas de rangos mltiples 2.5. Verificacin de los supuestos del Modelo 2.6. Uso de un software estadstico CAPTULO 3. Diseo de bloques. 3.1. Diseos en bloques completos al azar. 3.2. Diseo en cuadrado latino. 3.3. Diseo en cuadrado grecolatino. 3.4. Uso de un software estadstico. CAPTULO 4. Conceptos bsicos en diseos factoriales 4.1. Diseos factoriales con dos factores 4.2. Diseos factoriales con tres factores 4.3. Diseo factorial general 4.4. Modelos de efectos aleatorios 4.5. Uso de un software estadstico CAPTULO 5. Series de tiempo 5.1. Modelo clsico de series de tiempo 5.2. Anlisis de fluctuaciones 5.3. Anlisis de tendencia 5.4. Anlisis de variaciones cclicas 5.5. Medicin de variaciones estacionales e irregulares 5.6. Aplicacin de ajustes estacionales 5.7. Pronsticos basados en factores de tendencia y estacionales.

1.1. Regresin Lineal simple El anlisis de regresin se usa con el propsito de prediccin. La meta del anlisis de regresin es desarrollar un modelo estadstico que se pueda usar para predecir los valores de una variable dependiente o de respuesta basados en los valores de al menos una variable independiente o explicativa. Este captulo se centra en un modelo de regresin lineal simple, que usa una variable numrica independiente para predecir la variable numrica dependiente . Para establecer una relacin cuantitativa entre y es necesario disponer de cierta informacin muestral. Esta informacin consiste de un conjunto de pares de observaciones de y , donde cada uno de estos pares pertenece a una unidad elemental particular de la muestra. Por ejemplo, suponga que el rendimiento de un proceso qumico est relacionado con la temperatura de operacin, o la experiencia profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de personas, la produccin agraria y la cantidad de fertilizantes utilizados, etc. Si mediante un modelo matemtico es posible describir tal relacin, entonces este modelo puede ser usado para propsitos de prediccin, optimizacin o control Para ilustrar el concepto, considrense los datos de la tabla 1.1. En esta tabla, se relaciona la cantidad de fibra (madera) en la pulpa con la resistencia del producto (papel).
Tabla 1.1 Datos de resistencia de pulpa Porcentaje de fibra Resistencia 4 6 8 10 12 14 16 18 20 22 24 26 28 30 134 145 142 149 144 160 156 157 168 166 167 171 174 183

Es claro que la variable de respuesta o variable dependiente es la resistencia, por eso se denota con . Para tener una idea de la relacin que existe entre y , los 14 pares de datos son graficados en un diagrama de dispersin de la figura 1.1. De la inspeccin de este diagrama de dispersin se ve que los puntos cercanos siguen una lnea recta, lo que indica que la suposicin de linealidad entre las dos variables parece ser razonable El diagrama de dispersin es una grafica en la que cada punto trazado representa un par de valores observados por las variables independiente y dependiente. El valor de la variable independiente X, se traza en relacin con el eje horizontal y el valor de la variable dependiente Y, en relacin con el eje vertical. La naturaleza de la relacin entre

dos variables puede tomar muchas formas, que van desde algunas funciones matemticas sencillas a otras en extremo complicadas. La relacin ms elemental consiste en una lnea recta o relacin lineal.
Grfica de dispersin de Resistencia vs. Porcentaje de fibra
190 180 170

Resistencia

160 150 140 130 5 10 15 20 Porcentaje de fibra 25 30

Figura 1.1 Diagrama de dispersin para los datos de resistencia de la pulpa

La relacin del modelo matemtico adecuado tiene influencia de la distribucin de los valores X y Y en el diagrama de dispersin. Es sencillo ver esto si se examinan las siguientes graficas.

Figura 1.2 Relacin entre dos variables

En la grafica 1 se observa que los valores de Y, en general, aumentan en forma lineal cuando se incrementa X . En la grafica 2 es un ejemplo de una relacin lineal negativa. Cuando X crece, se observa que los valores de Y decrecen. Un ejemplo de este tipo de relacin puede ser el precio de un producto especfico y la cantidad de ventas.

En la grafica 3 se muestra un conjunto de datos en el que existe muy poca o ninguna relacin entre X y Y. Para cada valor de X aparecen valores altos y bajos de Y. En la grafica 4 muestran una relacin curvilnea entre X y Y. Los valores de Y aumentan cuando X crece, pero el incremento disminuye para valores altos de X. un ejemplo de esta relacin curvilnea puede ser la edad y el costo de mantenimiento de una maquina. Cuando la mquina tiene muchos aos, el costo de mantenimiento se eleva con rapidez al principio, pero despus de cierto nmero de aos se nivela. En la grafica 5 muestra una relacin parablica o en forma de U entre X y Y. Conforme X aumenta, al principio Y disminuye; pero si X aumenta ms, Y no slo deja de disminuir sino que aumenta despus de su valor mnimo. Un ejemplo tipo de relacin puede ser el nmero de errores por hora en una tarea y nmero de horas trabajadas. Por ultimo en la grafica 6 indica una relacin exponencial o curvilnea negativa entre X y Y. en este caso, Y disminuye con rapidez al principio del incremento de X pero despus, cuando X aumenta ms, la velocidad de disminucin es mucho menor. Un ejemplo de esta relacin exponencial puede ser el valor de reventa de un tipo dado de automvil y los aos que tiene. El primer ao el valor baja en forma drstica respeto a su precio original; sin embargo, la disminucin es mucho ms lenta en los aos subsecuentes.

El anlisis de regresin lineal simple se refiere a encontrar la lnea recta que mejor se ajuste a los datos. El mejor ajuste puede definirse de varias maneras. Quiz la ms sencilla sea encontrar la lnea recta para la cual las diferencias entre los valores reales y los valores pronosticados a partir de la recta ajustada de regresin sean tan pequeas como sea posible. Sin embargo, como estas diferencias son positivas para algunas observaciones y negativas para otras, en trminos matemticos se minimiza la suma de los cuadrados de las diferencias.
Resistencia = 130,7 + 1,624 Porcentaje de fibra 190 180 170
S R-cuad. R-cuad.(ajustado) 3,87648 93,0% 92,4%

Grfica de lnea ajustada

Resistencia

160 150 140 130 5 10 15 20 Porcentaje de fibra 25 30

Figura 1.3 Lnea recta que mejor se ajusta a los datos, donde la distancia a los puntos es la ms pequea posible

Suponga que las variables X y Y estn relacionadas linealmente y que para cada valor de X, la variable dependiente, Y, es una variable aleatoria. Es decir, que cada observacin de Y puede ser descrita por el modelo:

(1.1)

Donde es un error aleatorio con media cero y varianza . Tambin suponga que los errores aleatorios no estn correlacionados. La ecuacin (1.1) es conocida como el modelo de regresin lineal simple. Bajo el supuesto de que este modelo es adecuado y como el valor esperado del error es cero, ( ) , se puede ver que el valor esperado de la variable Y, para cada valor de X, est dado por lnea recta
( ) (1.2)

En donde son los parmetros del modelo y son constantes desconocidas. Por lo tanto, para tener bien especificada la ecuacin que relaciona las dos variables ser necesario estimar los dos parmetros, que tienen los siguientes significados: - Es el punto en el cual la lnea recta intercepta o cruza el eje y. - Es la pendiente de la lnea, es decir, es la cantidad en que se incrementa o disminuye la variable por cada unidad que se incrementa Un procedimiento para ajustar la mejor recta y, por lo tanto, para estimar es mediante el mtodo de mnimos cuadrados, el cual consiste en lo siguiente: si de la ecuacin (1.1) despejamos los errores, los elevamos al cuadrado y los sumamos, obtendremos lo siguiente:
( ) ( , -) (1.3)

De esta forma, se quieren encontrar los valores de que minimizan la suma de los errores cuadrados. Es decir, se busca ajustar la recta de manera que la suma de las distancias en forma vertical de los puntos a la recta se minimice, como se ilustra en la figura 1.3. El procedimiento matemtico para minimizar los errores de la ecuacin (1.3) y as encontrar los estimadores de mnimos cuadrados de , consiste en derivar a con respecto a , y derivar tambin a con respecto a , se obtiene:
( , -)

-)

Al igualar a cero las dos ecuaciones y resolverlas en forma simultnea con respecto a las dos incgnitas ( ), se obtiene la solucin nica:
(1.5) (1.4)

donde
( )( ) ( )( ) (1.6) ( ) ( ) (1.7)

son las medias muestrales de las dos variables, es decir,


De esta forma, para obtener la recta ajustada es necesario aplicar las frmulas anteriores, lo cual es muy sencillo, como se muestra en la tabla 1.2 para los datos de la resistencia de la pulpa.
Tabla 1.2 Procedimiento para realizar los clculos para la regresin simple para los datos de la resistencia De la pulpa

4 6 8 10 12 14 16 18 20 22 24 26 28 30

-3,2 4,6 -1,7 2,1 -6,2 6,6 -0,7 -2,9 4,8 -0,4 -2,7 -1,9 -2,2 3,6 ( )

134 145 142 149 144 160 156 157 168 166 167 171 174 183

16 36 64 100 144 196 256 324 400 484 576 676 784 900
=4 956

17 956 21 025 20 164 22 201 20 736 25 600 24 336 24 649 28 224 27 556 27 889 27 241 30 276 33 489
= 353 342

536 870 1 136 1 490 1 728 2 240 2 496 2 826 3 360 3 652 4 008 4 446 4 872 5 490
= 39 150

137,2 140,4 143,7 146,9 150,2 153,4 156,7 159,9 163,2 166,4 169,7 172,9 176,2 179,4
2216.6

10,24 21,16 2,89 4,41 38,44 43,56 0,49 8,41 23,04 0,16 7,29 3.61 4,84 12,96 ( )

( (

)( )

)(

Por lo tanto, la lnea recta que mejor explica la relacin entre porcentaje de fibra y resistencia del papel, est dada por En la figura 1.3 se muestra el ajuste de esta lnea. De esta manera, por cada punto porcentual de incremento en el porcentaje de fibra, se espera un incremento de resistencia de 1.6242 en promedio. La ecuacin (1.8) sirve para estimar la resistencia promedio esperada para cualquier porcentaje de fibra utilizada.

Nota: La calculadora cientfica, trae la funcin de Regresin Lineal, una vez activada esta funcin, se procede a capturar por parejas (X, Y) correspondientes sin olvidar separarlas por una coma entre ambos datos, se manda cada par a memoria, al finalizar la captura se obtienen los coeficientes correspondientes presionando la inversa correspondiente de acuerdo al modelo de esta. Utilizando un paquete computacional el resultado arrojado sera el siguiente:
Resumen de Excel Estadsticas de la regresin Coeficiente de correlacin mltiple 0,964432318 Coeficiente de determinacin R^2 0,930129695 R^2 ajustado 0,92430717 Error tpico 3,876481166 Observaciones 14 ANLISIS DE VARIANZA Regresin Residuos Total Grados de libertad 1 12 13 Coeficientes 130,6747253 1,624175824 Suma de cuadrados 2400,531868 180,3252747 2580,857143 Error tpico 2,417790201 0,128504099 Promedio de los cuadrados 2400,531868 15,02710623 F 159,7467824 Valor crtico de F 2,70702E-08

Intercepcin Porcentaje de fibra Anlisis de los residuales Observacin 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Estadstico t 54,047173 12,63909737

Probabilidad 1,05975E-15 2,70702E-08

Inferior 95% 125,406813 1,344189444

Pronstico Resistencia 137,1714286 140,4197802 143,6681319 146,9164835 150,1648352 153,4131868 156,6615385 159,9098901 163,1582418 166,4065934 169,6549451 172,9032967 176,1516484 179,4

Residuos -3,171428571 4,58021978 -1,668131868 2,083516484 -6,164835165 6,586813187 -0,661538462 -2,90989011 4,841758242 -0,406593407 -2,654945055 -1,903296703 -2,151648352 3,6

Resumen de Minitab Anlisis de regresin: Resistencia vs. Porcentaje de fibra La ecuacin de regresin es Resistencia = 131 + 1,62 Porcentaje de fibra

Predictor Constante Porcentaje de fibra

Coef 130,675 1,6242

Coef. de EE 2,418 0,1285

T 54,05 12,64

P 0,000 0,000

S = 3,87648 R-cuad. = 93,0% Anlisis de varianza Fuente Regresin Error residual Total Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 GL 1 12 13 SC 2400,5 180,3 2580,9

R-cuad.(ajustado) = 92,4%

MC 2400,5 15,0

F 159,75

P 0,000

Porcentaje de fibra Resistencia 4,0 134,00 6,0 145,00 8,0 142,00 10,0 149,00 12,0 144,00 14,0 160,00 16,0 156,00 18,0 157,00 20,0 168,00 22,0 166,00 24,0 167,00 26,0 171,00 28,0 174,00 30,0 183,00

Ajuste 137,17 140,42 143,67 146,92 150,16 153,41 156,66 159,91 163,16 166,41 169,65 172,90 176,15 179,40

Ajuste SE Residuo 1,97 -3,17 1,75 4,58 1,55 -1,67 1,37 2,08 1,22 -6,16 1,11 6,59 1,04 -0,66 1,04 -2,91 1,11 4,84 1,22 -0,41 1,37 -2,65 1,55 -1,90 1,75 -2,15 1,97 3,60

Residuo estndar -0,95 1,32 -0,47 0,57 -1,68 1,77 -0,18 -0,78 1,30 -0,11 -0,73 -0,54 -0,62 1,08

Tabla 1.4 Formulas bsicas para el Anlisis de regresin para el modelo

Es el punto en el cual la lnea recta intercepta o cruza el eje Y Es la pendiente de la lnea, es decir, es la cantidad en que se incrementa o

( ( ( )( ) )

disminuye la variable por cada unidad que se incrementa Ecuacin de la regresin lineal estimada
)
( ) ( )( )

Sumatoria de XY Sumatoria de XX Variabilidad total

Media de X Media de Y
( )

Sumatoria de los cuadrados del error

Suma de cuadrados de la regresin Estimador insesgado de la varianza Cuadrado medio del error

Cuadrado medio total =

Error estndar de estimacin Coeficiente de determinacin en regresin lineal simple

Estadstico

para prueba de hiptesis en regresin lineal simple

] , en

Estimacin por intervalos para


regresin lineal simple
( )

Estimacin por intervalos para la pendiente en regresin lineal simple


)

Estimacin para la ordenada al origen en regresin lineal simple

Ejemplo. Suponga que el gerente de una cadena de servicios de entrega de paquetera desea desarrollar un modelo para predecir las ventas semanales (en miles de dlares) para las tiendas individuales basado en el nmero de clientes que realizan compras. Se seleccion una muestra aleatoria entre todas las tiendas de la cadena con los siguientes resultados.
Tienda 1 2 3 4 5 6 7 8 9 10 Clientes 907 926 506 741 789 889 874 510 529 420 Ventas ($000) 11,20 11,05 6,48 9,21 9,42 10,08 9,45 6,73 7,24 6,12 Tienda 11 12 13 14 15 16 17 18 19 20 Clientes 679 872 924 607 452 729 794 844 1010 621 Ventas ($000) 7,63 9,43 9,46 7,64 6,92 8,95 9,33 10,23 11,77 7,41

(a) Grafique el diagrama de dispersin. (b) Suponga una relacin lineal y utilice el mtodo de mnimos cuadrados para encontrar los coeficientes de regresin y (c) Interprete el significado de la pendiente. (d) Pronostique las ventas semanales (en miles de dlares) para las tiendas que tienen 600 clientes.

(e) Qu otros factores adems del nmero de clientes pueden afectar las ventas?

Respuestas a)
Grfica de dispersin de Ventas vs. Clientes
12 11 10

Ventas

9 8 7 6 400 500 600 700 Clientes 800 900 1000

b) Los coeficientes son

= 2,3086 y = 0,0088 c) Por cada cliente ms, se espera un incremento en las ventas de 0,0088612 de miles de dlares en promedio. ( ) d) e) Factores tan variados como, atencin al cliente, lejana, falta de estacionamiento etc., etc.
Resumen de Excel
Coeficientes Intercepcin Clientes 2,308620077 0,008861219 Error tpico 0,486903934 0,000647589 Estadstico t 4,741428269 13,68338889 Probabilidad 0,000162977 5,93374E-11

1.1.1. Prueba de hiptesis en la regresin lineal simple.


En cualquier anlisis de regresin no basta hacer los clculos que se explicaron antes, sino que es necesario evaluar qu tan bien el modelo (la lnea recta) explica la relacin entre y . Una primera forma de hacer esto es probar una serie hiptesis sobre el modelo. Para ello es necesario suponer una distribucin de probabilidad para el trmino de error, Es usual suponer normalidad: se distribuye en forma normal, independiente, con media cero y varianza . Por lo general, la hiptesis de mayor inters plantea que la pendiente es significativamente diferente de cero. Esto se logra al aprobar la siguiente hiptesis:

(1.9)

El estadstico de prueba es:


(1.10)

Si la hiptesis nula es verdadera l estadstico (1.10) tiene una distribucin Student con grados de libertad. Se rechaza si el valor absoluto de este estadstico es mayor que el correspondiente valor crtico obtenido de tablas, es decir, se rechaza si: | | ( )
(1.11)

En caso contrario no se rechaza . No rechazar que , en el caso del modelo de regresin lineal simple, implica que no existe una relacin lineal significativa entre y ; por tanto, no existe relacin entre estas variables o sta es de otro tipo. La suma de cuadrados de los residuos o suma de cuadrados del error ( ) y se utiliza para estimar la varianza del error de ajuste de un modelo, y est dada por:
( ) ( )

A partir de la ecuacin (1.12) se obtiene que el valor esperado de la suma de ), del error est dado por: cuadrados (
( ) ( ) (1.13) est dado por:

Por lo tanto, un estimador insesgado de

En el caso de los datos de la tabla 1.1, datos de resistencia de la pulpa, el planteamiento de hiptesis sera el siguiente:

Aplicando el estadstico de prueba


El valor de -Student encontrado en tablas con 0,05 de nivel de significancia es


( ) ( )
(

grados de libertad y un
)

Se rechaza la Hiptesis nula

Dado que el valor absoluto de es significativamente mayor que el valor encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechazamos la hiptesis nula por lo tanto si existe una relacin entre ambas variables. 0 bien, dado que el valor-p es menor que el nivel de significancia, se rechaza la hiptesis nula valor-p . En ocasiones, en lugar de probar que , puede ser de inters probar que es igual a cierta constante ( ), en este caso en el numerador del estadstico de la expresin (1.10) se resta , es decir, el estadstico queda de la siguiente manera( ) , y el criterio de rechazo es el mismo. Si se utiliza como criterio de rechazo la comparacin de la significancia observada (p-value o valor p) contra la significancia predefinida ( ), entonces se rechaza si el valor p . Por otro lado, con respecto del parmetro siguiente hiptesis: suele ser de inters probar la

(1.15)

El estadstico de prueba es el siguiente:


[ ] ( )

El cual tiene una distribucin -Student con grados de libertad, por lo que se rechaza si: | | ( ) o si se utiliza el criterio de la significancia observada se rechaza si el valor-p . No rechazar que simplemente significa que el punto de corte de la lnea recta pasa por el origen, es decir pasa por (0, 0). En ocasiones, en lugar de probar que , puede ser de inters probar que es igual a cierta constante ( ); en ese caso, en el numerador del estadstico de la expresin (1.16) se resta , es decir, el estadstico queda de la siguiente manera:
[ ] (1.17)

y el criterio de rechazo es el mismo.

En el caso de los datos de la tabla 1.1, datos de resistencia de la pulpa, el planteamiento de hiptesis sera el siguiente:

Aplicando el estadstico de prueba


[ ] | |

El valor de -Student encontrado en tablas con de nivel de significancia es


( ) ( )
(

grados de libertad y un 0,05


)

Se rechaza la Hiptesis nula

Dado que el valor absoluto de es significativamente mayor que el valor encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechazamos la hiptesis nula por lo tanto el punto de corte de la lnea recta no pasa por el origen, es decir, no pasa por (0, 0). O bien, dado que el valor-p es menor que el nivel de significancia, se rechaza la hiptesis nula valor-p . La estimacin de los parmetros del modelo y las pruebas de hiptesis sobre los mismos se sintetizan en la siguiente tabla:
Parmetro Intercepcin

Estimacin

Error estndar [ ]

Estadstico [ ]

Valor-p ( | |)

Pendiente

| |)

Las pruebas de hiptesis para el ejemplo de las ventas contra clientes, el resumen que nos arroja Excel y Minitab incluye el clculo del valor de t y el valor-p, optando por cualesquiera de ambos estadsticos las hiptesis quedaran de la siguiente manera:

El valor de -Student encontrado en tablas con de nivel de significancia es


( ) ( )
(

grados de libertad y un 0,05

Se rechaza la Hiptesis nula

Dado que el valor absoluto de es significativamente mayor que el valor encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechazamos la hiptesis nula por lo tanto si existe una relacin entre ambas variables. 0 bien, dado que el valor-p es menor que el nivel de significancia, se rechaza la hiptesis nula valor-p . En el caso de las hiptesis para la intercepcin tenemos:

Se rechaza la Hiptesis nula

Dado que el valor absoluto de es significativamente mayor que el valor encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechazamos la hiptesis nula por lo tanto el punto de corte de la lnea recta no pasa por el origen, es decir, no pasa por (0, 0). O bien, dado que el valor-p es menor que el nivel de significancia, se rechaza la hiptesis nula valor-p .

Resumen de Excel Coeficientes Intercepcin Clientes 2,308620077 0,008861219 Error tpico 0,486903934 0,000647589 Estadstico t 4,741428269 13,68338889 Probabilidad 0,000162977 5,93374E-11

Ejercicios 1.- Cul es el propsito general del anlisis de regresin? 2.- En el anlisis de regresin intervienen dos tipos de variables: las independientes y las dependientes. Explique con sus palabras y a travs de ejemplos, las caractersticas de estos dos tipos de variables. 3.- En el artculo de Concrete Research (Caractersticas del concreto cerca de la superficie: Permeabilidad intrnseca), se presentaron los datos sobre la resistencia a la compresin y la permeabilidad intrnseca de varias mezclas y curados de concreto. Las cantidades resumidas son , , = 23 530, , = 157.42, y = 1 697.80. Suponga que las dos variables se relacionan de acuerdo con el modelo de regresin lineal simple. a) Calcule las estimaciones de mnimos cuadrados de la pendiente y la ordenada al origen b) Use la ecuacin de la recta ajustada para predecir la permeabilidad que se observara cuando la resistencia a la compresin es = 4,3. c) D una estimacin puntual de la permeabilidad media cuando la resistencia a la compresin es = 3,7. d) Suponga que el valor observado de la permeabilidad para = 3,7 es = 46,1.

4.- Se utilizaron mtodos de regresin para analizar los datos de un estudio para investigar la relacin entre la temperatura superficial de una carretera (x) y la deflexin del pavimento (y). Las cantidades resumidas fueron , , = 8.86, , = 143 215.8, = 1 083.67. a) Calcule las estimaciones de mnimos cuadrados de la pendiente y la ordenada al origen. Grafique la recta de regresin b) Use la ecuacin de la recta ajustada para predecir la deflexin del pavimento que se observara cuando la temperatura superficial es de 85 . c) Cul es la deflexin media del pavimento cuando la temperatura superficial es 90 ? d) Qu cambio en la deflexin media del pavimento se esperara para un cambio de 1 en la temperatura superficial? 5.- Se piensa que el nmero de libras de vapor consumidas mensualmente por una planta qumica se relaciona con la temperatura ambiente promedio (en ) de ese mes. En la tabla siguiente se muestra la temperatura y el consumo anual:
Mes Ene. Feb. Mar. Abr. May Jun. Jul. Ago. Sep. Oct. Nov. Dic. Temperatura 21 24 32 47 50 59 68 74 62 50 41 30 Consumo/1 000 185.79 214.47 288.03 424.84 454.58 539.03 621.55 675.06 562.03 452.93 369.95 273.98

a) Suponiendo que un modelo de regresin lineal simple es apropiado, ajuste el modelo de regresin que relacione el consumo de vapor ( ) con la temperatura promedio ( ). b) Cul es la estimacin del consumo esperado de vapor cuando la temperatura promedio es 55 ? c) Qu cambio se espera en el consumo de vapor promedio cuando la temperatura mensual promedio cambia 1 ? d) Suponga que la temperatura mensual promedio es de 47 . Calcule el vapor ajustado y el residual correspondiente. 6.- En un artculo de Journal of Environmental Energineering se reportan los resultados de un estudio sobre la presencia de sodio y cloruros en corrientes superficiales de la parte central de Rhode Island. Los datos que se presentan a continuacin corresponden a la concentracin de cloruros (en mg/l) y al rea de carretera de la vertiente (en %).

4.4 6.6 9.7 10.6 10.8 10.9 11.8 12.1 14.3 14.7 15.0 17.3 19.2 23.1 27.4 27.7 31.8 39.5 0.19 0.15 0.57 0.70 0.67 0.63 0.47 0.70 0.60 0.78 0.81 0.78 0.69 1.30 1.05 1.06 1.74 1.62

Trace un diagrama de dispersin de los datos. Parecera apropiado un modelo de regresin lineal simple en este caso? b) Ajuste el modelo de regresin lineal simple usando el mtodo de mnimos cuadrados. c) Estime la concentracin de cloruros media de una vertiente que tiene 1% del rea de carretera. d) Encuentre el valor ajustado que corresponde a = 0.47
a)

7.- Demuestre que en un modelo de regresin lineal simple el punto ( ) se localiza exactamente sobre la recta de regresin de mnimos cuadrados. 8.- En un artculo de Wear se presentan los datos del desgaste por rozamiento del acero dulce y la viscosidad del aceite. Los datos representativos, con = viscosidad del aceite y = volumen del desgaste ( ), son:
240 181 193 155 172 110 113 75 94 1.6 9.4 15.5 20.0 22.0 35.5 43.0 40.5 33.0

a) Construya un diagrama de dispersin de los datos. Parecera plausible un modelo de regresin lineal simple? b) Ajuste el modelo de regresin lineal simple usando mnimos cuadrados. c) Estime el desgaste por rozamiento cuando la viscosidad es = 30. d) Obtenga el valor ajustado de cuando = 22,0 y calcule el residual correspondiente.

9.- Considrense los datos del ejercicio 4 para carretera y = deflexin del pavimento.

= temperatura superficial de una

a) Pruebe la significacin de la regresin utilizando . Encuentre el valor P para esta prueba. Qu conclusiones pueden sacarse? b) Estime c) Estime los errores estndar de la pendiente y la ordenada al origen. 10.- En un proceso de extraccin se estudia la relacin entre tiempo de extraccin y rendimiento. Los datos obtenidos se muestran en la siguiente tabla.
Tiempo (minutos) Rendimiento (%) 10 15 20 8 12 13 15 12 14 20 19 18

64 81,7 76,2 68,5 77,9 82,2 74,2 70 76 83,2 85,3

a) En este problema cul variable se considera independiente y cul dependiente? b) Mediante un diagrama de dispersin analice la relacin entre estas dos variables. c) Haga un anlisis de regresin (ajuste una lnea recta a estos datos, aplique pruebas de hiptesis y verifique residuos). d) La calidad del ajuste es satisfactoria? Argumente e) Destaque el valor de la pendiente de la recta e interprtelo en trminos practicos. f) Estime el rendimiento promedio que se espera a un tiempo de extraccin de 25 minutos y obtenga un intervalo de confianza para esta estimacin.

11.- Considere los datos del ejercicio 5 para = consumo de vapor y = temperatura promedio. a) Pruebe la significacin de la regresin usando . Cul es el valor P para esta prueba? Enuncie las conclusiones que resultan de esta prueba. b) Estime c) Estime los errores estndar de la pendiente y la ordenada al origen. d) Pruebe la hiptesis contra usando . Encuentre el valor P para esta prueba. e) Pruebe la hiptesis contra usando . Encuentre el valor P para esta prueba y saque conclusiones. 12.- En el ejercicio 6 se presentan los datos para corrientes superficiales y = rea de carretera. a) Pruebe la hiptesis contra indicado con un nivel de significancia del 0,01 ( = concentracin de cloruros en usando el procedimiento ).

1.1.2. Calidad del ajuste en regresin lineal simple


En la seccin anterior estudiamos pruebas de hiptesis para verificar que hay una relacin significativa entre y ; sin embargo, no hemos visto si tal relacin permite hacer estimaciones con una precisin aceptable. Por ejemplo, es de inters saber qu tanta de la variabilidad presente en fue explicada por el modelo, adems si se cumplen los supuestos de los residuos.

Coeficiente de determinacin

. Un primer criterio para evaluar la calidad del ajuste es observar la forma en que el modelo se ajust a los datos. En el caso de la regresin lineal simple esto se distingue al observar si los puntos tienden a ajustarse razonablemente bien a la lnea recta (vase la figura 1.3). Pero otro criterio ms cuantitativo es el que proporciona el coeficiente de determinacin, el cual est definido por:

(1.17)

Es claro que . En general se interpreta como la proporcin de la variabilidad en los datos ( ) que es explicada por el modelo. En el caso de los datos de la resistencia de la pulpa (tabla 1.1) tenemos
(
( )

)(

= 2580.86

Por lo tanto, podemos decir que 93% de la variacin observada en la resistencia es explicada por el modelo (lnea recta), lo cual nos dice que la calidad del ajuste es satisfactorio, y que por ello, la relacin entre es descrita adecuadamente por una lnea recta. Nota. El resultado arrojado por Excel o Minitab, incluye el anlisis de varianza para el modelo de regresin simple cuyo cuadro sinttico es el siguiente:
Fuente de variacin Regresin Suma de cuadrados Grados de libertad 1 Cuadrado medio Valor-p ( )

Error o residual Total

Resumen de Excel Estadsticas de la regresin Coeficiente de correlacin mltiple la regresin 0,964432318 Estadsticas de correlacin mltiple 0,964432318 Coeficiente de determinacin R^2 0,930129695 Coeficiente de 0,930129695 R^2 ajustado determinacin R^2 0,92430717 R^2 ajustado 0,92430717 Error tpico 3,876481166 Error tpico 3,876481166 Observaciones 14 Observaciones 14 ANLISIS DE VARIANZA Regresin Residuos Residuos Total Total
Regresin Grados de libertad Grados de libertad 1 1 12 12 13 13 Coeficientes 130,6747253 Coeficientes 1,624175824 Suma de cuadrados Suma de cuadrados 2400,531868 2400,531868 180,3252747 180,3252747 2580,857143 2580,857143 Error tpico 2,417790201 Error tpico 0,128504099 Promedio de los cuadrados Promedio de los cuadrados 2400,531868 2400,531868 15,02710623 15,02710623 Estadstico t 54,047173 Estadstico t 12,63909737 F Valor crtico de F F Valor crtico de F 159,7467824 2,70702E-08 159,7467824 2,70702E-08 Resumen de Excel

Intercepcin 130,6747253 2,417790201 54,047173 1,05975E-15 125,406813 Anlisis de varianza en Minitab Porcentaje los fibra 1,624175824 0,128504099 12,63909737 2,70702E-08 1,344189444 Anlisis de de residuales Fuente GL SC MC F P Regresin 1 2400,5 2400,5 Residuos 159,75 0,000 Observacin Pronstico Resistencia Anlisis de los residuales Error residual 12 180,3 1 137,1714286 15,0 -3,171428571 Total 13 2580,9 2 140,4197802 4,58021978 Observacin Pronstico Resistencia Residuos 3 143,6681319 -1,668131868 1 137,1714286 -3,171428571 4 146,9164835 2,083516484 5 150,1648352 -6,164835165 2 4,58021978 S = 3,87648 R-cuad. 140,4197802 = 93,0% R-cuad.(ajustado) = 92,4% 6 153,4131868 6,586813187 3 143,6681319 -1,668131868 7 156,6615385 -0,661538462 4 146,9164835 2,083516484 8 159,9098901 -2,90989011 5 de determinacin ajustado 150,1648352 -6,164835165 . Este coeficiente se calcula de la 9 163,1582418 4,841758242 Coeficiente 10 166,4065934 -0,406593407 6 153,4131868 6,586813187 siguiente manera: 11 169,6549451 -2,654945055 7 156,6615385 -0,661538462 12 172,9032967 -1,903296703 8 159,9098901 -2,90989011 13 176,1516484 -2,151648352 9 163,1582418 4,841758242 14 179,4 3,6 10 166,4065934 -0,406593407 (1.18) 11 169,6549451 -2,654945055 12 172,9032967 -1,903296703 13 -2,151648352 donde el cuadrado medio total, 176,1516484, se obtiene al dividir la suma de cuadrados total, , 14 179,4 3,6 entre sus grados d libertad. Cuando hay muchos trminos en un modelo, el estadstico

Intercepcin Porcentaje de fibra

Probabilidad 1,05975E-15 Probabilidad 2,70702E-08

Inferior 95% 125,406813 Inferior 95% 1,344189444

se prefiere en lugar de , puesto que este ltimo es engaoso al incrementarse en forma artificial con cada trmino que se agrega al modelo, aunque sea un trmino que no contribuya en nada a la explicacin de la respuesta. En cambio, el incluso baja de valor cuando el trmino que se agrega no aporta nada. Se cumple que

. En general, para fines de prediccin se recomienda un coeficiente de determinacin ajustado de al menos 0.7. En el caso de los datos de la resistencia de la pulpa (tabla 1.1), el coeficiente de determinacin ajustado est dado por:

Observe que estos coeficientes son arrojados automticamente en Excel y Minitab.

Coeficiente de correlacin . Es bien conocido que el coeficiente de correlacin, ,


mide la intensidad de la relacin lineal entre dos variables Si se tiene pares de datos de la forma ( ), entonces este coeficiente se obtiene de la siguiente manera:

(1.19)

Se puede ver que ; si es prximo a , entonces tendremos una relacin lineal negativa fuerte, y si es prximo a cero, entonces diremos que no hay correlacin lineal, y finalmente se es prximo a , entonces tendremos una relacin lineal positiva fuerte. Por ejemplo, para los datos de la resistencia de la
pulpa (tabla 1.1), el coeficiente de correlacin es;
( )( ) ( )( )

)(

lo cual habla de una correlacin lineal positiva fuerte.

Error estndar de estimacin . Una medicin sobre la calidad del ajuste de un


modelo lo da el error estndar de estimacin, que es una estimacin de la desviacin estndar del error, . En el caso de la regresin lineal simple, est dado por:

=
(1.20)

Es claro que a medida que el modelo ajuste mejor, la consecuencia el error estndar de estimacin tambin ser menor.

ser menor y en

Anlisis grfico de residuos.


Como complemento a lo que se ha discutido hasta aqu, un anlisis adecuado de los residuos proporciona informacin adicional sobre la calidad del ajuste del modelo de regresin y de esa manera es posible verificar si el modelo es adecuado. Las grficas que suelen hacerse para completar el diagnstico del modelo consisten en: a) graficar los residuos en papel de probabilidad normal, b) graficar los residuos contra los predichos.

Por ejemplo, para los datos de la resistencia de la pulpa (tabla 1.2), se construye
la grfica de probabilidad normal que se muestra en la figura 1.4. En sta se aprecia que el supuesto de normalidad sobre los errores se cumple razonablemente bien, ya que los puntos en esta grfica tienden a ajustarse a la lnea recta.
Grfica de probabilidad normal
(la respuesta es Resistencia)
99

95 90 80

Porcentaje

70 60 50 40 30 20 10 5

-10

-5

0 Residuo

10

Figura 1.4 Grfica de probabilidad normal para los residuos de la resistencia de la pulpa

A partir de la tabla 1.2 es fcil obtener la grfica de residuos contra predichos que se muestra en la figura 1.5. Si el modelo es adecuado se espera que en esta grfica los puntos no sigan ningn patrn y que, por lo tanto, estn distribuidos ms o menos aleatoriamente a lo largo y ancho de la grfica. Cuando esto ocurre significa que el modelo se ajusta de igual manera a lo largo de los valores de . Por el contrario, si se aprecia algn patrn habr que ver cul es el tipo de patrn que se observa en la grfica y diagnosticar cul es la falla que registra el modelo.

(la respuesta es Resistencia) 7,5 5,0 2,5

vs. ajustes

Residuo

0,0 -2,5 -5,0 140 150 160 Valor ajustado 170 180

Figura 1.5 Grfica de residuos contra estimados o predichos para la resistencia de la pulpa

En particular la figura 1.5 no muestra ninguna anomala, lo cual es una evidencia ms a favor del modelo de regresin simple para este ejemplo.

1.1.3. Estimacin y prediccin por intervalo en regresin lineal simple


Una de las aplicaciones ms importantes en un anlisis de regresin es hacer estimaciones de la respuesta media para un valor dado de X. En el caso particular de la regresin lineal simple, sabemos que un estimador puntual de la respuesta media lo da la recta de regresin:

Adems de esto, en ocasiones es de inters obtener una estimacin por intervalos para a partir de cualquier valor de X, para lo cual aplicamos la siguiente ecuacin:

] (1.21)

A este intervalo se le conoce como intervalo para la recta de regresin. Note que su amplitud depende del y de la distancia entre y . La amplitud es mnima cuando = y se incrementa conforme | | se hace ms grande. Para ilustrar lo anterior consideremos el modelo ajustado a los datos del ejemplo de la resistencia de la pulpa (tabla 1.1), y obtenemos el intervalo de confianza para la respuesta media en = 12 (porcentaje de fibra) Primeramente calculemos el estimador puntual para cuando por ( )( ) = 12 , est dado

y un intervalo de confianza al 95% para

De aqu que el intervalo de confianza para la respuesta media en por: ( )

= 12 est dada

Adems de la estimacin puntual para la pendiente y la ordenada al origen, , es posible obtener estimaciones de los intervalos de confianza para estos parmetros. La anchura de estos intervalos de confianza es una medida de la calidad global de la recta de regresin. Si los trminos del error, del modelo de regresin tienen una distribucin normal e independiente, entonces tienen ambos una distribucin igual a la de una variable aleatoria grados de libertad. Esto lleva a la siguiente definicin de los intervalos de confianza del ( )% para la pendiente y la ordenada al origen.

(1.22)

] (1.23)

En el caso del intervalo de confianza para la pendiente de los datos del porcentaje de fibra (tabla 1.1) tenemos

Por lo que pendiente de forma puntual es 1,6242, y por intervalos con un 95% de nivel de confianza tenemos que esta se encuentra entre 1,3442 y 1,9042 Ejemplo En un artculo se presentaron los datos de la concentracin del licor verde ( ), y la produccin de una mquina papelera ( ). Los datos se muestran en la tabla siguiente

Nmero de observacin 1 2 3 4 5 6 7 8 9 10 11 12 13

Concentracin Del licor verde ( ) 40 42 49 46 44 48 46 43 53 52 54 57 58

Produccin (tons ) 825 830 890 895 890 910 915 960 990 1010 1012 1030 1050

a) Encuentre un intervalo de confianza de 99% para b) La concentracin media de cuando la produccin es toneladas c) Encuentre un intervalo de prediccin de 99% para la concentracin de cuando toneladas

1.2. Regresin lineal mltiple


En muchas situaciones prcticas existen varias variables independientes que se cree que influyen o estn relacionadas con una variable de respuesta , y por lo tanto ser necesario tomar en cuenta si se quiere predecir o entender mejor el comportamiento de . Por ejemplo, para explicar o predecir el consumo de electricidad en una casa habitacin tal vez sea necesario considerar el tipo de residencia, el nmero de personas que la habitan, la temperatura promedio de la zona, etctera. Sea variables independientes o regresoras, y sea una variable de respuesta, entonces el modelo de regresin lineal mltiple con variables independientes es el polinomio de primer orden:}

(1.22)

Donde los son los parmetros del modelo que se conocen como coeficientes de ( ) regresin y es el error aleatorio, con media cero, ( ) . Si en la ecuacin (1.22) , estamos en el caso de regresin lineal simple y el modelo es una lnea recta; si , tal ecuacin representa un plano. En general, la ecuacin (1.22)representa un hiperplano en el espacio de dimensiones generado por las variables { }.

El trmino lineal del modelo de regresin se emplea debido a que la ecuacin (1.22) es funcin lineal de los parmetros desconocidos La interpretacin de stos es muy similar a lo ya explicado para el caso de regresin lineal simple: es la ordenada al origen, y mide el cambio esperado en por cambio unitario en cuando el resto de las variables regresoras se mantienen fijas o constantes. Para encontrar los coeficientes de regresin mltiple por el mtodo de mnimos cuadrados aplicamos el siguiente sistema de ecuaciones normales:

(1.23)

Estas ecuaciones se pueden resolver para , y mediante cualquier mtodo apropiado para resolver sistemas de ecuaciones lineales Por ejemplo La siguiente tabla muestra los pesos Y a la libra ms cercana, las estaturas X1 a la pulgada ms cercana y las edades X2 al ao ms cercano de 12 muchachos. Tabla 1.5 Peso, estatura y edad Peso Estatura Edad 64 71 53 67 55 58 77 57 56 51 76 68 57 59 49 62 51 50 55 48 52 42 61 57 8 10 6 11 8 7 10 9 10 6 12 9

Para encontrar los coeficientes de regresin ( , y ) mltiple mediante el mtodo de mnimos cuadrados seria de la siguiente manera:

Tabla 1.6 Procedimiento para realizar los clculos para la regresin mltiple
Y
64 71 53 67 55 58 77 57 56 51 76 68

X1
57 59 49 62 51 50 55 48 52 42 61 57

X2
8 10 6 11 8 7 10 9 10 6 12 9

Y2
4096 5041 2809 4489 3025 3364 5929 3249 3136 2601 5776 4624

X 12
3249 3481 2401 3844 2601 2500 3025 2304 2704 1764 3721 3249

2 X2

X 1Y
3648 4189 2597 4154 2805 2900 4235 2736 2912 2142 4636 3876

X 2Y
512 710 318 737 440 406 770 513 560 306 912 612

X1 X 2
456 590 294 682 408 350 550 432 520 252 732 513

64 100 36 121 64 49 100 81 100 36 144 81


2 x2

y
753

x1
643

x2
106

y 2
48,139

x12
34,843

x1 y
40,830

x2 y
6,796

x1 x2
5,779

976

Al sustituir las sumatorias calculadas en las ecuaciones normales, se obtiene

Resolver este sistema de tres ecuaciones lineales para , y , es por lo menos tedioso. Es comn emplear matrices para simplificar el proceso. Hoy en da, esta clase de clculos son realizados por la computadora. El resultado seria el siguiente tanto la ecuacin de regresin es La solucin manual aplicando el sistema de tres ecuaciones lineales con tres incgnitas (3x3) pudiera ser aplicando el mtodos de eliminacin de Gauss o bien el mtodo de Cramer. Para este tipo de planteamiento se recomienda el mtodo de Cramer el cual consiste en la siguiente secuencia: , y por lo

| |

| |

( (

) ( )

) )

Siguiendo la misma secuencia de la multiplicacin para el denominador, as como para y | | | |

| |

| |

Sustituyendo los valores tendremos

753 40,830 6,796 12 643 106

643 34,843 5,779 643 34,843 5,779

106 5,779 976 106 5,779 976

753 40,830 6,796 12 643 106

643 34,843 5,779 643 34,843 5,779

(2.56070963x1010+ 2.525323601x1010+ 2.501139642x1010) (2.510006097x1010+ 2.514782127x1010+ 2.562360144x1010)


( 408081216 + 393885082 + 393885082 ) ( 391495948 + 400762092 + 403526224 )

Siguiendo el mismo procedimiento correspondiente para y tenemos los coeficientes de regresin mltiple

Anlisis de regresin: Peso vs. Estatura; Edad en Minitab


La ecuacin de regresin es Peso = 3,7 + 0,855 Estatura + 1,51 Edad Coef. de EE 16,17 0,4517 1,414

Predictor Constante Estatura Edad S = 5,36321

Coef 3,65 0,8546 1,506

T 0,23 1,89 1,07

P 0,826 0,091 0,315

R-cuad. = 70,9%

R-cuad.(ajustado) = 64,4%

Anlisis de varianza Fuente Regresin Error residual Total GL 2 9 11 SC 629,37 258,88 888,25 MC 314,69 28,76 F 10,94 P 0,004

Resumen Estadsticas de la regresin Coeficiente de correlacin mltiple Coeficiente de determinacin R^2 R^2 ajustado Error tpico Observaciones ANLISIS DE VARIANZA Regresin Residuos Total Grados de libertad 2 9 11 Coeficientes 3,651215805 0,854609929 1,50633232 Suma de cuadrados 629,3733536 258,8766464 888,25 Error tpico 16,16780562 0,451664156 1,414265835 Promedio de los cuadrados 314,6866768 28,76407182 F 10,9402688 Valor crtico de F 0,003895018

0,841756673 0,708554296 0,643788584 5,363214691 12

Intercepcin Estatura Edad Anlisis de los residuales Observacin 1 2 3 4 5 6 7 8 9 10 11 12

Estadstico t 0,22583249 1,892135824 1,06509843

Probabilidad 0,82637676 0,0910251 0,31457045

Inferior 95% -32,9229014 -0,167125373 -1,692959262

Pronstico Peso 64,41464032 69,13652482 54,56509625 73,20668693 59,28698075 56,9260385 65,71808511 58,22948328 63,15425532 48,58282675 73,85840932 65,92097264

Residuos -0,414640324 1,863475177 -1,565096251 -6,20668693 -4,28698075 1,073961499 11,28191489 -1,229483283 -7,154255319 2,417173252 2,141590679 2,079027356

1.2.1. Pruebas de hiptesis en regresin lineal mltiple


Las hiptesis sobre los parmetros del modelo son equivalentes a las realizadas para regresin lineal simple, pero ahora son ms necesarias porque en regresin mltiple tenemos ms parmetros en el modelo; sin embargo, por lo general es necesario evaluar su verdadera contribucin a la explicacin de la respuesta. Tambin requerimos de la suposicin de que los errores se distribuyen en forma normal, independientes, con

media cero y varianza ( las observaciones son:

( (

)). Una consecuencia de esta suposicin es que ).

La hiptesis global ms importante sobre un modelo de regresin mltiple consiste en ver si la regresin es significativa. Esto se logra probando la siguiente hiptesis:

Aceptar significa que ningn trmino o variable en el modelo tiene una contribucin significativa al explicar la variable de respuesta, . Mientras que rechazar implica que por lo menos un trmino en el modelo contribuye de manera significativa a explicar . El procedimiento para probar esta hiptesis es una generalizacin del procedimiento utilizado para probar la hiptesis equivalente en regresin lineal simple. El estadstico de prueba para la significancia del modelo de regresin lineal mltiple esta dado por: ( )
(1.24)

que bajo
(

tiene una distribucin ) o tambin si

).

As, se rechaza

si

) ) utilizando los datos de los

Ejemplo Se probar la significacin de la regresin (con pesos , estaturas y edades de la tabla 1.5

El valor de calculado por formula nos da un valor de comodidad observamos el resumen arrojado por Excel y/o Minitab
( )

= 10,9402 ,por

10,94

En tanto que el valor de encontrado en tablas cuando tenemos un nivel de significancia de 0,05 y 2 grados de libertad en el numerador y 9 en el denominador el cual es igual a 4,26
( ( ) )

)= (

Se rechaza la Hiptesis nula

Dado que el valor encontrado en formula es mayor al punto crtico en base al nivel de significancia por lo que rechazamos la hiptesis nula y aceptamos la alterna lo

cual implica que por lo menos un trmino en el modelo contribuye de manera significativa a explicar
Tabla 1.7 ANOVA para la significancia del modelo de regresin lineal mltiple Fuente de Suma de Grados de Cuadrado variacin cuadrados libertad medio Regresin K ( )
Resumen Estadsticas de la regresin Coeficiente de correlacin mltiple Coeficiente de determinacin R^2 Total R^2 ajustado Error tpico Observaciones ANLISIS DE VARIANZA Regresin Residuos Total Grados de libertad 2 9 11 Coeficientes Suma de cuadrados 629,3733536 258,8766464 888,25 Error tpico 16,16780562 0,451664156 1,414265835 F Promedio de los cuadrados 314,6866768 28,76407182 F 10,9402688 Valor crtico de F 0,003895018

Error o residuo
0,841756673 0,708554296 0,643788584 5,363214691 12

( ) n-1

Anlisis de varianza en 3,651215805 Minitab Intercepcin


Estatura Edad Fuente Regresin Anlisis de los residuales Error residual Total Observacin 0,854609929

GL 2 9 11
1 2 3 4 5 6 7 8 9 10 11 12

1,50633232 SC MC 629,37 314,69 10,94 258,88 28,76 888,25 Peso Pronstico Residuos 64,41464032 69,13652482 54,56509625 73,20668693 59,28698075 56,9260385 65,71808511 58,22948328 63,15425532 48,58282675 73,85840932 65,92097264 -0,414640324 1,863475177 -1,565096251 -6,20668693 -4,28698075 1,073961499 11,28191489 -1,229483283 -7,154255319 2,417173252 2,141590679 2,079027356

P 0,004

Estadstico t 0,22583249 1,892135824 1,06509843

Probabilidad 0,82637676 0,0910251 0,31457045

Inferior 95% -32,9229014 -0,167125373 -1,692959262

Coeficiente de determinacin

El que un modelo sea significativo no necesariamente implica que sea bueno en trminos de que explique la variacin de los datos. Por ello es importante tener mediciones adicionales de la calidad del ajuste del modelo, como las grficas de residuales y el coeficiente de determinacin. Con la informacin del anlisis de varianza de la tabla 1.7 es muy sencillo calcular el coeficiente de determinacin , y el coeficiente de determinacin ajustado :

(1.25)

( (

) )
(1.26)

Ambos coeficientes se interpretan de forma similar al caso de regresin lineal simple, es decir, como el porcentaje de variabilidad de los datos que son explicados por el modelo. Se cumple que ; en general, para hablar de un modelo que tiene un ajuste satisfactorio es necesario que ambos coeficientes tengan valores superiores a 0,7. Cuando en el modelo hay trminos que no contribuyen de manera significativa a ste, el tiende a ser menor que el . Por lo tanto, es deseable depurar el modelo y para ello las siguientes pruebas de hiptesis son de mucha utilidad.

Para los datos de la tabla 1.5 tenemos que

Coeficiente de correlacin mltiple Es la raz cuadrada del coeficiente de determinacin


(1.27) y es una medida de la intensidad de la relacin entre la variable dependiente, , y el conjunto de ) variables o trminos en el modelo (

Error estndar de estimacin Al igual que en regresin lineal simple, el error estndar de estimacin proporciona la medida del error de ajuste de un modelo, stas tienen una interpretacin similar a la que se dio para el caso de regresin lineal simple. En cuanto al clculo en el caso mltiple, el error estndar de estimacin, ( )
(1.28)

En el caso del ejemplo de los pesos, estatura y edades tenemos ( )

1.2.2. Intervalos de confianza y prediccin en regresin mltiple


En los modelos de regresin mltiple con frecuencia es conveniente construir estimaciones de intervalos de confianza para los coeficientes de regresin * +. Por ejemplo, a partir de la tabla 1.6 es claro que un estimador por intervalos de cada coeficiente en lo individual est dado por:
( )

(1.29)

Tabla 1.8 Anlisis de regresin mltiple Parmetro Estimacin Error estndar Intercepcin

Estadstico

Valor-p | |) (

Resumen Estadsticas de la regresin Coeficiente de correlacin mltiple . Coeficiente de determinacin R^2 . R^2 ajustado Error tpico Observaciones ANLISIS DE VARIANZA Regresin Residuos Total

0,841756673 . 0,708554296 . 0,643788584 5,363214691 12

. .

( .

| |)

. Promedio de los cuadrados


314,6866768 28,76407182

Grados de libertad 2 9 11 Coeficientes 3,651215805 0,854609929 1,50633232

| |)
Valor crtico de F 0,003895018

Suma de cuadrados 629,3733536 258,8766464 888,25 Error tpico 16,16780562 0,451664156 1,414265835

F 10,9402688

Intercepcin Estatura Edad Anlisis de los residuales Observacin

Estadstico t 0,22583249 1,892135824 1,06509843

Probabilidad 0,82637676 0,0910251 0,31457045

Inferior 95% -32,9229014 -0,167125373 -1,692959262

1 -0,414640324 Tambin es posible64,41464032 un intervalo de confianza con respecto a la respuesta obtener 2 69,13652482 1,863475177 media en un punto particular, digamos -1,565096251 est dado por: 3 54,56509625 4 5 6 7 8 9 10 11 12 73,20668693 59,28698075 56,9260385 65,71808511 58,22948328 63,15425532 48,58282675 73,85840932 65,92097264 -6,20668693 -4,28698075 1,073961499 11,28191489 -1,229483283 -7,154255319 2,417173252 2,141590679 2,079027356

Pronstico Peso

Residuos

( )

Ejercicios de regresin lineal mltiple

13.- Por qu se requiere la regresin lineal mltiple? 14.- Se realizo un estudio para investigar la relacin de la resistencia al corte del terreno ( ) con la profundidad en pies ( ) y el contenido de humedad ( ). Se hicieron 10 observaciones, obtenindose las siguientes cantidades resumidas
, , , , y , , , ,

a) Establezca las ecuaciones normales de mnimos cuadrados para el modelo b) Estime los parmetros del modelo del inciso a) c) Cul es la resistencia predicha cuando pies y ?

15.- En una empresa dedicada a anodizar artculos de aluminio (bateras de cocina), el anodizado se logra con una solucin hecha a base de cidos (sulfrico, ctrico, brico) y dicromato de aluminio. En este proceso se controla el pH de la solucin, la temperatura, la corriente y el tiempo de permanencia. Debido al poco grosor del anodizado, han aumentado las quejas por la escasa resistencia y durabilidad del producto. Para resolver este problema se decide estudiar, mediante un experimento, la relacin del pH y la temperatura con el grosor del anodizado. Los datos se muestran en la siguiente tabla:

pH 1,2 1,8 1,2 1,8 1,2 1,8 1,2 1,8 1,5 1,5

Temperatura -8 -8 8 8 -8 -8 8 8 0 0

Espesor 9 14 10 19 8 12 11 20 14 13

a) Cules son las variables independientes y cul la dependiente? Argumente b) Ajuste un modelo del tipo y anote la ecuacin del modelo ajustado c) A partir del modelo ajustado, cul es el espesor estimado cuando se utiliza un pH = 2 y una temperatura de 10 grados? d) El modelo es adecuado? Argumente con base en graficas de residuos, pruebas de hiptesis y coeficientes de determinacin. 16.- Se realiz un experimento para estudiar el sabor del queso panela en funcin de la cantidad del cuajo y la sal. La variable de respuesta observada es el sabor promedio reportado por un grupo de cinco panelistas que probaron todos los quesos y los calificaron en una escala hednica. Los datos obtenidos se muestran a continuacin:
Sal 6 5,5 4,5 4 4,5 5,5 5 5 Cuajo 0,3 0,387 0,387 0,3 0,213 0,213 0,3 0,3 Sabor 5,67 7,44 7,33 6,33 7,11 7,22 6,33 6,66

a) Ajuste el modelo b) El modelo explica la variacin observada en el sabor? Argumente con base en la
significancia del modelo, los residuales y el coeficiente de determinacin.

c) Ajuste un modelo que incluya trminos cuadrticos y analice con detalle la calidad del
ajuste aplique las pruebas de hiptesis d) Compare el error estndar de estimacin ( ( ) para ambos modelos e) Cul modelo prefiere para explicar el sabor? ) y los coeficientes de determinacin

17.- Se piensa que la energa elctrica consumida mensualmente por una planta qumica se relaciona con la temperatura ambiente promedio ( ), el nmero de das laborales del mes ( ), la pureza promedio del producto ( ) y las toneladas del producto producidas ( ). Se cuenta con los datos del ltimo ao, los cuales se presentan en la tabla siguiente:

240 236 290 274 301 316 300 296 267 276 288 261

25 31 45 60 65 72 80 84 75 60 50 38

24 21 24 25 25 26 25 25 24 25 25 23

91 90 88 87 91 94 87 86 88 91 90 89

100 95 110 88 94 99 97 96 110 105 100 98

a) Ajuste un modelo de regresin lineal mltiple a estos datos b) Prediga el consumo de electricidad para un mes en el que das y toneladas c) Calcule para este modelo. Interprete esta cantidad d) Grafique los residuales contra . Interprete la grafica

1.2.3. Uso de un software estadstico Excel


En la hoja de clculo de Excel se incluye la regresin lineal simple y mltiple; para ello, es necesario realizar la siguiente secuencia de opciones: Datos Anlisis de datos Regresin

Generalmente Excel no trae instalado la herramienta de anlisis de datos esta debe instalarse con la siguiente secuencia: 1.- En la hoja de clculo de Excel (pantalla principal) hacer click con el puntero en el smbolo del sistema localizado en el extremo superior izquierdo 2.- De la ventana desplegada hacer click en opciones de Excel

3.- De la ventana desplegada hacer click en complementos

4.- De la ventana desplegada hacer click en ir

5.- De la ventana desplegada hacer click en ir

6.- De esta ventana activar la casilla de herramientas para anlisis (palomearla) y dar click en aceptar. De esta manera hemos activado la opcin de anlisis de datos. Para capturar la tabla de datos para el anlisis de regresin lineal simple o mltiple, primeramente capturamos los datos en la hoja de clculo, posteriormente activamos Datos seguido de Anlisis de datos y seleccionamos Regresin Datos Anlisis de datos Regresin

En la ventana de captura se solicitar el rango de celdas donde se encuentran los datos para la variable dependiente Rango de entrada y para la(s) variable(s) regresora(s) Rango de entrada

Activamos la casilla de rtulos, por default est indicado en una hoja nueva, seleccionamos adems cualquiera de las opciones de residuos, grafica de residuales, y curva de regresin ajustada y aceptar.

Minitab En minitab la secuencia de captura para la regresin lineal simple o mltiple en la hoja de clculo una vez capturada las columnas de datos seleccionamos Estadsticas luego Regresin seguida de Regresin nuevamente

De la ventana desplegada en Respuesta indicamos la variable de respuesta, en este caso es resistencia y en predictor indicamos porcentaje de fibra activando tambin cualquiera de las opciones posibles, terminando en aceptar.

1.3. Regresin no lineal


Si las dos variables X y Y se relacionan segn un modelo de lnea recta, se habla de regresin lineal simple

Cuando las variables X y Y se relacionan segn una lnea curva, se habla de regresin no lineal o curvilnea. Aqu se puede distinguir entre regresin parablica, exponencial, potencial etc. Supongamos que al hacer la representacin grfica correspondiente la distribucin bidimensional, hemos obtenido la figura 6.1c. Se observa una clara relacin entre las dos variables, pero desde luego, esa relacin no es lineal. Por tanto, debemos buscar la funcin que ha de describir la dependencia entre las dos variables. Nos limitaremos al estudio de las ms utilizadas: la funcin parablica, la logartmica, la exponencial y la potencial.

Parbola de Regresin
En muchos casos, es una funcin de segundo grado la que se ajusta lo suficiente a la situacin real dada. La expresin general de un polinomio de 2 grado es:

donde a, b y c son los parmetros. El problema consiste, por tanto, en determinar dichos parmetros para una distribucin dada. Seguiremos para ello, un razonamiento similar al que hicimos en el caso del modelo de regresin lineal simple, utilizando el procedimiento de ajuste de los mnimos cuadrados, es decir, haciendo que la suma de los cuadrados de las desviaciones con respecto a la curva de regresin sea mnima: ( )

donde, siguiendo la notacin habitual, yi son los valores observados de la variable dependiente, e los valores estimados segn el modelo; por tanto, podemos escribir D de la forma: ( ) ( )

Para encontrar los valores de a, b y c que hacen mnima la expresin anterior, deberemos igualar las derivadas parciales de D con respecto a dichos parmetros a cero y resolver el sistema resultante. Las ecuaciones que forman dicho sistema se conocen

como ecuaciones normales de Gauss (igual que en el caso de la regresin lineal simple).

Funcin Exponencial, Potencial y Logartmica


El problema de ajustar un modelo potencial, de la forma y uno exponencial se reduce al de la funcin lineal, con solo tomar logaritmos. Modelo potencial: Si tomamos logaritmos en la expresin de la funcin potencial, obtendremos:

Como vemos es la ecuacin de una recta: , donde ahora . De modo que el problema es sencillo, basta con transformar Y en y X en y ajustar una recta a los valores transformados. El parmetro b del modelo potencial coincide con el coeficiente de regresin de la recta ajustada a los datos transformados, y A lo obtenemos mediante el antilog(a).

Modelo exponencial: Tomando logaritmos en la expresin de la funcin exponencial, obtendremos:

Tambin se trata de la ecuacin de una recta , pero ahora ajustndola a y a X; de modo que, para obtener el parmetro A del modelo exponencial, basta con hacer antilog(a), y el parmetro B se obtiene tomando antilog(b).

Modelo logartmico: La curva logartmica Y = a + b es tambin una recta, pero en lugar de estar referida a las variables originales X e Y, est referida a y a Y. Hemos visto, cmo, a pesar de ser inicialmente modelos mucho ms complejos que el de una recta, estos tres ltimos se reducen al modelo lineal sin ms que transformar adecuadamente los datos de partida.

También podría gustarte