Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2
PRESENTACIÓN
Regresión y Correlación lineal múltiple es el décimo fascículo, de una serie de guías de estudio en las
que se desarrollan los temas de los programas de las asignaturas del área de Probabilidad y
Estadística, así como temas selectos que complementan el aprendizaje de de esta disciplina. Tienen
la característica de que el estudiante adquiera sólo aquella que trate el tema que necesite reforzar o
el que sea de su propio interés.
Estas guías de estudio pretenden reorientar y actualizar el enfoque con el que se debe abordar el
estudio de los métodos estadísticos, despertando la inquietud por aprender y resolver los problemas
y casos planteados.
Cada guía integra el desarrollo del tema con ejercicios, casos de estudio y con la sección llamada
Aprendiendo.com. En esta última sección se le proporciona al estudiante un ambiente interactivo,
utilizando los recursos disponibles en Internet, de tal forma que los casos planteados los desarrolle
en ambientes de aprendizaje que le permitan encontrarse con el conocimiento, “manipularlo”,
hacerlo suyo. Con esta filosofía se utilizan applets, sitios de internet con acceso a bases de datos
reales, software de uso libre y en general los recursos de la Web 2.0, que se refieren a una segunda
generación en la historia de la Web basada en comunidades de usuarios, que fomentan la
colaboración y el intercambio ágil de información entre los mismos.
Nuestro reconocimiento a la Dirección General de Asuntos del Personal Académico de nuestra Casa
de Estudios, que a través del Programa de Apoyo a Proyectos para la Innovación y Mejoramiento de
la Enseñanza (PAPIME) ha apoyado nuestro proyecto “Implantación de un Laboratorio Virtual de
Estadística y Elaboración de las Guías de Estudio con Soporte Multimedia” clave PE302709.
Los Autores
REGRESION Y CORRELACION LINEAL MULTIPLE
Ahora considere una variable dependiente (Y) y varias variables independientes (X1, X2,
etc.). Entonces la regresión múltiple, mide el comportamiento o actitud de la variable Y
con respecto a todas las variables X.
Ŷ= a + b1X1 + b2 X2
Donde:
Para calcular estos parámetros muestrales, efectúe las siguientes operaciones a los
valores muestrales observados:
𝑋1 𝑋2 𝑌 𝑋12 𝑋1 𝑋2 𝑋1𝑌 𝑋22 𝑋2𝑌 𝑌2
𝑋11 X21 𝑌1 2
X11 X11X21 X11𝑌1 2
X21 X21𝑌1 𝑌12
𝑋12 X22 𝑌2 2
X12 X12X22 X12𝑌2 2
X22 X22𝑌2 𝑌22
… … … … … … … … …
𝑋1𝑛 X2𝑛 𝑌𝑛 2 X1𝑛X2𝑛 X1𝑛𝑌𝑛 2 X2𝑛𝑌𝑛 𝑌𝑛2
X1𝑛 X2𝑛
Σ𝑋1 ΣX2 Σ𝑌 ΣX1 2
ΣX1X2 ΣX1𝑌 ΣX22
ΣX2𝑌 Σ𝑌2
n X1̅ ̅2
2
𝑋̅1 X̅ 2 𝑌 nX̅ 1X̅ 2 nX̅ 1𝑌̅ nX2 nX̅ 2𝑌 n𝑌̅2
Σ𝑥12 Σ𝑥1𝑥2 Σ𝑥1𝑦 Σ𝑥22 Σ𝑥2y Σ𝑦2
Donde el último renglón se obtiene de restar los dos anteriores; por ejemplo, en la
cuarta columna se tiene:
Σ𝑥 2 = ΣX 2 - n X̅ 1, y se calcula finalmente:
1 1
1 2
2
b1= (Z𝑥2) (Z𝑥1𝑦) – (Z𝑥1𝑥2) (Z𝑥2y)
𝐷
6
1) Prueba de hipótesis para el coeficiente de regresión parcial de Y sobre X1 con X2
constante en la población (β1). Se plantean las hipótesis
y se compara
donde:
𝑠𝑏 = 𝑠F •K K √Z 𝑥2/𝐷 es la variación natural del estimador b1
1 1 2 2
y se compara
tt donde:
𝑠𝑏 = 𝑠F•K K √Z𝑥2 /𝐷 es la variación natural del estimador b2
2 1 2 1
β1 = b1 ± t0 𝑠𝑏1
β1 = b2 ± t0 𝑠𝑏2
otro valor que se puede estimar es el valor individual Y, para valores de X1 y X2 dados.
Y= 𝑌^ ± t0 sY
𝑟2 + 𝑟2 − 2 𝑟Y• 𝑟Y• X 𝑟X
X
𝑟F•K K Y• X2 1 2 1• X2
Y•
1 2 =1
X
√ 1− 𝑟 2
1• X
X 2
Donde:
𝑟F•
= Σ 𝑥1y / √Z𝑥21 • Z𝑦2 Es el coeficiente de correlación lineal simple
K1
entre Y y X1.
𝑟F•
K2 = 𝑥2𝑦 / √Z𝑥22 • Z𝑦2 Es el coeficiente de correlación lineal simple
entre Y y X2.
Y sus cuadrados 𝑟2 , 𝑟2 y 𝑟2
son los coeficientes de determinación,
F •K1 F K 1 •K2
•K2
que explican el % de variación de la primer variable, debido a la regresión lineal simple
con la segunda variable.
Y y ŷ = a + b1X1+b2X2 es decir:
Ejemplo 1.
X1 0.02 0.02 0.02 0.02 0.10 0.10 0.10 0.10 0.18 0.18 0.18 0.18
X2 1.0 1.1 1.2 1.3 1.0 1.1 1.2 1.3 1.0 1.1 1.2 1.3
Y 78.9 65.1 55.2 56.4 80.9 69.7 57.4 55.4 85.3 71.8 60.7 58.9
b) ¿Cuál será la dureza, estimada puntualmente de una probeta que tenga 0.13% de
cobre y 0.9 miles de E de temperatura de aleación?
h) Calcular el intervalo de 95% de confianza para estimar la dureza de una probeta que
tiene 0.20% de cobre y 1.5 miles de E de temperatura de aleación.
Solución:
y finalmente:
b) Si
X1 = 0.13 y X2 = 0.9
Entonces:
c)
H1: β1 ≠ 0 b1 = 32.96785
0.15
𝑠𝑏1= 3.7909 √ = 16.7537
0.00768
32.96875− 0
tc =
= 1.968 con 9 g.l. y α = 0.05 ± tt = ± 2.262
16.7537
Como 1.968 está entre ± 2.262, acepte H0, es decir que el coeficiente de regresión
parcial de Y sobre X1 con X2 constante es cero, por lo tanto, el contenido de cobre no
le afecta a la dureza, con 5% de significación.
e)
b2 = -85.5
= 3.7909 √
𝑠0.0512 = 9.7881 t = −85.5−(−55) = -3.116
𝑏2 C
0.00768 9.7881
como - 3.116 es menor que – 2.821, rechace H0, es decir que β2 si ha disminuido con
1% de significación.
f)
– 21.4808 < β1 < 87.4183 grados de dureza por cada unidad de % cobre
g)
h)
𝑠F^ = 3.7909
d) Los valores estimados de dureza (𝑌^ ) para los valores dados de contenido de cobre
(X1) y temperatura de aleación (X2) y grafíquelos contra los valores reales de dureza (Y)
para observar la correlación (diagrama de dispersión).
SOLUCIÓN:
a)
𝑟F •K1
= √(0.0512)(1281.5292) = 0.2084 baja correlación lineal entre dureza y
1.688
contenido de cobre
𝑟F•K −12.825
2
= = -0.9250 alta correlación lineal entre dureza y
√(0.15)(1281.5192)
temperatura de aleación (en sentido negativo).
𝑟K1•K 0
= =0 nula correlación lineal entre contenido de cobre
2
√ (0.0512)(0.15)
y temperatura de aleación.
b)
c)
𝑟F*K K
(32.96875)(1.688)+(−85.5)(−12.825) 1152.18875
1 2 =√ 1281.5292 =√ 1281.5292 = 0.9482
d)
𝑌^ = 161.3365 + 32.96875 X1 − 85.5 X2
X1 X2 𝑌^ Y
0.02 1.0 76.50 78.9
0.02 1.1 67.95 65.1
0.02 1.2 59.40 55.2
0.02 1.3 50.85 56.4
0.10 1.0 79.13 80.9
0.10 1.1 70.58 69.7
0.10 1.2 62.03 57.4
0.10 1.3 53.48 55.4
0.18 1.0 81.77 85.3
0.18 1.1 73.22 71.8
0.18 1.2 64.67 60.7
0.18 1.3 56.12 58.9
FIGURA 1.
e)
𝑌 𝑌^ 𝑌2 𝑌 ∙ 𝑌^ 𝑌^ 2
78.9 76.50 6225.21 6035.52 5851.61
65.1 67.95 4238.01 4423.27 4616.64
55.2 59.40 3047.04 3278.65 3527.87
56.4 50.85 3180.96 2867.70 2585.30
80.9 79.13 6544.81 6401.89 6262.08
69.7 70.58 4858.09 4919.66 4982.01
57.4 62.03 3294.76 3560.71 3848.13
55.4 53.48 3069.16 2962.98 2860.47
85.3 81.77 7276.09 6975.05 6686.47
71.8 73.22 5155.24 5257.26 5361.29
60.7 64.67 3684.49 3925.52 4182.32
58.9 56.12 3469.21 3305.52 3149.55
795.7 795.7 54043.07 53913.73 53913.73
66.31 66.31 52761.54 52761.54 52761.54
n = 12 1281.53 1152.19 1152.19
𝑟F*K K
FF 1152.19 = 1152.19
= 0.9482
1 2 =𝑟 =√(1281.53)(1152.19) 1215.14
f)
𝑟F*K1K2 = 0.9482
2
𝑟F*K 1K
= 0.8991 aproximadamente 90% de la variación es explicada
2
2
1 − 𝑟F*K 1K
= 1 − 0.8991 = 0.1009
2
EJEMPLO 3
Cuando se realiza el envasado del sulfato de amonio es de gran importancia que fluya
libremente, con objeto de que las máquinas automáticas que llenan y pesan los
envases puedan funcionar correctamente. Sin embargo, a veces, los cristales se
adhieren a las paredes del conducto de alimentación. Las adherencias pueden deberse
en parte a la humedad, pero pueden también depender del % de impurezas. Para
Investigar las causas de las adherencias se realizó un ensayo que correspondía
aproximadamente a las condiciones de envasado y en el que se dejó fluir cierta
cantidad de sulfato de amonio por un pequeño conducto circular, determinándose la
velocidad de flujo.
En la siguiente tabla se dan las velocidades de flujo y otros datos de las muestras
examinadas.
X1 21 20 16 18 16 18 12 12 13 13
X2 0 0 0 0 0 1 1 0 0 0
Y 5 4.81 4.46 4.81 4.46 3.85 3.21 3.25 4.55 4.85
b) Cual será la velocidad de flujo, estimada puntualmente para sulfato de amonio con
11 unidades de humedad inicial y 0.01% de impurezas.
SOLUCIÓN:
a)
(1.6)(11.845)− (−1.8)(−1.59)
𝑏1 = 155 = 0.1038
( ) ( )
𝑏2 = 98.9 −1.59 − −1.8 (11.845) = −0.8769
155
a = 4.325 – 0.1038 (15.9) – (-0.8769) (0.2) = 2.8499
tenemos entonces:
Si X1 = 15 y X2 = 1
c)
𝑆F*K1K2 = 0.42918
d)
b1 = 0.1038
𝑆𝑏1 = 0.42918√16/155 =
0.04360
𝑡𝑐 = 0.1038 = 2.38
0.04380
H1: β2 ≠ 0
b2 = -0.87696
𝑡𝑐 = −0.87696 = 2.55
0.34282
tt con = 5% y 7 g.l. = 2.365, por tanto se rechaza H0, es decir si existe relación entre
la velocidad de flujo y él % de impurezas con el % de humedad constante.
f)
1 = b1 ± t0 𝑠𝑏1
h)
X1 = 15 X2 = 1
SOLUCIÓN
a)
b)
c)
d)
𝑟F •K K
= 0.8188 𝑟2 = (0.8188)2 = 0.6704
1 2 F •K1 K
2
HATO # 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
X1 8.7 6.0 7.0 8.0 7.7 6.0 6.3 8.0 5.0 5.7 7.7 7.0 5.3 4.7 6.3 8.0 7.0 8.7 5.3
X2 8.0 7.3 5.3 4.0 4.0 5.0 4.0 8.0 6.0 7.3 5.7 4.7 6.0 5.7 7.0 4.0 4.7 8.0 6.7
Y 77 60 72 45 44 46 49 79 60 60 56 30 56 38 47 43 18 81 53
d) ¿Es significativo el efecto del estado del equipo (X1) sobre Y cuando la calificación
de la higiene (X2) se mantiene constante?
e) ¿Es significativo el efecto de la higiene (X2) sobre Y cuando la calificación del equipo
(X1) se mantiene constante?
(37.56)(107.2)− (0.77)(303.9)
b1= 1065.74 = 3.56
(28.39)(303.9)− (0.77)(107.2)
b2 = 1065.74 = 8.02
y se tiene finalmente:
o en otros términos
% promedio estimado
b) Si
X1 = 7.0 y X2 = 8.5
entonces:
𝑌^ = -17.69 + 3.56 (7.0) + 8.02 (8.5) = 75.40% de animales libres de mastitis subclínica..
c)
𝑠F •K K
4884−(3.56)( 107.2)− (8.02)(303.9) 2065.09
1 2 =√ 19−3 = √ 16 = 11.36
d)
H0: β1 = 0 vs H1: β1 ≠ 0
ahora:
b1 = 3.56
𝑠𝑏 = 11.36 √ 37.56
= 2.13
1 1065.74
(3.56−0)
tc= = 1.67 con 16 g.l.
2.13
entonces tt = 1.75 con α = 5% para esta prueba unilateral y se observa que se tiene una
evidencia de peso moderado a favor del efecto del estado del equipo sobre el % de
animales libres de mastitis subclínica (aunque no llega a ser significativo al nivel 5%).
e)
b2 = 8.02
𝑠𝑏 = 11.36 √ 28.39
= 1.85
2 1065.74
(8.02−0)
tc = 1.85 = 4.33
lo cual es significativo al nivel α = 0.0005, reflejando una relación muy definida entre %
libre de mastitis subclínica e higiene.
f)
entonces:
t = 2.12
y se tiene:
tt = 1.729
X1= 6.0
X2= 5.0
𝑠F^ = 11.36
entonces:
EJEMPLO 6
a)
𝑟FK1 107.2 = 0.29 correlación moderada entre Y y equipo.
= √(28.39)
(4884)
𝑟F
K = 0.71 correlación altamente significativa entre Y e higiene.
303.9
2 = √(37.56)(4884)
b)
𝑟F∙K1K2
(0.29)2+(0.71)2−2(0.29)(0.71)(0.02)
=√ (1−0.02) = 0.77
c) 𝑟F∙K K (3.56)(107.2)+(8.02)(303.9)
1 2 =√ (4884) = 0.76
que son iguales excepto por errores de redondeo (el último es más preciso, ya que se
utilizaron más dígitos significativos).
EJEMPLO 7
𝑋1 X2 𝑌
0.80 0.80 0.92
0.80 0.60 0.93
0.80 0.40 0.94
0.70 0.80 0.88
0.70 0.60 0.90
0.70 0.40 0.91
0.60 0.80 0.84
0.60 0.60 0.87
0.60 0.40 0.89
a) Encontrar la ecuación del plano de regresión de Y sobre X1 y X2, para la muestra dada.
b) ¿Cuál será el factor de expansión, estimado puntualmente, para una relación de presión
X1 = 0.90 y una relación de diámetros X2 = 0.10?
c) Calcular el error estándar de regresión lineal múltiple de Y sobre X1 y X2.
d) Si se mantiene constante la relación de diámetros (X2), ¿usted afirmaría que la relación
de presión (X1) no afecta al factor de expansión con un nivel del 5% de significancia?, a
partir de la muestra dada.
e) Si se conserva constante la relación de presión (X1), ¿usted afirmaría que la relación de
diámetros (X2) afecta al factor de expansión con un nivel del 5% de significancia?, a
partir de la muestra dada.
f) Encontrar el intervalo de 95% de confianza para estimar el coeficiente de regresión
parcial del factor de expansión (Y) sobre la relación de presión (X1), con una relación de
diámetros constante.
g) Encontrar el intervalo de 95% de confianza para estimar el coeficiente de regresión
parcial del factor de expansión (Y) sobre la relación de diámetro (X2), con una relación
de presión constante.
h) Calcular el intervalo de 95% de confianza para estimar el factor de expansión para el
caso de una relación de presión X1 = 0.75 y una relación de diámetros X2 = 0.70.
Solución:
𝑏1 = (0.24)(0.019)−(0)(−0.016)
(∑ 𝑥22)(∑ 𝑥1𝑦)−(∑ 𝑥1𝑥2) (∑ 𝑥2𝑦) = 0.3167
𝐷 = 0.0144
𝑆F∙K1K2
(0.0074) − (0.3167)(0.019) − (0.0667)(−0.016)
=√ 9−3 = 0.0075
d)
H0: β1 = 0 H1: β1 ≠ 0
b1 = 0.3167
𝑠𝑏
= 𝑠F•K K √∑ 2X2 = 0.0075 √ = 0.03068
0.24
1 1 2 𝐷
0.9048
(0.3167−0)
tc= = 10.323
0.03068
con 6 g.l. y α = 5% se obtiene ± tt = ± 2.447
como 10.323 no está entre ± 2.447, se rechaza H0, es decir, que el coeficiente de
regresión parcial de Y sobre X1, con X2 constante, es diferente de cero, por lo tanto, la
relación de presión afecta al factor de expansión.
e)
H0: β2 =0 H1: β2 ≠ 0
b2 = -0.0667
𝑠𝑏 ∑ 2𝑥
2
.06
= 𝑠F•K1K2 √ = 0.0153
2 𝐷 0.0144
(−0.0667−0)
tc= 0.0153 = −4.359
como -4.359 no está entre ± 2.447, se rechaza H0, es decir, que el coeficiente de
regresión parcial de Y sobre X2, con X1 constante, es diferente de cero, por lo tanto, la
relación de diámetros afecta al factor de expansión.
f)
h)
X1 = 0.75 X2 = 0.70
EJEMPLO 8
d) Los valores estimados del factor de expansión (𝑌^ ) para los valores dados de la
relación de presión (X1) y la relación de diámetros (X2) y graficarlos contra los valores
dados del factor de expansión (Y) y observar la correlación mediante un diagrama de
dispersión.
SOLUCION
a)
𝑟F •K
𝑥2𝑦 − 0.016 = −0.379 baja correlación lineal entre el factor
2 = = √( 0.24)(0.0074)
√(𝑥22)(𝑦2)
𝑟K1•K
∑𝑥1𝑥 0 =0 no existe correlación lineal entre la
2 = √(∑𝑥2) (∑𝑥
2 2
) = √(0.06)(0.24)
1 2
alta correlación lineal del factor de expansión sobre la relación de presión y la relación
de diámetros.
c)
𝑏 ∑𝑥 𝑦+ ∑𝑥
𝑦 0. )(0.019)+ (−0.0667)(−0.016))
=√
((3167
𝑟F•K K = √ 1 1 2 2
= 0.9769
1 2 ∑𝑦2 0−0074
d)
𝑌̅ = 0.8956
e)
f)
𝑟F •K1K2 = 0.9769
𝑟2 = 0.9543 1 − 𝑟2 = 1 − 0.9543 = 0.0457
F •K1K2 F •K1K2
El porcentaje de variación explicada es de 95.43% y el porcentaje de variación no
explicada es de 4.57%, el cual puede se debido a transmisiones de calor a través de la
tubería, variaciones de densidad, temperatura, etc.
A) REGRESIÓN NO LINEAL.
1) TRANFORMACIÓN A LINEAL.
Y = a + b X donde:
∑ 𝑥𝑦
b = ∑ 𝑥2 a = 𝑌̅ – b X̅
Y además:
𝑠F •X √∑ 𝑦2− 𝑏 (∑ ; 𝑠𝑏 = 𝑠Y•X
=
𝑥𝑦) √𝑥2
𝑛−2
𝑆F= 𝑆F •X ∙ aproximadamente
2) REGRESIÓN POLINOMIAL.
Y = a + b X + c X2 + d X3 + … + m X𝑘
E (Y) = α + β X + γ X2
𝑌^ = a + b X + c X 2
Donde:
b Es el coeficiente de linealidad, y
X Y 𝑋2 𝑋3 𝑋4 XY X2Y Y2
X1 Y1 X12 X13 X14 X1𝑌 X21𝑌1 𝑌12
X2 Y2 X22 𝑌22
X23 X24 1 X2𝑌
2 2
… … … … … … X2𝑌2 … …
Xn Yn
X𝑛2 X𝑛3 X𝑛4 X2𝑌 𝑌𝑛2
𝑛 𝑛
X𝑛𝑌𝑛
X Y X 2
X 3
X 4
XY X2𝑌 𝑌2
� � 1
( ∑ X )2 1
(∑ X)(∑ X)2 1
(∑ X2)2 1
(∑ X)(∑ 𝑌) 1
(∑ X2)(∑ 𝑌) 1
(∑ 𝑌)2
� � 𝑛 𝑛 𝑛 𝑛 𝑛 𝑛
̅ ̅
𝑥2 𝑥3 𝑥4 xy x2𝑦 𝑦2
∑ 𝑥2𝑦 = ∑ X2𝑌 - 1
(∑ X2) (∑ 𝑌)
𝑛
Y se calcula:
a = 𝑌̅ – b X̅ - c (∑ X 2 )/n
Y se compara
t c=
𝑏−0 (u otro valor con t t )
𝑠𝑏
Donde:
Y se compara:
t c=
𝑐−0 (u otro valor con t t )
𝑠𝑏
Donde:
β = b ± t0 sb
γ = c ± t 0 sc
e) Intervalo de confianza para estimar un valor individual Y, para un valor de X
dado.
Y = 𝑌^ ± t 0 sY
P<1
a>0
Y = a – b ∙ pX
b>0
X
Y CURVA DE CRECIMIENTO LOGISTICO
P<1
a>0
Y = a/ (1+b ∙ pX)
b>0
B) CORRELACIÓN NO LINEAL.
Si se quiere medir el grado de relación no lineal mutua entre dos variables, se calcula el
coeficiente de correlación no lineal muestral que es:
𝑉𝐴𝑅𝐼𝐴𝐶𝐼Ó𝑁 𝐸K𝑃𝐿𝐼𝐶𝐴𝐷𝐴
r = √𝑟2 = √
𝑉𝐴𝑅𝐼𝐴𝐶𝐼0𝑁 𝑇0𝑇𝐴𝐿
𝑉𝐴𝑅𝐼𝐴𝐶𝐼Ó𝑁 𝑁0 𝐸K𝑃𝐿𝐼𝐶𝐴𝐷𝐴
= √1 −
𝑉𝐴𝑅𝐼𝐴𝐶𝐼Ó𝑁 𝑇0𝑇𝐴𝐿
∑(F^ − F̅ )2
√r = ∑(F− ∑(F− F^ )2
= √1 − ∑(F− F)
F̅ )2 ̅ 2
Y Indica los valores observados.
NOTA: el método anterior es general, pues los valores 𝑌^ pueden estar estimados con
cualquier relación funcional, pero se puede simplificar mucho en los siguientes casos:
𝑏 (∑ 𝑥𝑦 )+𝑐(∑ 𝑥2𝑦)
r=√
∑ 𝑦2
EJEMPLO 1
Solución:
Y=a+Xb
Y = log V a = log A
X=R b = log B
R V X Y X2 XY Y2
1 98.2 1 1.9921 1 1.9921 3.9685
2 91.7 2 1.9624 4 3.9247 3.8509
5 81.3 5 1.9101 25 9.5505 3.6484
10 64.0 10 1.8062 100 18.0618 3.2623
20 36.4 20 1.5611 400 31.2220 2.4370
30 32.6 30 1.5132 900 45.3965 2.2898
40 17.1 40 1.2330 1600 49.3198 1.5203
50 11.3 50 1.0531 2500 52.6539 1.1090
158 13.0311 5530 212.1214 22.0863
19.75 1.6289 3120.5 257.3651 21.2263
2409.5 -45.2437 0.8599
b= −45.2437
= - 0.0188
2409.5
𝑌^ = 1. 9997 – 0.0188 X
X=0 𝑌^ =
1.9997
R=0 V = 99.9408
X = 50 𝑌^ = 1.0609
R = 50 V = 11.5051
A = antilog a A = antilog 1.9997 = 99.9408
R=X V = antilog Y
b) Figura 1
c) V = 99.9408 x 0.9577R
0.8599−(−0−0188)(−45.2437) 0.0104
d) sYX = √ =√ = 0.0416
8−2 6
e) Si R = 18.5 X = 18.5
O también
FIGURA 1
b = -0.0188 sb = 0.0008
Si R = 35 X = 35 ,
Entonces
EJEMPLO 2
X 0 1 2 3 4 5 6 7 8
Y 12.0 10.5 10.0 8.0 7.0 8.0 7.5 8.5 9.0
a) Dibujar un diagrama de dispersión.
b) Calcular la ecuación de la parábola que se ajusta a los puntos de la muestra y
dibujarla en el diagrama.
c) ¿Qué tiempo tardara en secar una pintura que tenga 10gr de barniz, estimado
puntualmente?
d) Calcular el error estándar de regresión parabólica de Y sobre X para la muestra
dada.
e) Probar con el 1% de significación, si al tiempo de secado, le afecta la cantidad
de barniz en forma lineal y en forma no lineal.
f) Si en el inciso anterior, los coeficientes de linealidad (β) y de curvatura de 2°
grado (y) poblacionales, resultan significativos, estimarlos mediante intervalos de
95% de confianza.
g) Estimar con un intervalo de 90% de confianza, el tiempo que tarda en secar una
pintura que tiene 4.5 gr de barniz.
SOLUCIÓN:
a) Ver figura 2
b) La ecuación 𝑌^ = a + b X + c X2 se obtiene con las siguientes operaciones de
los valores observados.
X Y X2 X3 X4 XY X2Y Y2 𝑌^
0 12.0 0 0 0 0 0 144.0 12.18
1 10.5 1 1 1 10.5 10.5 110.25 10.52
2 10.0 4 8 16 20.0 40.0 100.00 9.22
3 8.0 9 27 81 24.0 72.0 64.00 8.29
4 7.0 16 64 256 28.0 112.0 49.00 7.73
5 8.0 25 125 625 40.0 200.0 64.00 7.52
6 7.5 36 216 1296 45.0 270.0 56.25 7.69
7 8.5 49 343 2401 59.5 416.5 72.25 8.22
8 9.0 64 512 4096 72.0 576.0 81.00 9.12
36 80.5 204 1296 8772 299 1697 740.75
4 8.9444 144 816 4624 322 1824.6667 720.0278
n=9 60 480 44148 -23 -127.6667 20.7222
FIGURA 2
Y se calcula
c) Si X = 10 entonces:
d)
20.7222− (−1.8465)(−23)− (0.1829)(−127.6667) 1.6022
sY∙X =√ = √ = 0.5167 horas
9−3 6
e)
H0: 𝛽 = 0 R. de D. si tc está entre ± tt aceptar H0
H1: 𝛽 ≠ 0 b = -1.8465
S = 0.5167 √ 4148
b 18480 = 0.2448
Como -7.542 no está entre ± 3.707, se rechaza H0, es decir que el coeficiente de
linealidad poblacional no es cero por lo tanto, el tiempo de secado le afecta linealmente
a la cantidad de barniz.
H0: γ = 0 R. de D. si tc está entre ± tt aceptar H0
H1: γ ≠ 0 c =0.1829
Sc = 0.5157√60/18480 = 0.0294
tc = (0.1829 – 0) 10.0294 =
6.212
Como 6.212 no está entre ± 3.707 rechace H0, es decir que el coeficiente de curvatura
de 2° grado poblacional no es cero, por lo tanto, al tiempo de secado le afecta también
no linealmente la cantidad de barniz.
95% de confianza
6 g. l. to=2.447
b = -1.8465
sb = 0.2448
-2.4456 < β < -1.2475 horas de secado por cada gramo de barniz.
c = 0.1829
6 g. l. t0 = 1.943
Si X = 4.5
sY = 0.5167
aproximadamente
EJEMPLO 3
a) n=9
b = -1.8465
c = 0.1829
∑𝑥𝑦 = −23
∑𝑥2𝑦 = −127.6667
∑𝑦2 = 20.7222
(−1.8465)(−23)+ (0.1829)(−127.6667)
r=√ 20.7222
= √19.1201 = 0.9606
20.7222
EJEMPLO 4
X 9 12 15 22 25 34 38 70 77 80
Y 325 264 200 151 122 93 70 59 54 50
a) Dibujar un diagrama de dispersión.
b) Calcular la ecuación de la parábola que se ajusta a los puntos de la muestra y
dibujarla en un diagrama.
c) Estimar las partes por millón de un acero que contenga 90 puntos de carbono.
d) Calcular el error estándar de la regresión parabólica de Y sobre X para la
muestra dada.
e) Probar con un nivel del 5% de significación, si el contenido de carbono afecta en
forma lineal y en forma no lineal al contenido de oxígeno en el acero líquido.
f) Si en el inciso anterior, los coeficientes de linealidad (β) y de curvatura (γ)
poblacionales, resultan significativos, estimarlos mediante intervalos de 95% de
confianza.
g) Estimar con un intervalo de 95% de confianza, las partes por millón de oxígeno
de un acero con 60 puntos de carbono.
Solución:
a) Ver figura 3
b) La ecuación 𝑌^ = a + b X + c X2 se obtiene con las siguientes operaciones de
los valores observados.
FIGURA 3
X Y X2 X3 X4 XY X2Y Y2 𝑌^
9 325 81 729 6561 2925 26325 105625 291.83
12 264 144 1728 20736 3168 38016 69696 259.32
15 200 225 3375 50625 3000 45000 40000 228.78
22 151 484 10648 234256 3322 73084 22801 165.32
25 122 625 15625 390625 3050 76250 14884 141.45
34 93 1156 39304 1336336 3162 107508 8649 81.83
38 70 1444 54872 2085136 2660 101080 4900 61.12
70 48 4900 343000 24010000 3360 235200 2304 23.19
77 43 5929 456533 35153041 3311 254947 1849 45.20
80 40 6400 512000 40960000 3200 256000 1600 57.96
∑382 135.6 21388 1437814 104247316 31158 1213410 272308
38.2 135.6 14592.4 817021.6 45744654.4 51799.2 2900212.8 183873.6
n=10 6795.6 620792.4 58502661.6 -20641.2 -1686802.8 88434.4
Y se calcula
(−20641.2)(58502661.6)− (−1686802.8)(620792.4)
b= 12177483271.2 = −13.173
(−1686802.8)(6795.6)− (−20641.2)(620792.4)
c= 12177483271.2 = 0.111
c) Si X = 90 entonces:
e) H0 : β = 0 H1 : β ≠ 0
b = -13.173
sb = sY∙X √∑ 𝑥4/𝐷 = 23.186 √58502661.6/12177483271.2= 5.082
Como -2.592 no está entre ± 2.365, se rechaza H0, es decir que el coeficiente de
linealidad poblacional no es cero, por lo tanto, el contenido de carbono afecta
linealmente al contenido de oxigeno libre en el acero líquido.
H0 : γ = 0 H1 : γ ≠ 0
c = 0.111
= 0.0173
Como 6.409 no esta entre ± 2.365, se rechaza H0, es decir, que el coeficiente de
cuadratura de segundo grado poblacional no es cero, por lo tanto, el contenido de
carbono afecta no-linealmente al contenido de oxigeno libre en el acero.
Y = 𝑌^ ± t0 SY•X
Como no es posible obtener una cantidad negativa de ppm de oxigeno, el intervalo es:
Ejemplo 5
a) n = 10 𝑌^ = 135.6
r = √84589.09/88434.40 = 0.978
b) r2 = 0.9566
El 95.66% de la variación en el contenido de oxigeno (ppm) es explicada por los puntos
de carbono del acero.
b= -13.173 c = 0.111
Entonces:
(−13.173)(−20641.2)+ (0.111)(−1686802.8)
r= √ = 0.978
88434.4
EJEMPLO 6
Por lo mencionado y por pláticas con los ingenieros químicos de la fábrica, se supuso
que una relación hiperbólica que pudiera resultar satisfactoria es:
ZY=K
Donde:
Z = puntos de carbono
Y = ppm de oxigeno
K = constante
Si se efectúa la transformación X = 1
Z
se obtiene la relación:
Y= b X, donde b = K
Que es la ecuación de una recta; y para los datos del ejemplo 2 se pide:
c) Estimar las partes por millón de un acero que contenga 90 puntos de carbono.
g) Estimar con un intervalo de 95% de confianza, las partes por millón de oxígeno de
un acero con 60 puntos de carbono.
Solución:
a) Ver figura 4
b) La ecuación:
Y=bX ; X = 1/Z
Z X Y X2(*) XY Y2
9 0.111 325 0.012 36.111 105625
12 0.083 264 0.007 22.000 69696
15 0.067 200 0.004 13.333 40000
22 0.045 151 0.0021 6.864 22801
25 0.040 122 0.0016 4.880 14884
34 0.029 93 0.0009 2.735 8649
38 0.026 70 0.0007 1.842 4900
70 0.014 48 0.0002 0.686 2304
77 0.013 43 0.0002 0.558 1849
80 0.013 40 0.0002 0.500 1600
0.4421 1356 0.0295 89.5096 272308
0.04421 135.6 0.0195 59.9441 183873.6
0.009945 29.5655 88434.4
FIGURA 4.
(*) Los cálculos fueron hechos en una calculadora y no aparecen indicadas todas las
cifras significativas tomadas en cuenta.
Y = 2972.9 X
Y la ecuación original es:
𝑌^ Z = 2972.9
O equivalente:
𝑌^ = 2972.9 / Z
Obsérvese que las ppm de oxígeno con 90 puntos de carbono son inferiores a las
observadas con 80 puntos de carbono.
88434.4−(2972.9)(29.5655)
d) sY∙X = √ = 8.21
10−2
e) H0 : β = 0 ; H1 : β ≠ 0
b = 2972.9 sb = sY∙X / √∑ 𝑥2 = 8.21 / √0.009945 = 82.32
b = 2972.9 sb = 82.32
SY ≈ sY∙X = 8.21
Si Z = 60 entonces:
Y = 297.9 / 60 = 49.5
Por lo tanto,
EJEMPLO 7
𝑟 = √Z𝑥2 ∙ Z𝑦2/(Z𝑥𝑦)2
b) Calcular el coeficiente de correlación no lineal por el método general, para la
muestra dada.
c) De una explicación de la diferencia que existe entre los coeficientes de
correlación calculados en los incisos (a) y (b).
d) ¿Qué porcentaje de la variación es explicada?
e) ¿Qué porcentaje de la variación es no explicada?
f) ¿Qué conclusiones se pueden obtener al comparar los resultados obtenidos en
este ejemplo, respecto a los resultados del ejemplo 5.
Solución:
𝑌^ = 2972.9/𝑍
2
𝑌 𝑌^ 𝑌^ − 𝑌̅ (𝑌^ − 𝑌̅) 𝑌 − 𝑌̅ (𝑌 − 𝑌̅2)
325 330.3 194.7 37908.1 189.4 35872.4
264 247.7 112.1 12566.4 128.4 16486.6
200 198.2 62.6 3918.8 64.4 4147.4
151 135.1 -0.5 0.3 15.4 237.2
122 118.9 -16.7 278.9 -13.6 185.0
93 87.4 -48.2 2323.2 -42.6 1814.8
70 78.2 -57.4 3294.8 -65.6 4303.4
48 42.5 -93.1 8667.6 -87.6 7673.8
43 38.6 -97.0 9409.0 -92.6 8574.8
40 37.2 -98.4 9682.6 -95.6 9139.4
1356 -41.9 88049.6 0 88434.4
2
Obsérvese que (𝑌^ − 𝑌̅) es diferente de cero y esto es debido a que la
transformación hecha supone que la recta pasa por el origen, pero se utilizaron
fórmulas para una relación del tipo:
Y = a + bX
88434.4
𝑥2 • 𝑦2
𝑟=√
𝑥𝑦2
solo sirve para calcular la correlación lineal entre dos variables que tienen una ecuación
de regresión del tipo:
Y = a + bX
y por lo explicado en el inciso anterior, queda claro que la forma correcta de hacer el
cálculo es por el método general.
d) r2 = 0.9956
el 99.56% de la variación en el contenido de oxígeno (ppm) es explicada por los puntos
de carbono del acero.
e) 1- r2 = 1- 0.9956 = 0.0044
EJEMPLO 8
Los datos de la tabla representan el número de bacterias (en cientos) que sobreviven
por irradiación por rayos X (200 kilovoltios) durante 1 a 15 períodos de 6 minutos cada
uno en un experimento. El propósito del experimento fue probar la hipótesis de choque
único de la acción de rayos-X. Según esta teoría, existe un único centro vital en cada
bacteria al cual le tiene que pegar un rayo antes de que se muera la bacteria. De
hecho, esto indica que en cualquier momento el número de bacterias que se mueren es
proporcional al número de bacterias vivas. Entonces un poco de ecuaciones
diferenciales dan la siguiente relación funcional.
𝑛𝑡 = 𝑛𝑜𝑒𝛽𝑡, 𝑡≥0
= la razón de destrucción.
Si se toman logaritmos (naturales) de ambos lados de esta ecuación se
obtiene:
ln 𝑛𝑡 = ln 𝑛0 + 𝛽𝑡
= 𝛼 + βt
FIGURA 5
a) Estimar los parámetros α y β.
b) En las escalas transformadas, haga el diagrama de dispersión y trace la recta de
mínimos cuadrados que se encontró en el inciso a.
c) ¿Cuál es la ecuación original?
d) Estimar el número de bacterias nt, que sobreviven una irradiación de 45 minutos
(7.5 períodos).
e) Calcular el error estándar de ajuste.
f) Calcular un intervalo de confianza para la razón de destrucción β (nivel de
confianza 95%).
g) Para el inciso d) calcular los límites de confianza (90%) para esta estimación.
Solución:
ln nt = 5.975 – 0.218
t FIGURA 6
b) Ver figura 6
Por lo tanto:
𝑛^ 𝑡 = 𝑛^ 𝑜 • 𝑒 𝑏𝑡 = 393.438𝑒 − 0.218𝑡
d) t = 7.5 períodos
e)
g) Con 90% y 13 g.l., tt= 1.771 y se hace el intervalo primero en las escalas
transformadas.
Entonces
Nota: El excelente ajuste del modelo con los datos transformados según la teoría de
choque único corrobora la validez de esta teoría.
EJEMPLO 9
a)
− 61.175
𝑟ln 𝑛𝑡, = √(13.531) = −0.994
(280)
b)
es decir 98.8% de la variación es explicada y queda únicamente 1.2% por explicar que
bien puede ser debido a “error experimental” en las cuentas de las bacterias, la
preparación del material, etc. Así que se tiene un modelo excelente para describir el
número de bacterias sobrevivientes y puesto que el modelo fue deducido bajo la
hipótesis de choque único se tiene una confirmación de esta teoría en base al
experimento.
EJEMPLO 10
d) Estimar el rendimiento que tendré una parcela fertilizada a razón de 260 kg/Ha (2.6
unidades).
Solución:
a) Ver la figura 7
b) Se observa en el diagrama de dispersión que la respuesta al nitrógeno parece
ser lineal en un rango desde 80 hasta 240 ó posiblemente 320 kg/Ha nivel en el
cual ya hay un cambio y se observa que el rendimiento promedio en 400 kg/Ha
es menor que él de 320. Esto está de acuerdo con la ley de Mitscherlich que
postula solo un pequeño o nula respuesta adicional al fertilizante cuando se
acerca al óptimo fisiológico de la planta. Por lo tanto ajustar una recta no es tan
adecuado como una parábola (polinomio de 2º. grado) que puede modelar más
adecuadamente este comportamiento cerca del máximo.
c) La ecuación Y = a + bX + cX2 se obtiene en base a las siguientes operaciones
con los valores observados:
𝑋 𝑌 𝑋2 𝑋3 𝑋4 𝑋𝑌 𝑋2𝑌 𝑌2
0.8 5.24 0.64 0.512 0.4096 4.192 3.3536 27.4576
0.8 5.42 0.64 0.512 0.4096 4.336 3.4688 29.3764
1.6 5.80 2.56 4.096 6.5536 9.280 14.8480 33.6400
1.6 5.39 2.56 4.096 6.5536 8.624 13.7984 29.0521
2.4 7.05 5.76 13.824 33.1776 16.920 40.6080 49.7025
2.4 7.57 5.76 13.824 33.1776 18.168 43.6032 57.3049
3.2 7.63 10.24 32.768 104.8576 24.416 78.1312 58.2169
3.2 8.19 10.24 32.768 104.8576 26.208 83.8656 67.0761
4.0 7.46 16 64.000 256.0000 29.840 119.36 55.6516
4.0 6.69 16 64.000 256.0000 26.760 107.04 44.7561
24 66.44 70.4 230.400 801.9968 168.744 508.0768 452.2342
2.4 6.644 57.6 168.960 495.616 159.456 467.7376 441.4274
12.8 61.44 306.3808 9.288 40.3392 10.8068
FIGURA 7
y se calcula:
d) Si X = 2.6 entonces
f) 𝑠𝑏 = 0.5974√306.3808/146.80 = 0.8630
y tt = 1.895 con 7 g.l. y nivel 90%
𝛽 = 2.501 ± (1.895)(0.8630) = 2.5015 ± 1.6354 ó
0.8661 < 𝛽 < 4.1369 con 90% de confianza.
𝑠𝑐 12.8
= 0.597√ = 0.1764
146.8
F = −0.37 ± (1.895)(0.1764) = −0.37 ± 0.3343 ó
Y = 7.2479 entonces
= 7.2479 ± 1.222 ó
Es decir el rendimiento de una parcela fertilizada a razón de 260 kg/Ha estará entre 6.026 y
8.470 ton/ha con 95% de confianza.
EJEMPLO 11
X Y
Concentración Diámetro
de penicilina del
en solución círculo
1 15.87
2 17.78
4 19.52
8 21.35
16 23.13
32 24.77
De estudios anteriores se conoce que tomando logaritmo de base 2 de la concentración, la
relación entre concentración y diámetro del círculo de inhibición se linealiza.
Solución:
a) Se tiene que:
𝑌 = 𝑎 + 𝑏 𝑙𝑜𝑔2 X
Entonces:
𝑌^ = 𝑎 + 𝑏X *
Donde:
X* = 𝑙𝑜𝑔2 X
Entonces se efectúa la transformación de los datos originales y se tiene:
𝑋 𝑋* 𝑌 𝑋*2 𝑋*𝑌 𝑌2
1 0 15.87 0 0 25.8569
2 1 17.78 1 17.78 316.1284
4 2 19.52 4 39.04 381.0304
8 3 21.35 9 64.05 455.8225
16 4 23.13 16 92.52 534.9969
32 5 24.77 55 123.85 613.5529
15 122.42 55 337.24 2553.388
2.5 20.40 37.5 306.05 2497.776
17.5 31.19 55.612
𝑌^ = 15.944 + 1.78228
X*
b) Ver Figura 8
c) 𝑆F∙K = √[55.612 − 1.78228(31.19)]/4 = 0.07531
d) Si
Y = 20.08 mm
De la ecuación de la recta despejando X* se tiene:
20.08 − 15.944
X* = 1.78228
X* = 2.32
X* = 2.32 = 𝑙𝑜𝑔2X
e) H0: β = 0
H1: β ≠ 0
b = 1.78228
𝑆𝑏 = 0.07531 = 0.018
√17.5
Regla de decisión: si tc esta entre ± tt aceptar H0.
𝑡𝑐 1.78228
= 0.018 = 99
Con α = 5% y 4 g.l. se obtiene ± tt = 2.78
Como tc = 99 no se encuentra entre ± tt rechazar H0, esto es que el coeficiente de
regresión no es cero y sí hay relación entre concentración y diámetro de inhibición.
b = 1.78228
FIGURA 8
EJEMPLO 12
Los datos que aparecen enseguida son los rendimientos mensuales en una fábrica de
gas de agua. Se burbujea vapor de agua y aire alternadamente a través de carbón de
coque para producir una mezcla gaseosa, cuyos principales componentes son
nitrógeno, hidrógeno y monóxido de carbono. La medida del rendimiento es el coque
consumido por cada 1000 m3 de (H2 + CO) producido.
X Y
Proporción aire/vapor Consumo mensual de coque
(1000m3 de aire/ton. de vapor) (unidades de coque/1000 m3 de H2 + CO
producido)
2.11 120
2.32 128
2.22 114
2.19 141
1.99 78
1.62 31
1.76 51
1.23 50
1.42 50
1.26 40
g) Estimar con un intervalo del 95% de confianza el consumo de coque para una
relación de 1.45 x 1000m3 de aire/ton. de vapor.
SOLUCION
a) Ver figura 9
FIGURA 9
b)
𝑋 𝑌 𝑋2 𝑋3 𝑋4 𝑋𝑌 𝑋2𝑌 𝑌2
2.11 120 4.4521 9.3939 19.8211 253.20 534.252 14400
2.32 128 5.3824 12.4871 28.9702 296.96 688.9472 16384
2.22 114 4.9284 10.9410 24.2891 253.08 561.8376 12996
2.19 141 4.7961 10.5034 23.0025 308.79 676.2501 19881
1.99 78 3.9601 7.8805 15.6823 155.22 308.8876 6084
1.62 31 2.6244 4.2515 6.8874 50.22 81.3564 961
1.76 51 3.0976 5.4517 9.5951 89.76 157.9776 2601
1.23 50 1.5129 1.8608 2.2888 61.50 75.645 2500
1.42 50 2.0164 2.8632 4.0658 71.00 100.820 2500
1.26 40 1.5876 2.0003 2.5204 50.40 63.504 1600
18.12 803 34.358 67.6334 137.1227 1590.13 3249.4775 79907
1.812 80.3 32.83344 62.25566 118.0472 1455.036 2758.9474 64480.9
1.52456 5.37834 19.0755 135.094 490.5301 15426.1
c) Si
X = 1.45
Entonces:
e) H0: = 0
H1: ≠ 0
b = -394.6653
tc = 394.6653/164.679 = 2.396
H0: y = 0
H1: y≠ 0
Regla de decisión: si tc está entre ± tt aceptar H0
c = 136.9916
c
0.1522
136.9916
tc= 46.5556= 2.94
Como tc= 2.94 no está entre ± tt = 2.37 rechazar H0 , es decir, que el coeficiente de
curvatura de 2º grado poblacional no es cero, por lo tanto al consumo de coque le
afecta no linealmente la relación aire/vapor.
-784.9545 < < -4.37607 unidades de trabajo por cada 1000 m3 de aire
por tonelada de vapor.
c = 136.9916 sc = 46.5556
g) Si
𝑌^ = 40.5178
EJEMPLO 13
a)
31.19
r = √(17.5)(55.612) = 0.99979
b)
r2 = (0.99979)2 = 0.9995
c)
1-0.9995 = 0.0005