Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Diagrama de dispersión
El diagrama de dispersión es una gráfica simple de puntos entre dos variables (y, x).
Sirve para evaluar el tipo y el grado de relación entre dichas variables. En cuanto al tipo
de relación, en general existen dos. La gráfica de la izquierda muestra el tipo de
relación directa o positiva en la cual, si la variable x crece, también lo hará la variable y.
En la gráfica de la derecha se presenta un tipo de relación inversa o negativa en la cual,
si la variable x crece, la variable y disminuye. También puede existir un tipo de relación
no lineal entre x y y.
.
..
. ..
.
.
..
..
..
1
.. . ... . .. .
.... .. . ... .... ...
. . .. ..........
. ..
Fuerte Débil Nulo
Se tiene un grado de relación fuerte cuando el grupo o nube de puntos está bien
alineada y no existe mucha variación o dispersión. A medida que esta asociación
empieza a hacerse más difusa o dispersa, el grado de relación empieza a disminuir
hasta ser nulo cuando la nube de puntos no apunta a ninguna dirección
t-Solid Dureza
10 4.5
11 4.2
12 3.8
13 3.6
14 3.4
15 3.0
16 2.9
17 2.4
18 2.2
19 2.1
20 1.8
2
Diagrama de dispersión
4
Dureza
10 11 12 13 14 15 16 17 18 19 20
t-Solid
Técnica usada para relacionar a través de un modelo, una variable independiente (x),
con una variable dependiente (respuesta, y).
3
Usos de un modelo de regresión
y = b0 + b1x + e
donde,
4
En la siguiente figura se muestra gráficamente los coeficientes (betas) del modelo de
línea recta de la regresión lineal simple.
b1
b0
x
Estimación de los parámetros del modelo
Los parámetros del modelo son los coeficientes betas y tienen que estimarse pues no
se conocen. Dicha estimación se hace por medio del método de mínimos cuadrados
que consiste en minimizar el error del modelo que es la distancia vertical de cada
punto a la recta ajustada de regresión. Los parámetros estimados son los siguientes:
Sxy
bˆ 1 = bˆ 0 = y - bˆ 1 x
Sxx
(Sx )(Sy) ( Sx ) 2
Sxy = Sxy - Sxx = Sx -2
n n
ŷ = bˆ 0 + bˆ 1x
De tal manera que el modelo ajustado y los estimadores de los coeficientes (betas) se
representan añadiendo un acento circunflejo encima de ellos ‘^’. Todas las sumatorias
van de 1 a n, donde n es el número de datos.
Tomando los mismos datos usados para elaborar el diagrama de dispersión, ahora se
usarán para generar el modelo de regresión. La tabla de datos la reproduce a
continuación y ahora incluye las variables correspondientes x y y.
5
La variable de respuesta es la dureza y la variable experimental es el tiempo de
solidificación. El primer paso es elevar al cuadrado la x (x-c), multiplicar x*y (xy) y
sumar todas las columnas.
6
( S x )( S y ) 165 (33 .9 )
Sxy = S xy - = 478 .9 - = - 29 .6
n 11
(S x ) 2 (165 ) 2
Sxx = S x - 2
= 2585 - = 110 .0
n 11
Sxy - 29 .6
bˆ 1 = = = - 0 .2690
Sxx 110 .0
33 .9 æ 165 ö
bˆ 0 = y - bˆ 1 x = + 0 .2690 ç ÷ = 7 .1168
11 è 11 ø
ŷ = bˆ + bˆ x = 7 .1168 - 0 .2690 x
0 1
Regression Plot
Dureza = 7.12 - 0.2690 t-Solid
4
Dureza
10 11 12 13 14 15 16 17 18 19 20
t-Solid
7
Prueba del significado de la regresión
. ..
. .. . .. . . .. . . ...
. . . . .. .. .. .
.
Si Ho no es rechazada, significa que no existe relación lineal entre x, y, y por tanto la
regresión no tiene sentido. El modelo de regresión no es significativo. Por otro lado, si
Ho es rechazada, significa que x es valiosa para explicar la variación en y, y por tanto
vale la pena aplicar un modelo de regresión (modelo significativo).
8
Revisemos el siguiente ejemplo:
Recordar que las hipótesis para esta prueba del significado de la regresión son las
siguientes:
Ho : b1 = 0 Ha : b1 ¹ 0
Los cálculos que hay que realizar para aplicar el ANOVA son los siguientes:
9
Fuentes de Variación SS gl MS F
Regresión 7.9624 1 7.9624 968.9237
Error 0.07396 9 0.008218
TOTAL 8.03636 10
Otra forma de probar la significación de los parámetros del modelo es usando las
Pruebas t:
Ho : b1 = 0 Ha : b1 ¹ 0
bˆ 1 bˆ 1 - 0.2690
t= = = = -31.1219
se(bˆ 1 ) MSE 0.008218
Sxx 110
t a / 2,n - 2 = t 0.025,9 = 2.26
‘se’ es el error estándar del estimador de beta 1. Se rechaza Ho si |t| > t tablas=2.26.
Como |t|=|-31.12|> 2.26, se rechaza Ho y por tanto el modelo de regresión es
estadísticamente significativo.
10
Ho : b 0 = 0 Ha : b 0 ¹ 0
bˆ 0 bˆ
t= = 0
se (bˆ 0 ) æ 1 (x) 2 ö
MSE çç + ÷
÷
è n Sxx ø
7 .1168
= = 53 .71
æ 1 (15 ) ö2
0 .008218 çç + ÷÷
è 11 110 ø
t a / 2 , n - 2 = t 0.025 , 9 = 2 .26
Se rechaza Ho si |t| > t tablas=2.26. Como |t|=|53.71|> 2.26, se rechaza Ho y por tanto
el término de intersección (beta 0) debe formar parte del modelo de regresión.
x (Te m p) y (Dure za )
101 49
115 44
115 46
140 38
123 43
107 47
135 41
135 38
105 47
110 45
110 43
135 37
125 44
132 40
130 39
11
El resultado en Minitab® es:
Source DF SS MS F P
Regression 1 168.37 168.37 76.63 0.000
Residual Error 13 28.56 2.20
Total 14 196.93
F(tablas)=F(0.05,1,13)=4.67
Coeficiente de determinación
SSR
R2 = r2 = 0 £ R2 £1
Syy
Se obtiene dividiendo la suma de cuadrados de la regresión (SSR) entre la suma de
cuadrados del total de datos (Syy). Su rango de valores está entre 0 y 1, o entre 0 y
100%.
12
Para el caso del tratamiento térmico:
168.37
R2 = = 0.855
196.93
Coeficiente de correlación
Sxy n å xy - å x å y
r= = = ± R2
Sxx Syy [n å x 2
][
- (å x ) 2 n å y 2 - (å y) 2 ]
-1 £ r £ 1
El rango de ‘r’ está entre -1 y 1. Cuando es negativo, indica que el tipo de relación es
inversa. Cuando es positivo, el tipo de relación es directo. Para el caso del tratamiento
térmico:
- 627.2
r= = -0.9246
(2336.4)(196.933)
Las suposiciones del modelo de regresión son las mismas que las del ANOVA:
normalidad, varianza constante e independencia de los errores y es necesario
verificarlas.
13
Ho : y = b0 + b1x + e Ha : y ¹ b + b x + e
0 1
(El modelo lineal es el adecuado) (El modelo lineal no es adecuado)
x (Temp ) y (D u reza)
101 49
115 44
115 46
140 38
123 43
107 47
135 41
135 38
105 47
110 45
110 43
135 37
125 44
132 40
130 39
El procedimiento es el siguiente:
14
El principio básico es la partición del error (SSE) en dos componentes:
Ho : y = b0 + b1x + e Ha : y ¹ b0 + b1x + e
(El modelo lineal es el adecuado) (El modelo lineal no es adecuado)
La siguiente tabla muestra los cálculos para obtener SSPE. Notar que sólo se toman
los datos replicados.
Excel:
(n-1)*var(Yij)
(45-44)2
+(43-44)2
å ( yij - yi )
2
Réplicas(x) Yij yi gl
110 45,43 44.00 2.00 1
115 44,46 45.00 2.00 1
135 41,38,37 38.67 8.67 2
SSPE 12.67 4
15
Analysis of Variance
Prueba del significado de la regresión Ho: 1=0
Source DF SS MS F P
Regression 1 168.37 168.37 76.63 0.000
Residual Error 13 28.56 2.20
(vs. F0.05, 1, 13 =4.67)
16
ANALIZAR E
INCREMENTAR
Ave. Eugenio Garza Sada 2501 Sur Col. Tecnológico C.P. 64849
Monterrey, Nuevo León | México