Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ANÁLISIS DE REGRESIÓN
Nota: La palabra regresión la utilizó por primera vez Sir Francis Galton en 1877
en su estudio de los factores hereditarios. Descubrió que las estaturas de los
descendientes de padres altos, tendían a una regresión (es decir a volver o
retornar) hacia la estatura promedio de la población.
Y ' = a + bX
En donde:
X
es cualquier valor seleccionado para la variable independiente.
n( ∑ XY ) − (∑ X )(∑ Y )
b=
n( ∑ X 2 ) − ( ∑ X ) 2
∑Y ∑X
a= −b
n n
o bien
a = Y − bX
X Y X2 XY Y2
1,007 781.2
a= − 1.02( ) = 100.7 − 1.02(78.12) = 21.03
10 10
Para un varón adulto que tenga un peso de 80.0 kg, podríamos estimar su
nivel de glucosa, sustituyendo el valor del peso en la ecuación de la recta de
regresión encontrada:
Por lo que, por los puntos P(60.0, 82.22) y P(100.0, 123.01) se puede trazar la
recta de regresión
En el diagrama de
dispersión anterior, se
puede observar que no
todos los puntos están
sobre la recta de regresión,
lo cual indica que al realizar
el pronóstico de la variable
dependiente Y, no
tendríamos una exactitud
del 100%, sino que habría
un error, es decir que, la
estimación del nivel de glucosa no es exacta, con base en el peso de los
varones adultos. En el caso hipotético de que todos los puntos estuvieran
sobre la recta de regresión, el pronóstico sería exacto.
∑(Y − Y ' ) 2
S y. x =
n−2
o bien
(∑Y)2 (∑X)(∑Y)
∑Y2 − −b[∑XY− ]
Sy.x = n n
n −2
Podemos ver en las fórmulas anteriores que el denominador del radical es n-2,
en lugar de n-1 como era para el caso de la desviación estándar; lo anterior
obedece a que para encontrar los valores a y b en la recta de regresión, son
dos incógnitas en el sistema de dos ecuaciones lineales normales, lo cual
también podríamos explicar diciendo que así como para calcular la desviación
estándar se necesitan como mínimo dos valores, para calcular el error estándar
de regresión se necesitan como mínimo tres puntos.
X Y Y’ Y-Y’ (Y-Y’)2
64.7 98 87.01 10.99 120.6865
75.3 109 97.82 11.18 124.8994
73.0 88 95.48 -7.48 55.9297
82.1 107 104.76 2.24 5.0229
76.2 93 98.74 -5.74 32.9703
95.7 121 118.63 2.37 5.6258
59.4 79 81.61 -2.61 6.8085
93.4 118 116.28 1.72 2.9496
82.5 109 105.17 3.83 14.6939
78.9 85 101.50 -16.50 272.0997
781.2 1,007 0.00 641.6864
641.6864 641.6864
S y. x = = = 80.2108 = 8.96
10 − 2 8
o bien
(1,007) 2 (781.2)(1,007)
103,239 − − 1.02[79,836.1 − ]
10 10 1,834.1 − 1.02(1,169.26)
S y. x = =
10 − 2 8
observados.
observados.
observados.
Entonces:
Entre 97.52 ± 1(8.96) = 97.52 ± 8.96, es decir , entre 88.56 y 106.47 mg / 100 ml de
nivel de glucosa en la sangre, se encuentra el 68.26% centrado, de los varones
con 75.0 kg de peso.
Entre 97.52 ± 2(8.96) = 97.52 ± 17.91, es decir , entre 79.61 y 115.43 mg / 100 ml de
nivel de glucosa en la sangre, se encuentra el 95.44% centrado, de los varones
con 75.0 kg de peso.
Entre 97 .52 ± 3(8.96 ) = 97 .52 ± 26 .87 , es decir , entre 70 .65 y 124 .39 mg / 100 ml de
nivel de glucosa en la sangre, se encuentra el 99.74% centrado, de los varones
con 75.0 kg de peso.
Casi todas las variables independientes que se han estudiado, son de tipo
cuantitativo, es decir, proporcionan valores numéricos de medición, pero en el
análisis de regresión a veces es necesario utilizar como variables
independientes, las que son de tipo cualitativo, es decir que sus valores son
categorías que proporcionan el concepto de atributo, como por ejemplo el
sexo, la nacionalidad, el grupo racial, la profesión u ocupación, la zona de
residencia, etc.
Es una variable que solo toma un número finito de valores enteros positivos
(incluyendo a veces al cero), para identificar las diferentes categorías de una
variable cualitativa.
Tomemos como ejemplo las ventas mensuales (en miles de pesos) de una
empresa como la variable dependiente, durante el periodo de agosto de 2005 a
julio de 2006; este periodo de tiempo sería la variable independiente
cualitativa, que transformamos en una variable ficticia en la siguiente tabla:
7,465 78
a= − (−22.33) = 622.08 − (−22.33)6.5 = 767.20
12 12
Esta estimación puede no ser muy exacta pues tenemos un error que puede
ser muy grande.
(7,465) 2 (78)(7,465)
4,978,003 − − (−22.33)[45,330 − ]
S y. x = 12 12
12 − 2
Lo que indica que sólo el 21.33% de la variación en las ventas, está explicado
por la variación en el tiempo, en tanto que el 78.68% muchísima variación no
está explicada, es decir que el coeficiente de correlación indica un grado de
intensidad débil entre las dos variables.
TRANSFORMACIONES
Si en el diagrama de dispersión cambiamos uno o los dos ejes por una escala
de transformación adecuada, podemos observar que se enderezan (por así
decirlo) los puntos y podemos realizar el análisis como si le ajustáramos una
recta de regresión y calculáramos una correlación lineal.
Para poder presentar los resultados en forma adecuada, debemos deshacer las
transformaciones realizadas, quedando valores y unidades de medida en la
forma original.
Función exponencial.
Y = A • B X
log Y
Función recíproca.
1
Y=
A + BX
1
= A + BX
Y
1
Y
Función de potencia.
Y = A• X B
log X
log Y
Z ' = a + bX donde
Z = log Y Y = 10 Z
a = log A A = 10 a
b = log B B = 10 b
X Y Z=logY X2 XZ Z2
1 98.2 1.9921 1 1.9921 3.9685
2 91.7 1.9624 4 3.9247 3.8509
5 81.3 1.9101 25 9.5505 3.6484
10 64.0 1.8062 100 18.0618 3.2623
20 36.4 1.5611 400 31.2220 2.4370
30 32.6 1.5132 900 45.3965 2.2898
40 17.1 1.2330 1,600 49.3198 1.5203
50 11.3 1.0531 2,500 52.6539 1.1090
158 13.0311 5,530 212.1214 22.0863
13.0311 158
a= − ( −0.0188) = 1.6289 − ( −0.0188)19.75 = 1.6298 + 0.3708 = 1.9997
8 8
por lo que
Y ' = 99.94(0.96) X
Si deseamos pronosticar el valor del porcentaje de vida útil Y’, para una llanta
radial que lleve recorridos 65,300 km por ejemplo, podemos sustituir el valor
de X=65.3 en cualquiera de las dos ecuaciones de regresión anteriores:
(13.0311) 2 (158)(13.0311)
22.0863 − − ( −0.0188)[212.1214 − ]
S z.x = 8 8
8−2
0.8599 − ( −0.0188)(−45.2437) 0.8599 − 0.8496 0.0104
S z.x = = = = 0.0017 = 0.0416
6 6 6
S y. x = 1.10 % de vida útil
que es un valor pequeño, porqué los puntos están muy cerca de la línea recta.
Y ' = a + b1 X 1 + b2 X 2 + b3 X 3 + " + bk X k