Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Transformaciones de Box-Cox
Transformaciones de Box-Cox
9/14/2006
Transformaciones de Box-Cox
Resumen
El procedimiento para las Transformaciones de Box-Cox es diseñado para determinar una
transformación optima para Y mientras se estima un modelo de regresión lineal. Es muy útil
cuando la variabilidad de Y cambia como una función de X. A menudo, una apropiada
transformación de Y estabiliza la variabilidad y produce que las desviaciones alrededor del
modelo sean más normalmente distribuidas.
Y ′ = (Y + λ 2 ) 1
λ
(1)
en la cual los datos son calculados en una potencia de λ1 después de cambiarlo a una cierta
cantidad λ2. Posteriormente, el parámetro de cambio λ2 se fija igual a 0. Esta clase incluyen
raíces cuadradas, logaritmos, recíprocos, y otras transformaciones comunes, que dependen sobre
una potencia. Los ejemplos incluyen:
Es deseable determinar un modelo relacionando el nivel de plasma para la edad de los niños.
Entrada de Datos
La caja de dialogo para la entrada de datos requiere los nombres de las columnas que contienen
la variable dependiente Y y la variable independiente X:
W = β 0 + β1 X + ε (2)
[
⎧1 + K 1 (Y + λ 2 )λ1 − 1
⎪
] λ1 ≠ 0
W =⎨ si (3)
⎪1 + K ln (Y + λ ) λ1 = 0
⎩ 2 2
y
1/ n
⎡ n ⎤
K 2 = ⎢∏ (Yi + λ 2 )⎥ (4)
⎣ i =1 ⎦
1
K1 = (5)
λ1 K 2λ1 −1
Note que K2 es la media geométrica de Y+λ2. Después de Box y Cox (1964), la transformación
óptima es la que minimiza el cuadrado medio del error de W. La razón para usar la variable
estandarizada W en vez de Y ′ es ajustar la magnitud sobre la suma de cuadrados del error para
que haya el efecto de la transformación potencia.
Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 198.285 1 198.285 149.24 0.0000
Residuo 30.5593 23 1.32866
Total (Corr.) 228.845 24
Se incluye en la salida:
• Parámetros de Potencia y Cambio: Los valores de λ1 y λ2. Por defecto, el parámetro de
potencia es optimizado, mientras que el parámetro de cambio es fijado en 0. Esto se puede
cambiar usando Opciones del Análisis. También se incluye al final de la pantalla una
Media del Error Absoluto – El promedio de los valores absolutos de los residuales.
En los datos del ejemplo, la transformación seleccionada está muy cerca de una raíz cuadrada
inversa, implicando que 1 / NivelPlasma es una función lineal de la Edad. Sin embargo, de
acuerdo al intervalo de confianza, La transformación optima real puede ser cualquiera entre un
reciproco y un logaritmo.
• Potencia: El valor del parámetro de potencia λ1. Si Optimizar esta seleccionado, esto sirve
como el valor inicial de la búsqueda de optimización cuando se presiona OK. Si Optimizar
no esta seleccionado, este es el valor usado para la transformación.
• Cambio: El valor del parámetro de potencia λ2. Este valor se resta de la variable dependiente
Y antes que la transformación de potencia sea desarrollada.
20
Plasma Level
16
12
0
0 1 2 3 4
Age
El gráfico incluye:
• La línea del mejor ajuste o ecuación de predicción. Esta es la ecuación que será utilizada
para predecir valores de la variable dependiente Y dado los valores de la variable
independiente X. Note que se realiza un trabajo relativamente bueno al tomar el
incremento de la variabilidad del Nivel de Plasma sobre Edades bajas, así como la
relación de la curvatura.
• Límites de Predicción para nuevas observaciones. Estos son los límites externos del
gráfico anterior y describen como exactamente uno podría predecir donde mentiría una
nueva observación. Sin importar el tamaño de muestra, las nuevas observaciones varían
alrededor de la verdadera línea.
La inclusión de los límites de confianza y predicción y su nivel de confianza por defecto esta
determinado por la configuración sobre la sección Regresión/ANOVA de la caja de dialogo
Preferencias, accesible desde el menú Edición.
• Resolución del Eje X: El número de valores de X en los cuales se determina la línea cuando
se grafica. Altas resoluciones dan como resultado gráficos más suaves.
Comparación MSE
lambda2 = 0.0
12
10
8
MSE
0
-2 -1 0 1 2
lambda1
Las líneas verticales se dibujan en λ1 calculado y sus límites de confianza. Note que el CME
alcanza un mínimo cercano a λ1 = –0.5, aunque es relativamente plano con una región amplia
alrededor del valor óptimo, indicando que la potencia puede cambiarse a otros valores sin afectar
sustancialmente el modelo.
Las Opciones del Panel son las mismas que para el gráfico.
-2
-2 -1 0 1 2
lambda1
La estandarización del sesgo y la curtosis se presenta para ambas entre –2 y +2 para una
transformación adecuada a los datos normalizados. El gráfico muestra una línea horizontal entre
–2 y +2, con la línea vertical indicando el valor óptimo de λ1 y sus límites de confianza.
Es de interés primario el valor P para la falta-de-ajuste. Un valor P pequeño (menor que 0.05 si
esta operando un nivel de significancia al 5%) indica que el modelo seleccionado no describe
adecuadamente la relación observada.
Para los datos del ejemplo, el valor P grande indica que el modelo lineal explica adecuadamente
la relación entre Nivel de Plasma y Edad.
24
20
16
observados
12
0
0 4 8 12 16 20 24
predichos
Gráfico de Residuales
Como con todos los modelos estadísticos, es una buena practica examinar los residuales. En una
regresión, los residuales están definidos por:
ei = Wi −Wˆ i (7)
ej., los residuales son las diferencias entre los valores transformados de los datos y la estimación
del modelo de regresión lineal.
1. contra X.
2. contra valores predichos Ŵ .
3. contra número de fila.
Residuales contra X
Este gráfico es provechoso en la visualización cuando fue buena la transformación considerada
para cualquier curvatura en los datos.
Gráfica de Residuos
3.3
Residuos Estudentizados
2.3
1.3
0.3
-0.7
-1.7
-2.7
0 1 2 3 4
Age
Gráfica de Residuos
3.3
Residuos Estudentizados
2.3
1.3
0.3
-0.7
-1.7
-2.7
5.4 7.4 9.4 11.4 13.4 15.4
Plasma Level predicho
Si la transformación fue efectiva, la variabilidad puede ser aproximadamente igual por todas
partes.
Gráfica de Residuos
3.3
Residuos Estudentizados
2.3
1.3
0.3
-0.7
-1.7
-2.7
0 5 10 15 20 25
número de fila
Si los datos fueron arreglados en orden cronológico, cualquier patrón en los dato sindican una
influencia extrema.
Residuales Inusuales
Una vez que se ha estimado el modelo, es útil estudiar los residuales para determinar donde
existe cualquier valor atípico que deba ser removido de los datos. El panel Residuales Inusuales
lista todas las observaciones que tienen un residual estandarizado mayor que 2.0 en valor
absoluto.
Residuos Atípicos
Y Residual
Row X Y Predicha Residual Estudentizado
4 0.0 20.09 13.9249 6.16515 2.22
18 3.0 5.14 6.63425 -1.49425 -2.64
Los residuales estandarizados mayor que 3 en valor absoluto corresponden a puntos a más de 3
desviaciones estándar del modelo estimado, lo cual es un evento extremadamente raro para una
distribución normal. Note que la fila 18 es más de 2.5 desviaciones estándar hacia afuera por la
que habría que investigarlo.
Los puntos pueden removerse de la estimación mientras se examina con el Gráfico del Modelo
Estimado dando clic sobre un punto y presionando el botón Excluir/Incluir sobre la barra de
herramientas:
20
Plasma Level
16
12
0
0 1 2 3 4
Age
Los puntos excluidos son marcados con una X. Para los datos del ejemplo, removiendo la fila 18
se tiene poco efecto sobre el modelo estimado o la transformación optima.
© 2006 por StatPoint, Inc. Transformaciones de Box-Cox - 12
STATGRAPHICS – Rev. 9/14/2006
Puntos Influyentes
En la estimación de un modelo de regresión, todas las observaciones no tienen la misma
influencia sobre la estimación de los parámetros en el modelo estimado. En una regresión lineal
simple, los puntos localizados con valores muy bajos o altos de X tienen mayor influencia que
los que están localizados cerca de la media de X. El panel de Puntos Influyentes despliega
cualquier observación que tiene una alta influencia sobre la estimación del modelo:
Puntos Influyentes
Y Residual
Fila X Y Predicha Estudentizado Leverage
Valor de influencia promedio de un punto = 0.08
La tabla anterior muestra todos los puntos con palancada igual o mayor a 3 veces sobre un valor
promedio de los datos, donde la palancada de una observación es una medida de la influencia
sobre la estimación de los coeficientes del modelo. En general, valores con palancada excesiva a
5 veces sobre de un valor promedio de los datos deben ser examinados a detalle, puesto que
tienen inusualmente un alto impacto sobre la estimación del modelo. En los datos del ejemplo,
no hay observaciones con palancada inusualmente grande.
Pronósticos
El panel de Pronósticos crea predicciones usando el modelo estimado.
Valores Predichos
95.00% 95.00%
Predicho Límites de Predicción Límites de Confianza
X Y Inferior Superior Inferior Superior
0.0 13.9226 9.83804 21.2112 12.3424 15.8276
1.0 10.534 7.82401 14.9464 9.77386 11.3866
2.0 8.24875 6.34227 11.1674 7.81234 8.72285
3.0 6.63479 5.22299 8.70911 6.25099 7.05514
4.0 5.45266 4.35965 7.01618 5.05345 5.90123
5.0 4.5609 3.68238 5.79685 4.15302 5.03211
Se incluyen en la tabla:
Por ejemplo, en X = 3, 95% de todos los niños se espera tener niveles de plasma entre 5.47 y
8.53.
© 2006 por StatPoint, Inc. Transformaciones de Box-Cox - 13
STATGRAPHICS – Rev. 9/14/2006
Grabar Resultados
Los siguientes resultados pueden grabarse en la base de datos:
1. Valores Predichos – El valor predicho de Y correspondiente a cada una de las n
observaciones.
2. Limite de Predicción Inferior –El límite de predicción inferior para cada valor predicho.
3. Limite de Predicción Superior –El límite de predicción superior para cada valor predicho.
4. Limite de Predicción Inferior de la Media – El límite de confianza inferior para la media
de Y en cada n valores de X.
5. Limite de Predicción Superior de la Media – El límite de confianza superior para la
media de Y en cada n valores de X.
6. Residuales – Los n residuales.
7. Residuales Estandarizados – Los n residuales estandarizados.
8. Palancadas – Los valores de palancadas correspondientes a n valores de X.
9. Transformación de los Datos – Los n valores transformados W.
Cálculos
Para más detalle sobre los cálculos, vea la documentación de Regresión Simple.