Está en la página 1de 15

STATGRAPHICS – Rev.

9/14/2006

Transformaciones de Box-Cox

Resumen
El procedimiento para las Transformaciones de Box-Cox es diseñado para determinar una
transformación optima para Y mientras se estima un modelo de regresión lineal. Es muy útil
cuando la variabilidad de Y cambia como una función de X. A menudo, una apropiada
transformación de Y estabiliza la variabilidad y produce que las desviaciones alrededor del
modelo sean más normalmente distribuidas.

La clase de transformaciones consideradas son transformaciones de potencia definidas por:

Y ′ = (Y + λ 2 ) 1
λ
(1)

en la cual los datos son calculados en una potencia de λ1 después de cambiarlo a una cierta
cantidad λ2. Posteriormente, el parámetro de cambio λ2 se fija igual a 0. Esta clase incluyen
raíces cuadradas, logaritmos, recíprocos, y otras transformaciones comunes, que dependen sobre
una potencia. Los ejemplos incluyen:

Potencia Transformación Descripción


λ1 = 2 Y′ = Y 2 Cuadrado
λ1 = 1 Y′ = Y Datos sin Transformar
λ1 = 0.5 Y′ = Y Raíz Cuadrada
λ1 = 0.333 Y′ = 3 Y Raíz Cúbica
λ1 = 0 Y ′ = ln(Y ) Logaritmo
λ1 = -0.5 1 Raíz Cuadrada Inversa
Y′ =
Y
λ1 = -1 1 Reciproco
Y′ =
Y

Note que si λ1 → 0, la transformación de potencia se enfoca en un logaritmo.

Ejemplo StatFolio: boxcox.sgp

© 2006 por StatPoint, Inc. Transformaciones de Box-Cox - 1


STATGRAPHICS – Rev. 9/14/2006
Datos del Ejemplo:
El archivo plasma.sf3 contiene datos presentados por Neter et al. (1998) que muestran el nivel de
plasma de polaminos para n = 25 niños sanos. Una porción de los datos se muestra abajo:

Age Plasma level


(Edad) (Nivel Plasma)
0 13.44
0 12.84
0 11.91
0 20.09
0 15.6
1 10.11
1 11.38
1 10.28
1 8.96
1 8.59
2 9.83
2 9
… …

Es deseable determinar un modelo relacionando el nivel de plasma para la edad de los niños.

Entrada de Datos
La caja de dialogo para la entrada de datos requiere los nombres de las columnas que contienen
la variable dependiente Y y la variable independiente X:

• Y: Columna numérica que contiene las n observaciones para la variable dependiente Y.

• X: Columna numérica que contiene las n observaciones para la variable independiente X.

• Selección: Selección de un subconjunto de los datos.


© 2006 por StatPoint, Inc. Transformaciones de Box-Cox - 2
STATGRAPHICS – Rev. 9/14/2006
Resumen del Análisis
En relación a las dos variables, el procedimiento para estimar un modelo es de la forma

W = β 0 + β1 X + ε (2)

donde la variable dependiente W se relaciona con Y de acuerdo a

[
⎧1 + K 1 (Y + λ 2 )λ1 − 1

] λ1 ≠ 0
W =⎨ si (3)
⎪1 + K ln (Y + λ ) λ1 = 0
⎩ 2 2

y
1/ n
⎡ n ⎤
K 2 = ⎢∏ (Yi + λ 2 )⎥ (4)
⎣ i =1 ⎦
1
K1 = (5)
λ1 K 2λ1 −1

Note que K2 es la media geométrica de Y+λ2. Después de Box y Cox (1964), la transformación
óptima es la que minimiza el cuadrado medio del error de W. La razón para usar la variable
estandarizada W en vez de Y ′ es ajustar la magnitud sobre la suma de cuadrados del error para
que haya el efecto de la transformación potencia.

El Resumen del Análisis presenta la potencia óptima y el resultado del modelo:

Transformaciones Box-Cox - Plasma Level vs. Age


Potencia = -0.506 Camibio = 0.0
Variable dependiente: Plasma Level
Variable independiente: Age
Error T
Parámetro Estimado Estándar Estadístico Valor-P
Intercepto 37.6283 0.399299 94.2359 0.0000
Pendiente -1.99141 0.163013 -12.2162 0.0000

Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 198.285 1 198.285 149.24 0.0000
Residuo 30.5593 23 1.32866
Total (Corr.) 228.845 24

Coeficiente de Correlación = -0.93084


R-cuadrada = 86.6463 porciento
Error Estándard del Est. = 1.15268

Intervalo aproximado del 95% de confianza para la potencia: -1.116 a 0.063

Se incluye en la salida:
• Parámetros de Potencia y Cambio: Los valores de λ1 y λ2. Por defecto, el parámetro de
potencia es optimizado, mientras que el parámetro de cambio es fijado en 0. Esto se puede
cambiar usando Opciones del Análisis. También se incluye al final de la pantalla una

© 2006 por StatPoint, Inc. Transformaciones de Box-Cox - 3


STATGRAPHICS – Rev. 9/14/2006
aproximación de un intervalo de confianza para λ1 por defecto en el nivel de confianza del
sistema.

• Coeficientes: Los coeficientes estimados, errores estándares, estadístico-t, y valores P. La


estimación de los coeficientes del modelo puede utilizarse para escribir la ecuación estimada,
lo cuál en el ejemplo es:

W = 37.6386 – 1.99141 Edad (6)

El estadístico-t prueba la hipótesis nula de que los parámetros correspondientes al modelo


son iguales a 0, contra la hipótesis alternativa de que no sean iguales a 0. Valores P pequeños
(menor que 0.05 si esta operando un nivel de significancia al 5%) indica que un coeficiente
del modelo es significativamente diferente de 0. En los datos del ejemplo, ambos el
intercepto y la pendiente son estadísticamente significativos.

• Análisis de Varianza: Es una descomposición de variabilidad en la variable dependiente W


dentro de un modelo de sumas de cuadrados y residuales o suma de cuadrados del error. Es
de particular interés la prueba F y su valor P asociado, el cual prueba la significancia
estadística del modelo estimado. Un valor P pequeño (menor que 0.05 si esta operando un
nivel de significancia al 5%) indica que existe una relación lineal significativa entre X y Y.
En los datos del ejemplo, el modelo es altamente significativo.

• Estadísticas: Resumen de estadísticas para el modelo estimado, incluyendo:

Coeficiente de Correlación – Mide la fuerza de la relación lineal entre W y X oscilando sobre


una escala de -1 (correlación lineal perfecta negativa) a +1 (correlación lineal perfecta
positiva).

R-Cuadrada - Representa el porcentaje de la variabilidad en W que puede explicarse por el


modelo de regresión estimado, oscilando de 0% hasta 100%.

Error Estándar de la Est. – La estimación de la desviación estándar de los residuales (las


desviaciones alrededor del modelo). Este valor es utilizado para crear límites de predicción
para nuevas observaciones.

Media del Error Absoluto – El promedio de los valores absolutos de los residuales.

En los datos del ejemplo, la transformación seleccionada está muy cerca de una raíz cuadrada
inversa, implicando que 1 / NivelPlasma es una función lineal de la Edad. Sin embargo, de
acuerdo al intervalo de confianza, La transformación optima real puede ser cualquiera entre un
reciproco y un logaritmo.

© 2006 por StatPoint, Inc. Transformaciones de Box-Cox - 4


STATGRAPHICS – Rev. 9/14/2006
Opciones del Análisis

• Potencia: El valor del parámetro de potencia λ1. Si Optimizar esta seleccionado, esto sirve
como el valor inicial de la búsqueda de optimización cuando se presiona OK. Si Optimizar
no esta seleccionado, este es el valor usado para la transformación.

• Cambio: El valor del parámetro de potencia λ2. Este valor se resta de la variable dependiente
Y antes que la transformación de potencia sea desarrollada.

• Optimizar: Cuando se optimiza el parámetro de potencia o se usa el valor especificado.

Grafico del Modelo Estimado


Este panel muestra el modelo estimado, junto con límites de confianza y predicción si son
deseados.

Gráfica del Modelo Ajustado


Potencia=-0.506, Cambio=0.0
24

20
Plasma Level

16

12

0
0 1 2 3 4
Age

El gráfico incluye:

• La línea del mejor ajuste o ecuación de predicción. Esta es la ecuación que será utilizada
para predecir valores de la variable dependiente Y dado los valores de la variable
independiente X. Note que se realiza un trabajo relativamente bueno al tomar el
incremento de la variabilidad del Nivel de Plasma sobre Edades bajas, así como la
relación de la curvatura.

© 2006 por StatPoint, Inc. Transformaciones de Box-Cox - 5


STATGRAPHICS – Rev. 9/14/2006
• Intervalos de Confianza para la respuesta media en X. Estos son los límites interiores en
el gráfico anterior y describen que tan bien la localización de la línea fue estimada dada la
muestra disponible de los datos. Como el tamaño de n incrementa, testos límites llegarán
a ser más apretados También debemos notar que la anchura de los límites varia como una
función de X, con la línea estimada lo más exacto posible cerca del valor promedio x .

• Límites de Predicción para nuevas observaciones. Estos son los límites externos del
gráfico anterior y describen como exactamente uno podría predecir donde mentiría una
nueva observación. Sin importar el tamaño de muestra, las nuevas observaciones varían
alrededor de la verdadera línea.

La inclusión de los límites de confianza y predicción y su nivel de confianza por defecto esta
determinado por la configuración sobre la sección Regresión/ANOVA de la caja de dialogo
Preferencias, accesible desde el menú Edición.

Opciones del Panel

• Incluir: Los limites a incluir sobre el gráfico.

• Nivel de Confianza: El porcentaje del nivel de confianza para los límites.

• Resolución del Eje X: El número de valores de X en los cuales se determina la línea cuando
se grafica. Altas resoluciones dan como resultado gráficos más suaves.

• Tipo de Límites: Cuando se grafican intervalos de confianza de dos-colas o límites de


confianza de una-cola.

Gráfico de Comparación CME


Al optimizar la transformación, la potencia se reduce al mínimo sobre el cuadrado medio del
error del ajuste de W como una función de X. Para ilustrar el resultado de la búsqueda, el Gráfico
de Comparación CME presenta el cuadrado medio del error en la vecindad del valor óptimo:

© 2006 por StatPoint, Inc. Transformaciones de Box-Cox - 6


STATGRAPHICS – Rev. 9/14/2006

Comparación MSE
lambda2 = 0.0
12

10

8
MSE

0
-2 -1 0 1 2
lambda1

Las líneas verticales se dibujan en λ1 calculado y sus límites de confianza. Note que el CME
alcanza un mínimo cercano a λ1 = –0.5, aunque es relativamente plano con una región amplia
alrededor del valor óptimo, indicando que la potencia puede cambiarse a otros valores sin afectar
sustancialmente el modelo.

Opciones del Panel

• Lamda-1 Mínimo: El valor más pequeño de λ1 para incluir en el gráfico.

• Lamda-1 Máximo: El valor más grande de λ1 para incluir en el gráfico.

• Resolución: Número de diferentes valores de λ1 en el cuál se calcula el CME.

© 2006 por StatPoint, Inc. Transformaciones de Box-Cox - 7


STATGRAPHICS – Rev. 9/14/2006

Tabla de Comparación CME


Esta tabla tabula los valores graficados por el Gráfico de Comparación CME.

Tabla Comparativa MSE


Cambio (lambda2): 0.0
lambda1 MSE
-1.0 1.4743
-0.95 1.44668
-0.9 1.42193
-0.85 1.40006
-0.8 1.38107
-0.75 1.36496
-0.7 1.35177
-0.65 1.34151
-0.6 1.33421
-0.55 1.32992
-0.5 1.32868
-0.45 1.33055
-0.4 1.33559
-0.35 1.34388
-0.3 1.35549
-0.25 1.37052
-0.2 1.38907
-0.15 1.41125
-0.1 1.43718
-0.05 1.467
0.0 1.50085

Las Opciones del Panel son las mismas que para el gráfico.

Gráfico de Sesgo y Curtosis


Este gráfico presenta los valores estandarizados del sesgo y la curtosis como una función del
parámetro de potencia λ1.

Gráfica de Sesgo y Curtosis


lambda2 =0.0
6
sesgo
curtosis
4

-2
-2 -1 0 1 2
lambda1

La estandarización del sesgo y la curtosis se presenta para ambas entre –2 y +2 para una
transformación adecuada a los datos normalizados. El gráfico muestra una línea horizontal entre
–2 y +2, con la línea vertical indicando el valor óptimo de λ1 y sus límites de confianza.

© 2006 por StatPoint, Inc. Transformaciones de Box-Cox - 8


STATGRAPHICS – Rev. 9/14/2006
Claramente, hay un amplio rango de valores para λ1 que crearía una transformación razonable de
los datos.

Prueba de Falta de Ajuste


Cuando más de una observación se ha registrado en el mismo valor de X, una prueba de falta de
ajuste se puede desarrollar para determinar cuando la selección del modelo es adecuado para
describir la relación entre X y Y. El panel de Falta-de-Ajuste despliega la siguiente tabla:

Análisis de Varianza con Carencia de Ajuste


Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 198.285 1 198.285 149.24 0.0000
Residuo 30.5593 23 1.32866
Carencia de Ajuste 3.83648 3 1.27883 0.96 0.4321
Error Puro 26.7228 20 1.33614
Total (Corr.) 228.845 24

La prueba de Falta-de-Ajuste descompone la suma de cuadrados del error de los valores


transformados de W en 2 componentes:

1. Error Puro: la variabilidad de los valores de W en el mismo valor de X.


2. Falta-de-Ajuste: la variabilidad del promedio de los valores de W alrededor del
modelo estimado.

Es de interés primario el valor P para la falta-de-ajuste. Un valor P pequeño (menor que 0.05 si
esta operando un nivel de significancia al 5%) indica que el modelo seleccionado no describe
adecuadamente la relación observada.

Para los datos del ejemplo, el valor P grande indica que el modelo lineal explica adecuadamente
la relación entre Nivel de Plasma y Edad.

Observado contra Predicho


El gráfico de Observado contra Predicho muestra los valores observados de Y sobre el eje
vertical y los valores predichos de Yˆ sobre el eje horizontal, en la métrica transformada.

Gráfica de Plasma Level

24

20

16
observados

12

0
0 4 8 12 16 20 24
predichos

© 2006 por StatPoint, Inc. Transformaciones de Box-Cox - 9


STATGRAPHICS – Rev. 9/14/2006
Si el modelo se ajuste bien, los puntos se deben dispersar aleatoriamente alrededor de la línea
diagonal. Es posible algunas veces ver curvaturas en este gráfico, lo cual indicará la necesidad
de un modelo curvilíneo más que un modelo lineal. En este caso, el cambio de la variabilidad
sobre el gráfico anterior si los valores predichos se incrementan no es una preocupación, puesto
que fue estabilizado por la transformación de Box-Cox.

Gráfico de Residuales
Como con todos los modelos estadísticos, es una buena practica examinar los residuales. En una
regresión, los residuales están definidos por:

ei = Wi −Wˆ i (7)

ej., los residuales son las diferencias entre los valores transformados de los datos y la estimación
del modelo de regresión lineal.

El procedimiento de Transformaciones de Box-Cox crea 3 gráficos de residuales:

1. contra X.
2. contra valores predichos Ŵ .
3. contra número de fila.

Residuales contra X
Este gráfico es provechoso en la visualización cuando fue buena la transformación considerada
para cualquier curvatura en los datos.

Gráfica de Residuos

3.3
Residuos Estudentizados

2.3

1.3

0.3

-0.7

-1.7

-2.7
0 1 2 3 4
Age

Los residuales se deben dispersar aleatoriamente alrededor de 0.

© 2006 por StatPoint, Inc. Transformaciones de Box-Cox - 10


STATGRAPHICS – Rev. 9/14/2006
Residuales contra Predichos
Este gráfico es provechoso en la visualización cuando fue bueno el modelo para cualquier
heterocedasticidad en los datos.

Gráfica de Residuos

3.3
Residuos Estudentizados

2.3

1.3

0.3

-0.7

-1.7

-2.7
5.4 7.4 9.4 11.4 13.4 15.4
Plasma Level predicho

Si la transformación fue efectiva, la variabilidad puede ser aproximadamente igual por todas
partes.

Residuales contra Observaciones


Este gráfico muestra los residuales contra el número de fila en la base de datos:

Gráfica de Residuos

3.3
Residuos Estudentizados

2.3

1.3

0.3

-0.7

-1.7

-2.7
0 5 10 15 20 25
número de fila

Si los datos fueron arreglados en orden cronológico, cualquier patrón en los dato sindican una
influencia extrema.

Opciones del Panel

Los siguientes residuales pueden graficarse sobre cualquier gráfico residual:


© 2006 por StatPoint, Inc. Transformaciones de Box-Cox - 11
STATGRAPHICS – Rev. 9/14/2006

1. Residuales – Los residuales por estimación de mínimos cuadrados.


2. Residuales Estandarizados – La diferencia entre los valores observados wi y los valores
predichos ŵ i cuando el modelo es ajustado usando todas las observaciones excepto el i-
ésimo, divididos por el error estándar de la estimación. Estos residuales a veces se
llaman residuales externamente eliminados, puesto que miden que tan lejos esta cada
valor del modelo estimado cuando el modelo es ajustado usando todos los datos excepto
el punto inicial considerado. Esto es importante, puesto que un valor atípico muy grande
pueden afectar de alguna manera al modelo tanto que no parecería ser inusualmente
separado de la línea.

Residuales Inusuales
Una vez que se ha estimado el modelo, es útil estudiar los residuales para determinar donde
existe cualquier valor atípico que deba ser removido de los datos. El panel Residuales Inusuales
lista todas las observaciones que tienen un residual estandarizado mayor que 2.0 en valor
absoluto.

Residuos Atípicos
Y Residual
Row X Y Predicha Residual Estudentizado
4 0.0 20.09 13.9249 6.16515 2.22
18 3.0 5.14 6.63425 -1.49425 -2.64

Los residuales estandarizados mayor que 3 en valor absoluto corresponden a puntos a más de 3
desviaciones estándar del modelo estimado, lo cual es un evento extremadamente raro para una
distribución normal. Note que la fila 18 es más de 2.5 desviaciones estándar hacia afuera por la
que habría que investigarlo.

Los puntos pueden removerse de la estimación mientras se examina con el Gráfico del Modelo
Estimado dando clic sobre un punto y presionando el botón Excluir/Incluir sobre la barra de
herramientas:

Gráfica del Modelo Ajustado


Potencia=-0.629, Cambio=0.0
24

20
Plasma Level

16

12

0
0 1 2 3 4
Age

Los puntos excluidos son marcados con una X. Para los datos del ejemplo, removiendo la fila 18
se tiene poco efecto sobre el modelo estimado o la transformación optima.
© 2006 por StatPoint, Inc. Transformaciones de Box-Cox - 12
STATGRAPHICS – Rev. 9/14/2006

Puntos Influyentes
En la estimación de un modelo de regresión, todas las observaciones no tienen la misma
influencia sobre la estimación de los parámetros en el modelo estimado. En una regresión lineal
simple, los puntos localizados con valores muy bajos o altos de X tienen mayor influencia que
los que están localizados cerca de la media de X. El panel de Puntos Influyentes despliega
cualquier observación que tiene una alta influencia sobre la estimación del modelo:

Puntos Influyentes
Y Residual
Fila X Y Predicha Estudentizado Leverage
Valor de influencia promedio de un punto = 0.08

La tabla anterior muestra todos los puntos con palancada igual o mayor a 3 veces sobre un valor
promedio de los datos, donde la palancada de una observación es una medida de la influencia
sobre la estimación de los coeficientes del modelo. En general, valores con palancada excesiva a
5 veces sobre de un valor promedio de los datos deben ser examinados a detalle, puesto que
tienen inusualmente un alto impacto sobre la estimación del modelo. En los datos del ejemplo,
no hay observaciones con palancada inusualmente grande.

Pronósticos
El panel de Pronósticos crea predicciones usando el modelo estimado.

Valores Predichos
95.00% 95.00%
Predicho Límites de Predicción Límites de Confianza
X Y Inferior Superior Inferior Superior
0.0 13.9226 9.83804 21.2112 12.3424 15.8276
1.0 10.534 7.82401 14.9464 9.77386 11.3866
2.0 8.24875 6.34227 11.1674 7.81234 8.72285
3.0 6.63479 5.22299 8.70911 6.25099 7.05514
4.0 5.45266 4.35965 7.01618 5.05345 5.90123
5.0 4.5609 3.68238 5.79685 4.15302 5.03211

Se incluyen en la tabla:

• X – El valor de la variable independiente en la cuál la predicción es realizada.

• Predicción Y – El valor predicho de la variable dependiente usando el modelo estimado.

• Límites de Predicción – Límites de predicción para nuevas observaciones en la


selección del nivel de confianza (correspondientes a los límites exteriores sobre el gráfico
del modelo estimado).

• Límites de Confianza – Límites de confianza para la media de Y en la selección del


nivel de confianza (correspondientes a los límites internos sobre el gráfico del modelo
estimado).

Por ejemplo, en X = 3, 95% de todos los niños se espera tener niveles de plasma entre 5.47 y
8.53.
© 2006 por StatPoint, Inc. Transformaciones de Box-Cox - 13
STATGRAPHICS – Rev. 9/14/2006

Opciones del Panel

• Nivel de Confianza: Porcentaje de confianza para los intervalos.

• Tipo de Límites: donde se definen límites de dos-colas o una-cola.

• Pronósticos en X: Hasta 10 valores de X para realizar predicciones.

Grabar Resultados
Los siguientes resultados pueden grabarse en la base de datos:
1. Valores Predichos – El valor predicho de Y correspondiente a cada una de las n
observaciones.
2. Limite de Predicción Inferior –El límite de predicción inferior para cada valor predicho.
3. Limite de Predicción Superior –El límite de predicción superior para cada valor predicho.
4. Limite de Predicción Inferior de la Media – El límite de confianza inferior para la media
de Y en cada n valores de X.
5. Limite de Predicción Superior de la Media – El límite de confianza superior para la
media de Y en cada n valores de X.
6. Residuales – Los n residuales.
7. Residuales Estandarizados – Los n residuales estandarizados.
8. Palancadas – Los valores de palancadas correspondientes a n valores de X.
9. Transformación de los Datos – Los n valores transformados W.

Nota: Si se graban los límites, corresponden a la configuración sobre el panel de Pronósticos. Si


los límites de dos-colas son presentados en la tabla de Pronósticos, entonces los límites
guardados serán también de dos-colas. Si los límites de una-cola son presentados en la tabla de
Pronósticos, entonces los límites guardados serán también de una-cola..

Cálculos

La línea de regresión es desarrollada sobre la transformación de valores W. Los límites de


predicción son calculados en la métrica transformada y deben invertirse antes de ser presentados.
© 2006 por StatPoint, Inc. Transformaciones de Box-Cox - 14
STATGRAPHICS – Rev. 9/14/2006

Para más detalle sobre los cálculos, vea la documentación de Regresión Simple.

© 2006 por StatPoint, Inc. Transformaciones de Box-Cox - 15

También podría gustarte