Está en la página 1de 8

Transformaciones de Datos para Estabilizar Varianzas

Si el modelo es correcto y se satisfacen los supuestos, los residuales deberán


estar sin estructura, no deberán estar relacionados con ninguna otra variable,
incluyendo la variable de respuesta.
Un problema que se puede presentar es una varianza no constante.
Se puede detectar gráficamente o con prueba de Barlett.
La varianza no constante puede suceder por varias razones:
 La varianza de las observaciones se incrementa cuando la
magnitud de la observación se incrementa.
 El error puede ser un porcentaje de la escala de medición.
 Datos siguen una distribución no normal, sesgada (Ej.: conteo de
defectos o partículas, datos tipo proporción tales como
rendimientos, o fracción defectuosa, o una variable de respuesta
que sigue alguna distribución sesgada (una cola de la distribución
de respuesta es mayor que la otra).
 Tamaños de muestra diferentes en tratamientos (Diseños
desbalanceados)
Se necesita aplicar una transformación para estabilizar la varianza para correr
después el análisis de varianza en los datos transformados. Las conclusiones
del análisis de varianza se aplican a las poblaciones transformadas.
Las transformaciones son usadas para tres propósitos:
 Estabilizar la varianza de la respuesta
 Hacer la distribución de la variable de respuesta más cercana a la
distribución normal
 Mejorar el ajuste del modelo a los datos

Métodos de transformación de datos

1. Si los experimentadores conocen la distribución teórica de las


observaciones, pueden hacer uso de esta información para elegir la
transformación:
a. Si los datos siguen una distribución Poisson usar
y*
ij  y ij *
ó y ij  1  y ij
b. Si los datos siguen la distribución lognormal usar
y*
ij  log y ij
c. Si los datos siguen una distribución binomial expresados como
fracciones se recomienda usar:
y*ij  arcsen y ij

d. Otras transformaciones

y*
ij  log( y ij  1)
1
y*
ij  y ij

Cuando no hay una transformación obvia, el experimentador


realizará por lo general la búsqueda empírica de una
transformación que iguale la varianza.

2. Método Box – Cox


Esta basado en transformaciones de y* = y
Dónde  = parámetro de transformación a ser determinado por ejemplo
cuando =0.5 se recomienda usar raíz cuadrada de de la respuesta
original.
La teoría bajo este método utiliza los conceptos de máxima verosimilitud.
El procedimiento de cálculo consiste en determinar para varios valores
de , un análisis de varianza en:

(  ) y 1
y  cuando   0
 * y* 1
ó
y ( )  y* * ln y cuando  = 0
  ln y 
Dónde y*  ln 1  es la media geométrica de las
 N 
observaciones.
El estimado de máxima verosimilitud de  es el valor para el cuál la
suma de cuadrados de error SSE () es un mínimo. Este valor puede ser
encontrado graficando varios valores de SSE () ó Desviación estándar
SSE ( )
() dónde Desviacion tan dar ( )   MSE
glerror

Para valores  cercanos a 1 se sugiere no hacer transformaciones.


Y cuando =0 usar ln y.
Ejemplo:
Se utilizará el Ejemplo 3-5 de la página 83 del libro de texto de
Montgomery.
Minitab Project Report

General Linear Model: Y versus METODO

Y original

Factor Type Levels Values


METODO fixed 4 1. 2. 3. 4

Analysis of Variance for Y, using Adjusted SS for Tests

Source DF Seq SS Adj SS Adj MS F P


METODO 3 708,35 708,35 236,12 76,07 0,000
Error 20 62,08 62,08 3,10
Total 23 770,43

S = 1,76183 R-Sq = 91,94% R-Sq(adj) = 90,73%

Residual Plots for Y


Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
99
2
90
Residual
Percent

0
50

-2
10

1 -4
-4 -2 0 2 4 0 4 8 12 16
Residual Fitted Value

Histogram of the Residuals Residuals Versus the Order of the Data


8
2
6
Frequency

Residual

0
4
-2
2

0 -4
-4 -3 -2 -1 0 1 2 2 4 6 8 10 12 14 16 18 20 22 24
Residual Observation Order
Residuals Versus METODO
(response is Y)
3

1
Residual

-1

-2

-3

-4
1,0 1,5 2,0 2,5 3,0 3,5 4,0
METODO

Y original

Bartlett's Test

1 Test Statistic 9,00


P-Value 0,029
Lev ene's Test
Test Statistic 4,57
P-Value 0,014
2
METODO

0 1 2 3 4 5 6 7 8 9
95% Bonferroni Confidence Intervals for StDevs
Residuos Y original
Normal
99
Mean -2,54426E-16
StDev 0,3419
95 N 24
KS 0,127
90
P-Value >0,150
80
70
Percent

60
50
40
30
20

10

1
-1,0 -0,5 0,0 0,5 1,0
RESI1

Data Display
Desv.
Row Lambda SSE(Lambda) Estandar
1 -1,00 7922,11 19,9024
2 -0,50 687,10 5,8613
3 -0,25 232,52 3,4097
4 0,00 91,96 2,1443
5 0,25 46,99 1,5328
6 0,50 35,42 1,3308
7 0,75 40,61 1,4250
8 1,00 62,08 1,7618
9 1,25 109,82 2,3433
10 1,50 208,12 3,2258

Scatterplot of Desv. Estandar vs Lambda

20

15
Desv. Estandar

10

0
-1,0 -0,5 0,0 0,5 1,0 1,5
Lambda
Scatterplot of SSE(Lambda) vs Lambda

8000

7000

6000
SSE(Lambda)

5000

4000

3000

2000

1000

-1,0 -0,5 0,0 0,5 1,0 1,5


Lambda

General Linear Model: RAIZ y versus METODO


Datos Transformados y ij

Factor Type Levels Values


METODO fixed 4 1. 2. 3. 4

Analysis of Variance for RAIZ y, using Adjusted SS for Tests

Source DF Seq SS Adj SS Adj MS F P


METODO 3 32,684 32,684 10,895 81,05 0,000
Error 20 2,688 2,688 0,134
Total 23 35,373

S = 0,366636 R-Sq = 92,40% R-Sq(adj) = 91,26%

Residuals Versus METODO


(response is RAIZ y)

0,50

0,25
Residual

0,00

-0,25

-0,50

-0,75
1,0 1,5 2,0 2,5 3,0 3,5 4,0
METODO
Residual Plots for RAIZ y
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
99
0,50
90
0,25

Residual
Percent

50 0,00
-0,25
10
-0,50
1
-1,0 -0,5 0,0 0,5 1,0 1 2 3 4
Residual Fitted Value

Histogram of the Residuals Residuals Versus the Order of the Data


4,8 0,50

3,6 0,25
Frequency

Residual
0,00
2,4
-0,25
1,2
-0,50
0,0
-0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 2 4 6 8 10 12 14 16 18 20 22 24
Residual Observation Order

Y Transformado

Bartlett's Test

1 Test Statistic 0,52


P-Value 0,913
Lev ene's Test
Test Statistic 0,24
P-Value 0,868
2
METODO

0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4


95% Bonferroni Confidence Intervals for StDevs
Box-Cox Plot of Y
Lower CL Upper CL
35 Lambda
(using 95,0% confidence)
30 Estimate 0,54

Lower CL 0,33
25 Upper CL 0,74

Rounded Value 0,50


20
StDev

15

10

Limit
0
-1 0 1 2 3
Lambda

Práctica
Reconsidere el experimento en el Problema 5-22. Use el procedimiento Box-Cox para
determinar si una transformación en la respuesta es apropiada o útil en el análisis de los datos
de este experimento.

También podría gustarte