Está en la página 1de 21

ANÁLISIS DE VARIANZA Estadística No Paramétrica

FUNDAMENTOS DE LAS PRUEBAS PARA LA


DIFERENCIA ENTRE VARIAS MEDIAS

La prueba de Chi Cuadrada se utiliza para probar las diferencias entre diversas propor-
ciones, y el análisis de varianza (ANOVA, por sus iniciales en inglés) se utiliza para pro-
bar las diferencias entre diversas medias. Una suposición fundamental en la que se basa
el análisis de varianza consiste en que las diversas medias muéstrales se obtienen a par-
tir de poblaciones con distribución normal y con la misma varianza σ 2 . Sin embargo, se
ha encontrado que el procedimiento de prueba es bastante insensible a las violaciones de
la suposición de normalidad cuando las poblaciones son unimodales y los tamaños de
muestra son aproximadamente ¡guales. Como la hipótesis nula consiste en que las medias
poblacionales son iguales, la suposición de igualdad de varianzas (homogeneidad de la va-
rianza), también implica que, para propósitos prácticos, la prueba se ocupa de la hipóte-
sis de que las medias provienen de la misma población. Esto es así porque cualquier po-
blación distribuida normalmente queda definida por sus dos parámetros, la media y la va-
rianza (o desviación estándar).

Los fundamentos en los que se basa el análisis de varianza fueron desarrollados inicial-
mente por el estadístico británico Ronald A. Fisher, y la distribución F se denomina, en
su honor. El razonamiento conceptual es el siguiente:

1) Calcúlese la media para cada grupo muestral y, después, determínese el error


estándar de la media S X con base sólo en las diversas medias muéstrales. En
términos de cálculo, esta es la desviación estándar de esos diversos valores
promedio.

2) Ahora, dada la fórmula S X = S nA , se sigue que, S = nA S X , y que S 2 = nA S X2


(donde nA es la media geométrica de las medias de cada tratamiento). Por ello,
el error estándar de la media calculado en (1) puede utilizarse para estimar la
varianza (común) de la población, de la que fueron obtenidas las diversas mues-
tras. A esta estimación de la varianza poblacional se le denomina cuadro medio
entre tratamientos (CMA). Fisher denominaba a cualquier estimación de la va-
rianza un "cuadrado medio" porque, en términos de cálculo, una varianza es el
promedio de las desviaciones con respecto a la media grupal, elevadas al cua-
drado.

3) Calcúlese la varianza de cada grupo muestral por separado y con respecto a la


media de cada uno. Después se combinan estas varianzas ponderándolas con el
n − 1 correspondiente a cada muestra. Este procedimiento de ponderación de la
varianza es una extensión del que se utiliza para combinar y ponderar dos va-

1 Daniel Guzmán Rojas


ANÁLISIS DE VARIANZA Estadística No Paramétrica

rianzas muéstrales. La estimación resultante de la varianza poblacional se de-


nomina cuadrado medio del error (CME) y se basa sólo en las diferencias inter-
grupales. De nueva cuenta, se le denomina "cuadrado medio" porque es una esti-
mación de varianza. Se le denomina "error" porque las desviaciones dentro de
cada uno de los pocos grupos muéstrales pueden deberse solamente a errores
de muestreo aleatorio, y no pueden deberse a diferencias entre las medias de
los diferentes grupos de la población.

4) Si la hipótesis nula de que µ=


1 µ=
2 µ=
3 = µk es cierta, entonces se sigue que

cada uno de los dos cuadrados medios que se obtienen en (2) y (3) son un esti-
mador ¡nsesgado e independiente de la misma varianza poblacional σ 2 . Sin em-
bargo, si la hipótesis nula es falsa, entonces el valor esperado del CMA es ma-
yor que el CME. En esencia, cualesquiera diferencias entre las medias poblacio-
nales incrementarían el CMA, al tiempo que no tendrían ningún efecto sobre el
CME, que se basa sólo en las diferencias intergrupales.

5) Con base en la observación de (4), se puede utilizar la distribución F para pro-


bar la diferencia entre las dos varianzas. Se trata de una prueba de un extre-
mo, y la forma general de la prueba F en análisis de varianza es:

CMA
Fgl1 ; gl2 ;α =
CME

Se acepta H0, de que


las diversas medias
muestrales vienen de
la misma población

Se acepta Ha, de que las


1−α diversas medias
muestrales no vienen de
la misma población
α
Fgl1 ; gl2 ;α

Si el cociente Fc se encuentra en la reglón de rechazo para el nivel de signifi-


cancia especificado, entonces se rechaza la hipótesis de que las diversas medias
muéstrales provienen de la misma población.

2 Daniel Guzmán Rojas


ANÁLISIS DE VARIANZA Estadística No Paramétrica

EJEMPLO

Se asignan en forma aleatoria 15 participantes de un programa técnico a tres tipos dis-


tintos de métodos de instrucción, todos los cuales pretenden desarrollar un nivel deter-
minado de habilidad en diseño auxiliado por computadora. En la Tabla, se presentan las ca-
lificaciones del avance al término de la unidad de instrucción, y se presentan también las
calificaciones promedio correspondientes. Probar la hipótesis nula de que las tres medias
muéstrales se obtienen de la misma población, utilizando un nivel de significancia del 5% pa-
ra la prueba.

Calificaciones de las personas en capacitación


con los tres métodos de instrucción distintos

Método de Calificación Desviación Tamaño


instrucción Promedio Estandar Muestra
M1 80 6.2048 5

M2 85 5.9161 5

M3 75 6.2048 5

SOLUCIÓN

1) HIPOTESIS:

H0: µ=
1 µ=
2 µ3 ó de manera equivalente H 0: α k = 0

Ha: µ1 ≠ µ2 ≠ µ3 Ha: α k ≠ 0

2) NIVEL DE SIGNIFICANCIA: α=0.05.

3) REGIÓN DE RECHAZO:

Se
gl1 = k − 1 = 3 − 1 = 2 acepta
H0
gl2 = n − k = 15 − 3 = 1

Se
0.95 acepta
Ha

0.05

F2;12;0.05 = 3.88

3 Daniel Guzmán Rojas


ANÁLISIS DE VARIANZA Estadística No Paramétrica

4) DETERMINACIÓN DE Fc :

La media global de las 15 calificaciones:

=
XT

=
X 1, 200
= 80.0
n 15
El error estándar de la media, con base en las tres medias es:

∑( X − X )
2
T
SX =
k −1

∑ (80 − 80 ) + (85 − 80 ) + ( 75 − 80 )
2 2 2

=SX = 5.0
3 −1

El cuadrado medio de los Tratamientos es:

= n= ( 5)( 5.0
= )
2 2
CMA k SX 125.0

De la formula general:

∑( X )
2
k − Xk
Sk =
nk − 1

La varianza para cada una de las tres muestras es:

=S12 =
6.2048 38.5

=S 22 =
5.9161 35.0

=S32 =
6.2048 38.5

Entonces:

 2
σ Combinada =
( n1 − 1) S12 + ( n2 − 1) S 22 +  + ( nk − 1) S k2
n1 + n2 +  + nk − k

=σ Combinada
2 (=
5 − 1)( 38.5 ) + ( 5 − 1)( 35.0 ) + ( 5 − 1)( 38.5 )
37.3
5+5+5−3

σ Combinada
2
= CME = 37.3

4 Daniel Guzmán Rojas


ANÁLISIS DE VARIANZA Estadística No Paramétrica

Entonces:
CMA 125.0
=
Fc = = 3.35
CME 37.3
5) CONCLUSION: Como Fc es menor que F2;12;0.05 (3.35<3.88), entonces se acepta
la H0, es decir, las calificaciones promedio para los tres métodos de instrucción
de la población son iguales entre si, a un nivel de significancia del 5%.

DISEÑO COMPLETAMENTE ALEATORIZADO DE UN FACTOR


(ANOVA CON UN CRITERIO DE CLASIFICACIÓN)

El procedimiento del análisis de varianza con un criterio de clasificación se ocupa de


probar la diferencia entre k medias muéstrales cuando se asignan los elementos en
forma aleatoria a cada uno de los diversos grupos de tratamiento. Por ello, la explica-
ción general de los fundamentos de las pruebas para la diferencia entre varias medias
se refiere al modelo de clasificación con un criterio.

La ecuación lineal, o modelo, que representa este diseño completamente aleatorizado


de un factor es:

X ik =µ + α k + ξik

en donde:

µ= media global de todas las poblaciones sometidas al tratamiento k

α k = efecto del tratamiento de un grupo particular K de donde el valor se


obtuvo por muestreo

ξik = el error aleatorio asociado al proceso de muestreo ( ξ es la letra grie-


ga épsilon)

La siguiente es la tabla resumen para el diseño completamente aleatorizado de un fac-


tor de análisis de varianza, incluyendo todas las fórmulas de cálculo. Otros símbolos
nuevos que se incluyen en la Tabla y son Tk , que representa la suma (total) de los valo-
res en un determinado grupo de tratamiento k, y T , que representa la suma de los va-
lores muestreados en todos los grupos k combinados.

5 Daniel Guzmán Rojas


ANÁLISIS DE VARIANZA Estadística No Paramétrica

Tabla resumen para el análisis de varianza con un criterio de


calificación (no es necesario que los grupos de tratamientos sean iguales)

Grados de Suma de cuadrados Cuadrado medio Cociente


Fuente de Variación
libertad (gl) (SC) (CM) F

K −1 Tk2 T 2
K
SCA ∑ −
Entre grupo de SCA CMA
= CMA = Fc =
tratamientos ( A )
k =1 nk n K −1 CME

Error de
muestreo ( E )
n−K = SCT − SCA
SCE CME =
SCE
n−K
n K
T2
Total ( T ) n −1 =
SCT ∑∑ X ik2 −
=i 1 =
k 1 n

EJEMPLO

Se asignan en forma aleatoria 15 participantes de un programa técnico a tres tipos dis-


tintos de métodos de instrucción, todos los cuales pretenden desarrollar un nivel deter-
minado de habilidad en diseño auxiliado por computadora. En la Tabla, se presentan las ca-
lificaciones del avance al término de la unidad de instrucción, y se presentan también las
calificaciones promedio correspondientes. Probar la hipótesis nula de que las tres medias
muéstrales se obtienen de la misma población, utilizando un nivel de significancia del 5% pa-
ra la prueba.

Calificaciones de las personas en capacitación


con los tres métodos de instrucción distintos

Método de Calificación Calificación


Calificación de las pruebas
instrucción Total Promedio

A1 86 79 81 70 84 400 80

A2 90 76 88 82 89 425 85

A3 82 68 73 71 81 375 75

1,200 80

6 Daniel Guzmán Rojas


ANÁLISIS DE VARIANZA Estadística No Paramétrica

SOLUCIÓN

n1 = 5 n2 = 5 n3 = 5 n = 15

T1 = 400 T2 = 425 T3 = 375 T = 1, 200

T12 = 160, 000 T22 = 180, 625 T32 = 140, 625 T 2 = 1´400, 000

T 2 1´400, 000
= = 96, 000
n 15

n K

∑ ∑X
=i 1 =k 1
2
ik = 862 + 792 +  + 812 = 96, 698

n K
T2
=
SCT ∑∑
=i 1 =k 1
X 2
ik −
n
= 96, 698 − 96, 000

K
Tk2 T 2 160, 000 180, 625 140, 625
SCA =∑ k =1 nk

n
=
5
+
5
+
5
− 96, 000 =250

SCE = SCT − SCA = 698 − 250 = 448

SCA 250
=
CMA = = 125
K −1 3 −1

SCE 448
=
CME = = 37.33
n − K 15 − 3

CMA 125
=
Fc = = 3.35
CME 37.33

7 Daniel Guzmán Rojas


ANÁLISIS DE VARIANZA Estadística No Paramétrica

ANVA (ANOVA)

Suma de cuadra-
Grados de Cuadrado medio Cociente
Fuente de Variación dos
libertad (gl) (CM) F
(SC)

Entre grupo de
2 250 125 3.35
tratamientos ( A )

Error de
12 448 37.33
muestreo ( E )

Total ( T ) 14 698

1) HIPOTESIS:

H0: µ=
1 µ=
2 µ3 ó de manera equivalente H 0: α k = 0

Ha: µ1 ≠ µ2 ≠ µ3 Ha: α k ≠ 0

2) NIVEL DE SIGNIFICANCIA: α=0.05.

3) REGIÓN DE RECHAZO:

gl1 = K − 1 = 3 − 1 = 2
gl2 = n − K = 15 − 3 = 1 Se
acepta
H0

Se
0.95 acepta
Ha

0.05

F2;12;0.05 = 3.88
4) DETERMINACIÓN DE Fc :

Fc = 3.35

5) CONCLUSION: Como Fc es menor que F2;12;0.05 (3.35<3.88), entonces se acepta


la H0, es decir, las calificaciones promedio para los tres métodos de instrucción
de la población son iguales entre si, a un nivel de significancia del 5%.

8 Daniel Guzmán Rojas


ANÁLISIS DE VARIANZA Estadística No Paramétrica

ANÁLISIS DE VARIANZA CON DOS CRITERIOS DE CLASIFICACIÓN

El análisis de varianza con dos criterios de clasificación se basa en dos dimensiones de


clasificación, o tratamientos. Por ejemplo, al analizar el nivel de aprovechamiento en
un programa de capacitación, podría considerarse tanto el efecto de un método de
instrucción como el efecto de la escolaridad previa. De manera similar, podría investi-
garse el rendimiento de gasolina de acuerdo con la categoría del, automóvil y de
acuerdo con el octanaje de la gasolina. En tablas de datos, a los tratamientos que encabe-
zan las columnas normalmente se les denomina tratamientos A, y a los que encabezan los ren-
glones se les denomina B.

La interacción en un experimento de dos factores significa que los dos tratamientos


no son independientes, y que el efecto de un tratamiento determinado sobre otro di-
fiere según los niveles del otro factor. Por ejemplo, al estudiar el rendimiento de la
gasolina en automóviles, un octanaje elevado podría mejorar el rendimiento en cierto
tipo de automóviles, pero no en otros. De manera similar, puede diferir la efectividad
de diversos métodos de instrucción según los niveles de habilidad de los estudiantes.
Para probar la interacción, debe incluirse en cada una de las celdas de una tabla de
datos de dos sentidos más de una observación o medición muestreada (es decir, répli-
cas).

DISEÑO ALEATORIZADO EN BLOQUES (ANOVA CON DOS CRITERIOS DE


CLASIFICACIÓN, (UNA OBSERVACIÓN POR CELDA)

El modelo de análisis de varianza con dos criterios de clasificación, en el cual existe


sólo una observación por celda, se denomina, por lo general, diseño aleatorízado en
bloques, porque es el principal uso para el modelo. ¿Qué tal si se extiende la idea de
utilizar observaciones apareadas para comparar dos medias muéstrales al modelo
básico de análisis de varianza con un criterio de clasificación, y se asignan aleatoria-
mente a cada nivel de tratamiento los grupos de k elementos apareados? En análisis de
varianza, a esos grupos asociados se les denomina bloques, y como los elementos se
asignan en forma aleatoria con base en su pertenencia a los bloques, a ese diseño se le
denomina aleatorizado en bloques. En este tipo de diseño, la dimensión de "bloque" no
es una dimensión de tratamiento como tal. El propósito específico de este diseño no es
probar el efecto de "bloques". Más bien, al ser posible asignar parte de la variabilidad
entre los elementos a logros anteriores, por ejemplo, puede reducirse el CME, con lo
que la prueba resultante para los A tratamientos resulta ser más sensible.

El modelo lineal para el análisis de varianza con dos criterios de clasificación con una
observación por celda (sin replicación), es:

9 Daniel Guzmán Rojas


ANÁLISIS DE VARIANZA Estadística No Paramétrica

X jk =µ + α k + β k + ξ jk

en donde:

µ = media global, sin importar el tratamiento

α k = efecto del tratamiento k

β j = efecto del bloque j

ξ jk = el error aleatorio asociado al proceso de muestreo ( ξ es la letra grie-


ga épsilon)

La Tabla presenta el resumen del análisis de varianza con dos criterios de clasificación
sin replicación. En comparación con la Tabla del análisis de varianza con un criterio de
clasificación, para un análisis de varianza con un criterio de clasificación, el único
símbolo nuevo en esta tabla es T j2 , que indica que se eleva al cuadrado el total de cada
grupo (para los bloques B).

Grados de Suma de cuadrados Cuadrado medio Cociente


Fuente de Variación
libertad (gl) (SC) (CM) F

K −1 Tk2 T 2
K


Entre grupo de SCA CMA
=
SCA − CMA = FcA =
tratamientos ( A )
k =1 nk n K −1 CME

Entre grupo de
bloques ( B )
J −1 =
SCB
1 J 2 T2
∑ Tj − n
k j =1
CMB =
SCB
K −1
FcB =
CMB
CME

Error de
muestreo ( E ) ( J − 1)( K − 1) SCE = SCT − SCA − SCB CME =
SCE
( )( K − 1)
J − 1

J K
T2
Total ( T ) n −1 =
SCT ∑∑ X 2jk − n
=j 1 =
k 1

10 Daniel Guzmán Rojas


ANÁLISIS DE VARIANZA Estadística No Paramétrica

EJEMPLO

Un constructor de casas con fines especulativos, utiliza tres diseños posibles y asigna
cada casa a la supervisión de uno de cuatro supervisores de obra. Al observar una varia-
ción en la utilidad por casa, el constructor decide investigar el efecto de los factores,
“DISEÑO DE LA CASA” Y “SUPERVISOR DE OBRA”, en la utilidad por la casa. Los da-
tos (la utilidad en miles de dólares por casa) se muestran en la tabla. ¿Proporcionan los da-
tos suficiente evidencia para indicar diferencias entre las utilidades por “DISEÑO DE LA
CASA” y por “SUPERVISOR DE OBRA”, utilizando un nivel de significancia del 5%.

Supervisor
Total Promedio
Diseño
S1 S2 S3 S4 Diseño Diseño

D1 12.8 9.2 11.6 8.7 42.3 10.6

D2 9.2 11.4 8.7 10.3 39.6 9.9

D3 13.7 10.7 10.1 7.3 41.8 10.5

Total
35.7 31.3 30.4 26.3 T= 123.7
Supervisor
Promedio
11.9 10.4 10.1 8.8
Supervisor

SOLUCIÓN

TRATAMIENTOS (SUPERVISORES):

n1 = 3 n2 = 3 n3 = 3 n=3 n = 12

T1 = 35.70 T2 = 31.30 T3 = 30.40 T = 26.30 T = 123.70

T12 = 1,274.49 T22 = 979.69 T32 = 924.16 T 2 = 691.69 T 2 = 15,301.69

BLOQUES (DISEÑOS):

n1 = 4 n2 = 4 n3 = 4

T1 = 42.30 T2 = 39.60 T3 = 41.80

11 Daniel Guzmán Rojas


ANÁLISIS DE VARIANZA Estadística No Paramétrica

T12 = 1,789.29 T22 = 1,568.16 T32 = 1,747.24

T 2 15,301.69
= = 1, 275.14
n 12

J K

∑ ∑X =
=j 1 =k 1
2
jk 12.82 + 9.22 +  + 7.3=
2
1, 290.01

J K
T2
=
SCT ∑ ∑X
=j 1 =k 1
2
jk −= 1, 290.01 − 1, 275.14
n
= 37.45

K
Tk2 T 2 1, 274.49 979.69 924.16 691.69
SCA =∑ − = + + + − 1, 275.14 =14.87
k =1 nk n 3 3 3 3

1 J
T2 1
=
SCB
K

j =1
T j
2
− =   (1, 789.29 + 1,568.16 + 1, 747.24 ) − 1, 275.14
n 4
= 1.03

SCE = SCT − SCA − SCB = 37.45 − 14.87 − 1.03 = 21.55

SCA 14.87
=
CMA = = 4.96
k −1 4 −1

SCB 1.03
=
CMB = = 0.52
J −1 3 −1

SCE 21.55
=CME = = 3.59
( J − 1)( K − 1) ( 3 − 1)( 4 − 1)

CMA 4.96
=
FcA = = 1.38
CME 3.59

CMB 0.52
=
FcB = = 0.14
CME 3.59

12 Daniel Guzmán Rojas


ANÁLISIS DE VARIANZA Estadística No Paramétrica

ANVA (ANOVA)

Grados de Suma de cuadrados Cuadrado medio Cociente


Fuente de Variación
libertad (gl) (SC) (CM) F

Entre grupo de
3 14.87 4.96 1.38
tratamientos ( A )

Entre grupo de
2 1.03 0.52 0.14
bloques ( B )

Error de
6 21.55 3.59
muestreo ( E )

Total ( T ) 11 37.45

TRATAMIENTOS (SUPERVISORES):

1) HIPOTESIS:

H0: µ=
1 µ=
2 µ=
3 µ4 ó de manera equivalente H 0: α k = 0

Ha: µ1 ≠ µ2 ≠ µ3 ≠ µ4 Ha: α k ≠ 0

2) NIVEL DE SIGNIFICANCIA: α=0.05.

3) REGIÓN DE RECHAZO:

gl1 = K − 1 = 4 − 1 = 3
gl2 = ( J − 1)( K − 1) = ( 3 − 1)( 4 − 1) = 6
Se
acepta
H0

Se
0.95 acepta
Ha

0.05

F3;6;0.05 = 4.76

13 Daniel Guzmán Rojas


ANÁLISIS DE VARIANZA Estadística No Paramétrica

4) DETERMINACIÓN DE FcA :

FcA = 1.38

5) CONCLUSION: Como FcA es menor que F3;6;0.05 (1.38<4.76), entonces se acepta


la H0, es decir, las utilidades promedio para los cuatro supervisores son iguales
entre si, a un nivel de significancia del 5%.

BLOQUES (DISEÑOS):

1) HIPOTESIS:

H0: µ=
1 µ=
2 µ3 ó de manera equivalente H 0: β j = 0

Ha: µ1 ≠ µ2 ≠ µ3 Ha: β j ≠ 0

2) NIVEL DE SIGNIFICANCIA: α=0.05.

3) REGIÓN DE RECHAZO:

gl1 = J − 1 = 3 − 1 = 2 Se
acepta
gl2 = ( J − 1)( K − 1) = ( 3 − 1)( 4 − 1) = 6 H0

Se
0.95 acepta
Ha

0.05

F2;6;0.05 = 5.14

4) DETERMINACIÓN DE FcB :

FcB = 0.14

5) CONCLUSION: Como FcB es menor que F2;6;0.05 (0.14<5.14), entonces se acepta


la H0, es decir, las utilidades promedio para los tres diseños son iguales entre
si, a un nivel de significancia del 5%.

14 Daniel Guzmán Rojas


ANÁLISIS DE VARIANZA Estadística No Paramétrica

DISEÑO COMPLETAMENTE ALEATORIZADO DE DOS FACTORES (ANOVA CON


DOS CRITERIOS DE CLASIFICACIÓN, m OBSERVACIONES POR CELDA)

Cuando se incluye la replicación en un diseño con dos criterios de clasificación, sí es


posible probar la interacción entre los dos factores. Por ello, cuando se utiliza este ti-
po de diseño, pueden probarse, con análisis de varianza, tres hipótesis nulas distintas:
que no existen efectos por Tratamiento (los promedios por Tratamiento no difieren
en forma significativa), que no existen efectos por Bloques (las medias por Bloques no
difieren en forma significativa) y que no existe interacción entre los dos factores (los
dos factores son independientes). Un efecto de interacción significativo indica que el
efecto de los tratamientos de un factor varía de acuerdo con los niveles del otro fac-
tor. En ese caso, la existencia de efectos por Bloques y/o Tratamientos puede no ser
significativo desde el punto de vista de la aplicación de los resultados. El modelo lineal
para el análisis de varianza con dos criterios de clasificación, con replicación, es

X jk = µ + α k + β j + ι jk + ξijk

en donde:

µ = media global, sin importar el tratamiento

α k = efecto del tratamiento k

β j = efecto del bloque j

ι jk = efecto de la interacción entre el tratamiento k bloque j y el trata-


miento k ( ι es la letra griega iota)

ξik = el error aleatorio asociado al proceso de muestreo ( ξ es la letra grie-


ga épsilon)

La Tabla, presenta el resumen para el análisis de varianza con dos criterios de clasifi-
cación con replicación. Las fórmulas que se incluyen en la tabla se basan en la suposi-
ción de que existe un número igual de observaciones en todas las celdas.

15 Daniel Guzmán Rojas


ANÁLISIS DE VARIANZA Estadística No Paramétrica

Grados de Suma de cuadrados Cuadrado medio Cociente


Fuente de Variación
libertad (gl ) (SC ) (CM ) F

Entre grupo de
tratamientos ( A )
K −1 =
SCA
1 k 2 T2
∑ Tk − n CMA =
SCA
K −1
FcA =
CMA
CME
mJ i =1
Entre grupo de
bloques ( B )
J −1 =
SCB
1 k 2 T2
∑ Tj − n CMB =
SCB
J −1
FcB =
CMB
CME
mK k =1

( J − 1)( K − 1=
) SCI
2
Interacción entre 1 J K  m  T2 SCI CMI
los factores A y B ∑∑  ∑ X i  − SCA − SCB −
m=i 1 =k 1 =i 1  n
CMI =
( J − 1)( K − 1)
FcI =
CME

JK ( m − 1)
SCE
Error de SCE = SCT − SCA − SCB − SCI CME =
JK ( m − 1)
muestreo ( E )

m J K
T2
Total ( T ) n −1 =SCT ∑∑∑ X 2
ijk −
n
=i 1 =j 1 =
k 1

EJEMPLO

Se realizó un experimento para una cadena de joyerías para investigar la relación de


precios y ubicación en la demanda de sus diamantes. Se seleccionaron seis tiendas en
ciudades pequeñas para el estudio, además de seis tiendas localizadas en grandes cen-
tros comerciales suburbanos. Se asignaron dos tiendas en cada una de estas categorías
de localidades a cada uno de tres aumentos porcentuales. Se registro la ganancia (o
perdida) porcentual en las ventas para cada tienda al final de un mes. Los datos se
muestran en la tabla. ¿Proporcionan los datos suficiente evidencia para indicar diferen-
cias entre las utilidades por “LOCALIDAD” y por “AUMENTO”, utilizando un nivel de
significancia del 5%. Presentan los datos suficiente evidencia para indicar una interac-
ción, utilizando un nivel de significancia del 5%.

Aumentos
Total Promedio
Localidad
S1 S2 S3 Aumento Aumento

10 -3 -10
Ciudad Pequeña (D1) -16 -2.7
4 7 -24

14 8 -4
Centros suburbanos (D2) 42 7
18 3 3

Total
46 15 -35 T= 26.0
Localidad
Promedio
11.5 3.8 -8.8
Localidad

16 Daniel Guzmán Rojas


ANÁLISIS DE VARIANZA Estadística No Paramétrica

SOLUCIÓN

TRATAMIENTOS (AUMENTOS):

m=2 n = 12

T1 = 46 T2 = 15 T3 = −35 T = 26

T12 = 2,116 T22 = 225 T32 = 1, 225 T 2 = 676

BLOQUES (LOCALIDADES):

T1 = −16 T2 = 42

T12 = 256 T22 = 1,764

T 2 676
= = 56.33
n 12

2
J K
 m 
∑∑  ∑ Xi  = (10 + 4 ) + ( ( −3) + 7 ) +  + ( ( −10 ) + ( −24 ) ) = 2,514
2 2 2

k 1 =i 1
=j 1 = 

m J K

∑∑∑ X = 102 + 42 + ( −3)  + ( −4 ) + 32= 1, 468


2 2 2
ijk
=i 1 =j 1 =
k 1

m J K
T2
SCT= ∑∑∑ X ijk2 −
=i 1 =j 1 =
k 1 n
= 1, 468 − 56.33= 1,411.67

1 K
T2  1 
=
SCA ∑T 2
−=   ( 2,116 + 225 + 1, 225 ) − 56.33
= 835.17
 ( 2 )( 2 ) 
k
mJ k =1 n

1 J
T2  1 
=
SCB ∑ T =
− 2
  ( 256 + 1, 764 ) − 56.33
= 280.33
 ( 2 )( 3) 
j
mK j =1 n

2
1 J K  m  T2 1
=
SCI ∑∑ ∑ i
m =j 1 =k 1 =i 1 
X − SCA − SCB −=   ( 2,514 ) − 835.17 − 280.33 − 56.33
n 2
= 85.17

17 Daniel Guzmán Rojas


ANÁLISIS DE VARIANZA Estadística No Paramétrica

SCE =SCT − SCA − SCB − SCI =1, 411.67 − 835.17 − 280.33 − 85.17 =211.00

SCA 835.17
=
CMA = = 417.58
K −1 3 −1

SCB 280.33
=
CMB = = 280.33
J −1 2 −1

SCI 85.17
=CMI = = 42.58
( J − 1)( K − 1) ( 2 − 1)( 3 − 1)

SCE 211.00
=
CME = = 35.17
JK ( m − 1) ( 2 )( 3)( 2 − 1)

CMA 417.58
=
FcA = = 11.87
CME 35.17

CMB 280.33
=
FcB = = 7.97
CME 35.17

CMI 42.58
=
FcI = = 1.21
CME 35.17

ANVA (ANOVA)

Grados de Suma de cuadrados Cuadrado medio Cociente


Fuente de Variación
libertad (gl ) (SC ) (CM ) F

Entre grupo de
2 835.17 417.58 11.87
tratamientos ( A )

Entre grupo de
1 280.33 280.33 7.97
bloques ( B )

Interacción entre
2 85.17 42.58 1.21
los factores A y B

Error de
6 211.00 35.17
muestreo ( E )

Total ( T ) 11

18 Daniel Guzmán Rojas


ANÁLISIS DE VARIANZA Estadística No Paramétrica

TRATAMIENTOS (AUMENTOS):

1) HIPOTESIS:

H0: µ=
1 µ=
2 µ3 ó de manera equivalente H 0: α k = 0

Ha: µ1 ≠ µ2 ≠ µ3 Ha: α k ≠ 0

2) NIVEL DE SIGNIFICANCIA: α=0.05.

3) REGIÓN DE RECHAZO:

gl1 = K − 1 = 3 − 1 = 2 Se

JK ( m −=
1) ( 2 )( 3)( 2 −=
1)
acepta
=
gl 2 6 H0

Se
0.95 acepta
Ha

0.05

F2;6;0.05 = 5.14

4) DETERMINACIÓN DE FcA :

FcA = 11.87

5) CONCLUSION: Como FcA es mayor que F3;6;0.05 (11.87>5.14), entonces se acepta


la Ha, es decir, por lo menos dos utilidades promedio para los tres aumentos no
son iguales entre si, a un nivel de significancia del 5%.

BLOQUES (LOCALIDADES):

1) HIPOTESIS:

H0: µ1 = µ2 ó de manera equivalente H 0: β j = 0

Ha: µ1 ≠ µ2 Ha: β j ≠ 0

2) NIVEL DE SIGNIFICANCIA: α=0.05.

19 Daniel Guzmán Rojas


ANÁLISIS DE VARIANZA Estadística No Paramétrica

3) REGIÓN DE RECHAZO:

gl1 = J − 1 = 2 − 1 = 1 Se
JK ( m −=
1) ( 2 )( 3)( 2 −=
1)
acepta
=
gl 2 6 H0

Se
0.95 acepta
Ha

0.05

F1;6;0.05 = 5.99

4) DETERMINACIÓN DE FcB :

FcB = 7.97

5) CONCLUSION: Como FcB es mayor que F1;6;0.05 (7.97>5.99), entonces se acepta


la Ha, es decir, por lo menos dos utilidades promedio para las dos localidades no
son iguales entre si, a un nivel de significancia del 5%.

20 Daniel Guzmán Rojas


ANÁLISIS DE VARIANZA Estadística No Paramétrica

INTERACCIÓN ENTRE TRATAMIENTOS Y BLOQUES (AUMENTOS Y LOCALI-


DADES):

1) HIPOTESIS:

H0: ι jk = 0

Ha: ι jk ≠ 0

2) NIVEL DE SIGNIFICANCIA: α=0.05.

3) REGIÓN DE RECHAZO:

gl1 = ( J − 1)( K − 1) = ( 2 − 1)( 3 − 1) = 2


Se
=
gl 2 JK ( m −=
1) ( 2 )( 3)( 2 −=
1) 6 acepta
H0

Se
0.95 acepta
Ha

0.05

F2;6;0.05 = 5.14
4) DETERMINACIÓN DE FcI :

FcI = 1.21

5) CONCLUSIÓN: Como FcI es menor que F2;6;0.05 (1.21<5.14), entonces se acepta la


Ho, es decir, no existe interacción entre los aumentos y localidades (los dos
factores o variables categóricas son independientes entre si), a un nivel de sig-
nificancia del 5%.

21 Daniel Guzmán Rojas

También podría gustarte