Está en la página 1de 9

HIPÓTESIS SOBRE UNA VARIABLE EN MÁS DE DOS

POBLACIONES

Tal como se vio en el caso de una variable medida en dos poblaciones, en ocasiones se tienen varias
poblaciones de interés y en cada una de ellas se mide la misma variable. Se plantea la hipótesis de
igualdad de parámetros que permite probar si las distribuciones de las diferentes poblaciones son
iguales o no.

El caso de una variable aleatoria medida en más de dos poblaciones se tratará en las tres
distribuciones de interés: normal, multinomial y Bernoulli.

Igualdad de medias. Una normal en más de dos poblaciones


Se tienen más de dos poblaciones, digamos k y en cada una de ellas se mide la misma variable
aleatoria normal generando k distribuciones normales. Para conocer si las medias de las k
poblaciones son iguales o no, se plantea la pareja de hipótesis nula de igualdad de medias y la
hipótesis alternativa de que las medias no son iguales. Para realizar la prueba se dispone del método
de prueba que se conoce como análisis de varianza.

En problema con más de dos variables aleatorias normales generadas por una variable que se mide
en más de dos poblaciones surge de dos formas.

1) Se tiene una población que consta de varias poblaciones, que se definen usando algún criterio de
clasificación que resulta de interés en el estudio. Por ejemplo, se inicia un estudio sobre la calidad
del ensamble de baterías de computadora producidas a partir de 2007 por la compañía DDD y se
mide la variable temperatura de la batería después de trabajar dos horas. La población de casos
particulares está formada por las baterías que ha producido y sigue produciendo la compañía, pero
se puede partir en tres poblaciones de acuerdo con la capacidad de la batería de trabajar de manera
continua durante dos, tres y seis horas; quizá convenga partir la población de manera que cada
modelo de batería forme una nueva población. Además de estimar los parámetros media y
desviación estándar de cada población, es común que surja la inquietud de conocer si las medias de
las poblaciones tienen igual valor o quizá la inquietud sea conocer cuál tipo de batería se calienta
más.

2) Se tiene una población de elementos homogéneos, esto quiere decir que con respecto a la
variable de interés los casos particulares son casi iguales excepto por una variación cuya causa no se
puede o no se desea identificar. Usando los elementos homogéneos se desea comparar el efecto
que tienen en el valor de la variable más de dos estímulos y para ello se selecciona una muestra de
elementos a los que se aplica el primer estímulo, a otra muestra se le aplica el segundo estímulo,
etc., luego se mantiene en condiciones casi iguales, excepto por variación no controlada a los
elementos que recibieron los diferentes estímulos, para terminar el trabajo al medir la variable de
interés cuando los estímulos hayan hecho efecto. En esta forma de crear a las poblaciones se dice
que los estímulos son los tratamientos y se desea conocer si los efectos de los tratamientos son
iguales, En caso de que las medias de los tratamientos no sean iguales se tendrá interés en conocer
cuáles parejas de tratamientos tienen diferente media y cuáles tienen medias iguales.
Como ejemplo de estímulos que se aplican, piense en una compañía que fabrica perfumes y tiene
casi listo el lanzamiento de un nuevo perfume, pero no ha decidido la cantidad que debe adicionar
de tres sustancias que actúan como fijadores. La variable de interés es el tiempo que dura el aroma y
los tratamientos son las combinaciones de diferentes cantidades de las tres sustancias fijadoras. Se
decide probar los estímulos que consisten de cada sustancia por separado y uno más en el que se
mezclan los tres en cantidades iguales, esto da cuatro tratamientos o cuatro tipos de estímulos. Los
elementos son placas probadoras de un material secreto que simula a la piel humana, que tienen
forma cuadrada de 2 cm por lado . Se aplica cada tratamiento a 20 placas, la misma cantidad de
perfume a cada placa y se mide el tiempo que dura el aroma en cada una, se trata de identificar al
tratamiento que presenta la mayor media de duración del aroma.

Análisis de varianza
Para probar si las medias de k distribuciones normales son iguales contra la hipótesis alternativa de
que no son iguales se usará el análisis de varianza. Note que las medias no son iguales si al menos
dos de ellas no son iguales. El análisis de varianza supone que las desviaciones estándar de las
distribuciones son iguales y que el valor de la desviación estándar común se desconoce.

Se tiene entonces una variable cuantitativa X que se mide en k poblaciones; k puede ser cualquier
número entero igual o mayor que 2. En la población uno X tiene una distribución normal con media
y desviación estándar que se identifican con el subíndice uno, así en la población uno X~N(µ1, σ1*σ1),
en la población dos la distribución de la variable X es normal con media y desviación estándar
identificadas con el subíndice 2, entonces X~N(µ2, σ2*σ2) y así hasta llegar a la población k, en ella la
variable aleatoria es normal y sus parámetros se identifican con el subíndice k, entonces X~N(µk,
σk*σk). Debido a que los parámetros de las distribuciones se identifican con un subíndice que indica a
cuál población pertenecen, se acostumbra identificar también a la variable aleatoria con un
subíndice que indica en que población se está midiendo. Se dice que X1 es la variable X referida a la
población 1, X2 es la variable X referida a la población 2, etc. y se escribe X1~N(µ1, σ1*σ1), X2~N(µ2,
σ2*σ2), ... y Xk~N(µk, σk*σk).

Se tienen k muestras, una muestra de cada población y para identificar de qué población proviene la
muestra y el caso dentro de la muestra se usan dos subíndices, el primero indica la población, que
puede ser uno, dos, tres,..., k y el segundo subíndice identifica al caso dentro de la muestra. Si la
X 1 ,n
muestra de la población uno consta de n 1 casos se representa con X1,1, X1,2,..., 1 , la muestra de la
X 2 ,n
segunda población, que consta de n 2 casos se representa como X2,1, X2,2,..., 2 y así se sigue hasta
X k ,n
la muestra de la población k, que se representa como Xk,1, Xk,2,..., k . La muestra total será X1,1,
X 1 ,n X 2 ,n X k ,n
X1,2,..., 1 , X2,1, X2,2,..., 2 ,..., Xk,1, Xk,2..., k . Los tamaños de muestra o números de casos son

n1 para la muestra de la población uno, n 2 para la muestra de la población dos, etc. y n k para la
población k.

La muestra total consta entonces de n 1+n2+ ... + nk = n casos que se observan a la variable X, de estos
casos los primeros n1 corresponden a la primera población, los siguientes n 2 provienen de la segunda
población y así se sigue hasta llegar a los últimos n k casos que corresponden a la población k. Debe
quedar claro que si hay cuatro poblaciones entonces k vale cuatro y se tendrán n 1+n2+n3+n4 = n casos
en toda la muestra. Conviene recordar que la presentación de los datos en la computadora se hace
en dos columnas, en la primera columna están los n valores que toma X, que se conoce como
variable respuesta y en la segunda columna está la identificación de la población a la que pertenece
cada valor de la variable; esta identificación es un 1 para los datos de la primera población, un 2 para
los datos de la segunda población, etc. Se acostumbra organizar los datos de modo que los primeros
n1 renglones tengan a los n1 casos de la muestra de la población uno y en la segunda columna habrá
en correspondencia un uno en cada uno de los primeros n 1 renglones, luego siguen los valores de la
muestra de la segunda población y a cada uno de ellos les corresponde un número dos en la segunda
columna, etc.

El método de análisis de varianza supone que las distribuciones de la variable X en las diferentes
poblaciones son normales y que estas distribuciones normales tienen la misma desviación estándar.
Se tiene entonces X1~N(µ1, σ*σ), X2~N(µ2, σ*σ), ... y Xk~N(µk, σ*σ) y se desea probar la hipótesis nula
de que las medias µ1, µ2, ...,µk son iguales, hipótesis que se representa como H 0: µ1 =µ2 = ... =µk,
contra la hipótesis alternativa de que las medias µ 1, µ2, ...,µk no son todas iguales, que se representa
como HA: No se cumple H0, o con mayor detalle como HA: Hay al menos una pareja entre las medias
µ1, µ2, ... , µk, digamos µi y µj tales que µi ≠ µj.

El resultado teórico que permite hacer el análisis de varianza para probar la igualdad de medias en k
poblaciones con distribución normal y con igual desviación estándar, se basa en el estadístico F, que
es el estadístico de prueba. El valor que se calcula para F a partir de la muestra se representa como
Fc; el subíndice c indica que se calculó el valor de F usando los valores de la muestra.

La forma de efectuar la prueba cuando se establece un nivel de significación α consiste, como en los
casos anteriores, en rechazar la hipótesis nula H 0: µ1 =µ2 = ... =µk si el valor de la significación
muestral α^ es menor que el nivel de significación α. Cuando se hacen los cálculos a mano, el
estadístico Fc se compara con el percentil 100(1-α)% de una variable con distribución F con
parámetros k-1 y n-k. Se rechaza la hipótesis nula H 0: µ1 =µ2 = ... =µk si el valor Fc es mayor que Fk-1, n-k,
1-α, que es el percentil . Los paquetes estadísticos dan los valores de la F calculada F c y el valor de la

significación muestral α^ . Recuerde que se acostumbra dar a α uno de los valores 0.10, 0.05, 0.01 0
0.001 y si no tiene información para elegir entre ellos use 0.05.

Cuando se rechaza la hipótesis nula porque el valor de la significación muestral α^ resultó menor que
el valor del nivel de significación establecido, se sugiere que se concluya como sigue: la muestra da
evidencia para rechazar con significación muestral α^ (en lugar de α^ se escribe el valor que se
obtuvo) la hipótesis nula de igualdad de medias de las poblaciones; para fines prácticos las medias
no son iguales.

Si debido a que el valor de la significación muestral resultó mayor que el nivel de significación
establecido no se rechaza la hipótesis nula, se sugiere concluir como sigue: la muestra no da
evidencia para rechazar la hipótesis nula de igualdad de medias de las poblaciones debido a que la
significación muestral α^ (en lugar de α^ se escribe el valor que se obtuvo) resultó mayor que el nivel
de significación establecido; para fines prácticos las medias de las poblaciones son iguales.

En cualquiera de los casos la conclusión estadística deberá seguirse con su aplicación al problema
práctico que dio lugar al problema. Si no se rechaza la hipótesis nula de igualdad de medias, se
considera que las medias de las poblaciones son iguales y en lo que a la variable X concierne se tiene
una población y una distribución. Si se rechaza la hipótesis de igualdad de medias, se sabe que al
menos una pareja de medias es diferente, es razonable seguir analizando los datos para encontrar
que parejas de medias son diferentes; esto se verá en la siguiente sección.

Ejemplo 1. Una normal en más de dos poblaciones. Prueba de igualdad de


medias
Se desea probar si las medias de las ventas de tres empleados de mostrador son iguales. Se
dispone de los datos de las ventas, en miles de pesos de los cinco días anteriores al estudio. La
variable ventas se mide a los días de trabajo de cada vendedor. La población de ventas del día
da lugar a tres poblaciones, cada una de ellas formada por las ventas de un empleado, así las
ventas de Zamora forman una población, las de Zúñiga otra y las ventas de Morelos forman la
tercera población. De cada población se tiene una muestra y se desea probar si las medias de
las ventas son iguales. Se supone que la variable ventas sigue la distribución normal y se
plantea la pareja de hipótesis H0:μ1=μ2=μ3 y HA: No se cumple H0. Los datos son:

Ventas
Zamora 17 10 11 8 13
Zúñiga 14 16 13 10 9
Morelos 18 22 17 14 19

Para hacer la prueba se pide al paquete estadístico que haga el análisis de varianza y se
obtiene el listado siguiente.

Sección de prueba estadísticos descriptivos


Término # de casos Media Error estándar
Todos 15 14.06667 2.813333
A: vendedor
Zamora 5 11.8 1.378405
Zúñiga 5 12.4 1.378405
Morelos 5 18 1.378405

Sección de prueba de suposiciones


Suposición Valor Significación Muestral Decisión con 5%
Simetría normal de los residuales 0.5083 0.611269 Aceptar H0
Achatamiento normal de los residuales -0.6742 0.500172 Aceptar H0
Normal General de los residuales 0.7129 0.700157 Aceptar H0
Prueba de Levene de igual varianza 0.0522 0.949378 Aceptar H0

Tabla de análisis de varianza


Fuente de Grados de Suma de Cuadrado F Significación
Variación Libertad (GL) cuadrados (SC) Medio (CM) Muestral

A: vendedor 2 116.9333 58.46667 6.15 0.014471*


S(A) 12 114 9.5
Total 14 230.9333
* Rechace con 5% de significación

En las pruebas sobre las suposiciones los valores de las significaciones muestrales son mucho más
grandes que 0.05 y no hay evidencia para rechazar el modelo de distribución normal con desviación
estándar constante.

La gráfica de cajas y ejes en la página siguiente, muestra que las ventas de Morelos son mayores que
las de Zamora y Zúñiga y que estas últimas toman valores similares.

La significación muestral α^ =0.014471 para la hipótesis de igualdad de medias se presenta en


la columna de la derecha de la tabla de análisis de varianza siguiente:
El valor α^ =0.014471 conduce al rechazo de la hipótesis nula; se concluye que la muestra da
evidencia para rechazar la hipótesis nula de igualdad de medias y conviene seguir el análisis
para determinar las parejas de medias que por ser diferentes causan el rechazo.

Gráfica de cajas y ejes para ventas


25

20
Ventas

15

10

5
Morelos Zamora Zúñiga
Vendedor

Con el objetivo de reforzar la capacidad del lector para seguir instrucciones dadas por las ecuaciones
que usan notación compacta para la suma, capacitarlos para leer otros libros y atender otros cursos
de estadística aplicada, se presenta la ecuación para obtener el valor de F c usando una calculadora:

ni k n
i

k
( ∑ X ij ) 2
( ∑ ∑ X ij )2

n−k
∑ j=1
ni

i=1 j=1
n
i=1
F c=
k −1 ni

( ∑ X ij )
2
k ni k

∑ ∑ X 2ij−∑ j=1
ni
i=1 j=1 i=1 .

Si se presta atención a las partes de la ecuación se verá que no es tan difícil obtener el valor de F c.

k

Recuerde que i =1 indica que se van a sumar k términos, uno para cada valor que toma el subíndice i
que son los valores 1,2,...,k-1,k que corresponden a las k poblaciones. El sumando i pide que se
ni


calcule la expresión j=1 que indica que se deben sumar ni términos, uno para cada observación de
k ni

∑∑
la muestra i. De acuerdo con lo anterior, la doble sigma i=1 j=1 indica que se va a realizar la suma
de n términos, uno por cada una de las n observaciones de la muestra total, indicando que primero
tome la muestra de la población 1 (i vale 1) y sume n 1 términos, uno por cada caso, luego tome los n 2
términos de la muestra de la población 2 (i vale 2), etc.

ni

k
( ∑ X ij )2 k

∑ j=1
ni

Vea que la primera parte del numerador i=1 es la instrucción i =1 para sumar k valores,
ni

( ∑ X 1 j )2
j=1

uno por cada población, el primero de los k valores n1 , es el total de las observaciones de la
muestra de la población 1 elevado al cuadrado y dividido entre el número de casos n 1, el segundo
ni

( ∑ X 2 j )2
j=1

valor n2 es el total de las observaciones de la muestra de la población 2 elevado al cuadrado


y dividido entre el número de casos n 2, etc., hasta llegar a la muestra de la población k que es
ni

( ∑ X kj )2
j=1
nk el total de las observaciones de la muestra de la población k elevado al cuadrado y
dividido entre el número de casos nk.

k ni

( ∑ ∑ X ij )2 k ni

n
i=1 j =1
∑∑
La segunda parte del numerador es la suma i=1 j=1 de todas las observaciones, ya
que primero se suman las observaciones de cada muestra y luego los k resultados parciales se
suman. La suma de todas las observaciones se eleva al cuadrado y luego se divide entre el número
total de casos en la muestra: n.

k ni

∑ ∑ X 2ij
En el denominador i=1 j=1 da la instrucción para hacer una suma de n términos, cada término
corresponde a una de las observaciones y es el cuadrado del valor de la observación, esto quiere
decir que primero se debe obtener el cuadrado de cada valor de la muestra y luego se suman los n
valores que se obtuvieron al elevar al cuadrado cada valor.

La segunda parte del denominador es la misma que la primera del numerador.

Los valores obtenidos se sustituyen en la ecuación haciendo las restas que están indicadas en el
numerador y en el denominador. El resultado se multiplica por n-k y se divide entre k-1.

El procedimiento se puede resumir en los doce pasos siguientes:

1. Obtener el total de las observaciones de cada grupo.


2. Elevar al cuadrado cada total de grupo, dividirlo entre su número de casos y sumar estos
resultados.
3. Obtener el total de todas las observaciones.
4. Elevar al cuadrado el total de todas las observaciones y dividirlo entre el número de casos total.
5. Elevar al cuadrado cada observación y luego sumar los resultados
6. Al resultado en (2) restarle el resultado en (4)
7. Al resultado en (5) restarle el resultado en (2)
8. Dividir el resultado en (6) entre el resultado en (7)
9. Restar al número total de casos el número de grupos: n-k
10. Restar uno al número de grupos: k-1
11. Dividir el resultado en (9) entre el resultado en (10)
12. Multiplicar el resultado en (8) por el resultado en (11) para obtener F c

Una vez que se tiene el valor de F c se compara con el valor de percentil 100(1-α)% de la distribución
Fk-1,n-k, que se representa como F k-1,n-k, 1-α y que se obtiene de tablas o del calculador de probabilidades
del paquete estadístico. Se rechaza la hipótesis de igualdad de medias si F c resulta mayor que Fk-1,n-k, 1-
α, esto agrega dos pasos más al procedimiento abreviado.

13. Obtener el percentil 0.95 de la F con k-1 y n-k grados de libertad: F k-1,n-k,0.95
14. Rechazar la hipótesis de igualdad de medias si F c es mayor que Fk-1,n-k,0.95.

Si se va a usar el paquete estadístico para obtener el valor de F k-1,n-k, 1-α, mejor se obtiene de una vez
el valor de la significación muestral α^ , que es la probabilidad de que una variable con distribución F k-
1,n-k sea mayor que el valor de Fc.

Entonces la significación muestral se calcula como la probabilidad de que una variable F con k-1 y n-
k-1 grados de libertad sea mayor que el valor calculado F c para F en la muestra, se escribe

α^ = P[Fk-1, n-k > Fc],

es la probabilidad de que una variable F k-1, n-k sea mayor que Fc; una F con sus grados de libertad
como subíndices representa a una variable aleatoria F con parámetros iguales a los valores que
están en el subíndice: k-1 y n-k y Fc es el valor calculado para F en la muestra.

Ejemplo1 (continúa). Una normal en más de dos poblaciones. Prueba de


igualdad de medias

Para aplicar los catorce pasos de cálculo a los datos del problema de ventas conviene hacer
una tabla que incluye el total de cada grupo, su cuadrado y cada uno de estos cuadrados
dividido entre n, se tiene:

j=1 j=2 j=3 j=4 J=5 i Total Total2 Total2/ni


Zamora 17 10 11 8 13 1 59 3481 696.20
Zúñiga 14 16 13 10 9 2 62 3844 768.80
Morelos 18 22 17 14 19 3 90 8100 1620.00
Suma 211 3085.00

1. Obtener el total de las observaciones de cada grupo (vea la tabla)


2. Elevar al cuadrado cada total de grupo, dividirlo entre su número de casos y sumar estos
resultados (3085.00)
3. Obtener el total de todas las observaciones (211)
4. Elevar al cuadrado el total de todas las observaciones y dividirlo entre el número de casos
total (2968.07)
5. Elevar al cuadrado cada observación y luego sumar los resultados (3199)
6. Al resultado en (2) restarle el resultado en (4) (116.93)
7. Al resultado en (5) restarle el resultado en (2) (114.00)
8. Dividir el resultado en (6) entre el resultado en (7) (1.0257)
9. Restar al número total de casos el número de grupos: n-k
10. Resta uno al número de grupos menos uno: k-1
11. Dividir el resultado en (9) entre el resultado en (10) (6)
12. Multiplicar el resultado en (8) por el resultado en (11), este es F c = 6.1542
13. Obtener el percentil 0.95 de la F con 2 y 12 grados de libertad: F 2,12,0.95= 3.88
14. Rechazar la hipótesis de igualdad de medias si la F c es mayor que el percentil Fk-1,n-k,0.95
(6.1542 es mayor que 3.88).

Como se ve en los valores adicionados a la tabla de catorce pasos, se obtiene el mismo


resultado que usando el paquete estadístico, los pasos 13 y 14 dan la información para
rechazar la hipótesis de igualdad de medias.

Ejercicio
Utilice Excel y NCSS para obtener los resultados del ejemplo de análisis de varianza con los
datos de ventas. Los datos y resultados están en el libro EjemplosLibro de Excel en la hoja 24 y
en el archivo Ej24_Prueba_kNormales de NCSS en el CD del texto. Las instrucciones para
obtener el resultado usando Excel están en el anexo 1 y las instrucciones para usar el NCSS
están en el anexo 2, en ambos identificados como Ejemplo. Una normal en más de dos
poblaciones. Prueba de igualdad de medias. Si dispone de otro paquete estadístico, trabaje con
él para obtener los resultados del ejemplo.

Prueba de Bonferroni para separación de medias


Después de que se prueba la igualdad de medias en k normales y se rechaza la hipótesis de igualdad,
se debe proceder a probar la igualdad de cada pareja de medias concluyendo para cada pareja si sus
medias son iguales o no. También se puede separar las medias en grupos de tal forma que dentro
de un grupo estén las parejas de medias que en la prueba resultaron iguales. Hay muchos métodos
de comparación de medias, cada método tiene propiedades que son atractivas para algunos
investigadores y no hay acuerdo sobre el método que deba recomendarse en general. En las
aplicaciones del autor la prueba de Bonferroni ha dado resultados adecuados y tiene la propiedad de
ser conservadora porque comete menos errores tipo I que otros métodos y da resultados parecidos
a los de la prueba en el análisis de varianza, en las pruebas de las parejas de medias usa un nivel de
significación conjunto para todas las comparaciones de parejas de medias, .

La prueba de Bonferroni utiliza la distribución t con n-k grados de libertad, tn-k, los mismos grados de
libertad que el renglón del error en el análisis de varianza. Para hacer la prueba con nivel de
significación conjunto α, el mismo que se usó en el análisis de varianza, se utiliza el percentil
α
100(1− )
k( k−1) % de la distribución t con n-k grados de libertad. La prueba se realiza por separado
para cada una de las parejas de medias. Para cada pareja de medias se calcula su distancia
α
1−
estandarizada y se compara con el percentil t n-k,a, con a = k(k−1) . Para la pareja i, j, la distancia
estandarizada, dij, se calcula con la ecuación
| X̄ i− X̄ j|
d ij =

√ s2(
1 1
+ )
ni n j .

y si dij resulta mayor que tn-k,a se rechaza la hipótesis de que las medias μ i y μj son iguales, de otra
manera no hay evidencia para rechazar la hipótesis de igualdad de medias. Lo anterior se repite para
cada una de las parejas de medias.

En esta prueba puede ocurrir que dos medias resulten diferentes pero ninguna de las dos sea
diferente de una tercera; no se puede concluir que dos medias iguales a una tercera son iguales
entre si, ya que no hay tal igualdad, lo que hay es falta de evidencia para rechazar la hipótesis de
igualdad de medias.

Los paquetes estadísticos presentan los resultados de la prueba de Bonferroni enlistando las medias
ordenadas de menor a mayor y en cada renglón adicionan una columna donde indican a que medias
es diferente la media que está en el renglón.

Ejemplo 1 (continúa). Una normal en más de dos poblaciones. Prueba de


Bonferroni

En el ejemplo de ventas se rechazó la hipótesis de igualdad de medias en el análisis de


varianza. Para conocer cuáles medias son diferentes se hace la comparación de parejas de
medias usando el procedimiento de Bonferroni.

En el listado siguiente se puede ver que la media de ventas de Morelos difiere de las medias de
Zamora y Zúñiga pero no hay evidencia para rechazar la hipótesis de que las medias de ventas
de Zamora y Zúñiga son iguales.

Prueba de comparación de parejas de medias de Bonferroni


Variable respuesta: ventas
Termino A: vendedor
Alfa=0.050 Término de Error = S(A) GL=12 CME=9.5 Valor crítico de tablas=2.779473

Grupo # de casos Media Diferente de los grupos


Zamora 5 11.8 Morelos
Zúñiga 5 12.4 Morelos
Morelos 5 18 Zamora, Zúñiga

También podría gustarte