Está en la página 1de 33

Diseño Completo al Azar (DCA) con diferente número de

repeticiones por
tratamiento. Prueba no paramétrica de Kruskal-Wallis. DCA
con submuestreo.

- Luis Alva Díaz


- Lisbeth Jhobana Arce Culqui
- Leydi Tafur Bazán
- Eduard Valdivia Torres
- María del Pilar Guiop Trigoso
- Humberto Hernandez Vilcarromero

Métodos Estadísticos
DCA con diferente número de repeticiones por tratamiento.

Ocurren circunstancias en la que por razones fortuitas, aparecen tratamientos con el número de
observaciones diferentes entre los niveles de tratamientos o factor bajo estudio. Sin embargo, ante
estos hechos, el procedimiento es el mismo, con la debida atención que debemos brindar al realizar
los cálculos de las sumas de cuadrados.

El gran total o total general se representa con:


Tabla 1. Esquema de un DCA con desigual número de observaciones
por tratamiento

Repeticiones por Tratamientos


tratamiento 1 2 3 …i… t

Observaciones Y11 Y21 Y21 Yi1 Yt1


por tratamiento
Y12 Y22 Y22 Yi2 Yt2

Y el número total de observaciones es: Y13 Y13 Y13 Yi3 Yt3

. . . . .

. . . . .

. . . . .

Y1n1 Y2n2 Y2n2 Yini Ytnt


Total tratamiento Y1. Y2. Y3. Yi. Yt.
N.° de n1 n2 n3 … ni … nt
observaciones
DISEÑO COMPLETAMENTE AL AZAR CON DESIGUAL NÚMERO DE
REPETICIONES

 
Planteamiento de hipótesis

 
Pasos
Para el análisis de varianza:

1º El término de corrección: es el total general al cuadrado dividido por el número total de observaciones

2º La suma de cuadrados absoluta de todas las observaciones

3º La suma de cuadrado entre tratamientos.

4º La suma de cuadrado del error.

Métodos Estadísticos
5º Los cuadrados medios entre tratamientos y dentro de tratamientos

Tabla 2. Esquema del análisis de la varianza con tamaño desigual de muestra.

Fuente de G.L S.C C.M. Fc Ft


Variabilidad
       *
Tratamiento t- 1 SCt(t-1 CMt/ CME ** Donde
  t = número de
          tratamientos
Error   SCT - SCt ni = número de
         
elementos por
Total   cada tratamiento

Regla de decisión

Si Fc > Ft la hipótesis nula Ho se rechaza


Ejemplo 1
El profesor del curso de métodos estadísticos de la Universidad Nacional Toribio Rodríguez de Mendoza de
Amazonas realiza un comparativo de las calificaciones obtenidos por sus alumnos durante semestres
consecutivos pasados. Los estudiantes pertenecen a cuatro carreras de ingenierías distintas (Civil, Ambiental,
Forestal, Zootecnista) pero el profesor lo administra en forma conjunta. Las calificaciones de los estudiantes se
registran en la tabla. Se desea conocer ¿podemos deducir que las calificaciones de los estudiantes han sido
afectadas significativamente por las carreras profesionales? . Utiliza un nivel de significancia del 5%

REPETICIONES CARRERAS TOTAL


CIVIL AMBIENTAL FORESTAL ZOOTECNISTA  
1 18 12 12 15
 
2 19 14 18 16
 
3 15 15 17 17
 
4 16 13 16 18
 
5 18 14 12
 
6 14 17
 
7 15
 
Total tratamiento 100 54 77 110
 
 

Tamaño de n 6 4 5 7 22
16.67 13.50 15.40 15.71 15.32

Métodos Estadísticos
Planteo las hipótesis

H0: Las medias de rendimientos de los estudiantes son iguales (µ1 = µ2 = µ3 =µ4)
H1: (Por lo menos un rendimiento es diferente) µ1≠µ2≠µ3≠µ4

Estimación de la Variabilidad dentro de tratamientos

 Tratamiento 1 = - = 19.33
Tratamiento 2 = - = 5
Tratamiento 3 = - = 23.2
Tratamiento 4 = - = 23.42

SCR = SCE = 19.33 + 5 + 23.2 + 23.42 = 70.95


Por lo tanto el CME =
Variabilidad entre tratamientos

 SCT = SCtratamiento = + = 24.538


 

 Cuadrado medio para tratamientos


CMT =

La tabla del análisis de la varianza

Fuente de G.L S.C C.M. Fc


Variabilidad
Entre 3 24.538 8.18 2.08
tratamientos
 
Dentro de 18 70.95 3.94  
tratamientos
 
Total 21      
 
F ( 3.18) = 3.16

Fcal = 2.08

Fcal < F tabla

Fcal = 2.08 F ( 3.18) = 3.16

Interpretación: se acepta la hipótesis nula; es decir, no existe diferencias significativas entre los promedios de
rendimiento de las distintas carreras profesionales de la UNTRM debido a que el valor de F con 3 y 18 grados de
libertad a un nivel del 0.05 es mayor que el valor de F calculado.
Ejemplo 2

Se desea evaluar sí para una zona dada existen diferencias significativas en el crecimiento en altura de
cinco variedades de plantas de Pinus Montezumae. Para tal efecto, se plantó material de cada una de las
variedades en seis parcelas de igual superficie. Las mediciones se hicieron a los diez años de efectuada la
plantación, observándose que para entonces se habían perdido dos parcelas de la variedad 1 y una
parcela de la variedad 5. Los datos obtenidos se presentan en la Tabla
 
Cálculo de los cuadrados medios

Regla de decisión: Puesto que Fc = 29.58 > F 0.05(4,22) = 2.82 la hipótesis


nula Ho se rechaza y concluimos que por lo menos existe una variedad de
pino diferente a las demás, con una significancia del 5%.
Prueba no paramétrica de Kruskal Wallis.

Hemos tratado con experimentos con tres o más niveles de tratamientos, en consideración
que las muestran provienen de poblaciones que se distribuyen en forma normal o
aproximadamente normal, con varianzas idénticas. En estas circunstancias, se aplica el
tradicional método del análisis de varianza en la cual empleamos la prueba F para la
comparación de las medias de los tratamientos y su significación.

Sin embargo, en algunas ocasiones no es posible realizar tales supuestos de normalidad,


debido a que no existen indicaciones claras de su cumplimiento. Siendo así, recurrimos al
método de la suma de rangos o de Kruskal-Wallis, que reemplaza eficientemente al método
del ANVA.
Prueba no paramétrica de Kruskal Wallis
Consiste en calcular un estadístico H , en la cual, la
consideración relevante es que sea de tipo continuo

Dónde:
 
N: número de elementos de las muestras combinados
ni: número de elementos de cada tratamiento o muestra
k: niveles del factor
R: suma de rangos de cada muestra y el estadístico H se
distribuye aproximadamente como con (k – 1) grados de
libertad.
 
El planteamiento de la H0: las distribuciones de las k poblaciones son iguales y la hipótesis alternativa
manifiesta que son diferentes.

Como esta prueba es de una sola cola, se rechazará la hipótesis nula si el valor de H es igual o mayor que el
valor de
H0 = m1 = m2 = … =mk
H1= m1≠m2≠…≠m4
Cuando se repite alguno de los datos

  H

 T =

o Primero se combinan los datos de todas las muestras y se ordenan de menor a


mayor.
o Cuando los datos se repiten, se calcula el promedio de los rangos que les
corresponde.
Ejemplo
Se llevó a cabo un experimento agrícola en la que se prueban tres variedades de tomate
distribuidas en 40 parcelas homogéneas en forma aleatoria. Los rendimientos en kilogramos por
parcela se muestran a continuación. Manifestar si existen diferencias significativas en el
rendimiento de las tres variedades con un nivel de significación del 0.05. Emplear la prueba no
paramétrica de suma de rangos.
Variedad A Variedad B Variedad C
50 45 50
60 39 48
70 67 60
65 61 36
42 45 35
40 38 75
48 49 81
50 64
60 59
73 31
80
n 7 11 10
Solución

Paso 1: planteamiento de hipótesis:

Ho: las distribuciones de las 3 variedades de tomate son iguales


H1: las distribuciones de las 3 variedades de tomate son diferentes.

´Paso 2: se ordenan los datos Paso 3: se calculan los rangos


Variedad A Variedad B Variedad C Variedad A Variedad B Variedad C
40 38 31 6 4 1
42 39 35 7 5 2
48 45 36 10.5 8.5 3
50 45 48 14 8.5 10.5
60 49 50 18 12 14
65 50 59 22 14 16
70 60 60 24 18 18
   
61 64 20 21
   
67 75 23 75
   
73 81 25 29
       
80 28
 = 101.5 70 64.5
210302.25
 
𝒓𝒊 4900 4160.25
Paso 4: se calcula el estadístico
T1=
 
T1= 6

  H T2=
N = 28 T2= 25

T3=
T3= 25

T4=
 H = T4= 6

H = 282621.0817

Paso 5: se calcula los grados de libertad

n– 1 = 3 – 1 = 2
Paso 6: regla de decisión

 El valor de = 5.99

Valor H calculado =
282621.0817
Hcal > F tabla

F ( 0.05,2)=5.99 Fcal =
282621.0817
Interpretación: se rechaza la hipótesis nula; es decir, al menos una de las distribuciones de las 3 variedades de
tomate son diferentes, debido a que el valor de x con un nivel del 0.05 es mucho menor que el valor de H
calculado.
Ejemplo 2
Un psicólogo de la UNTRM realizo un estudio de clima organizacional dentro de la universidad. Se aplico una escala de
clima organizacional a trabajadores que ocupan los siguientes cargos: Decanos, Directores de escuela, profesores y
personal de limpieza. Lo que se pretende con este estudio es conocer si estos cuatro grupos difieren en la percepción que
tienen estos sobre su ambiente laboral. Con un nivel de confianza del 95%.
Hipótesis estadísticas:

H0= No existe diferencias estadísticamente significativas entre los puntajes de clima organizacional de acuerdo con el tipo
de cargo.
H1= Existen diferencias estadisticamente significativas entre los puntajes de clima organizacional de acuerdo con el tipo de
cargo.

Tabla 1: Valores de acuerdo a la escala de clima


organizacional Tabla 2: Ordenamiento y cálculo de rangos
Decanos Directores de Profesores Personal de Decanos Directores de Profesores Personal de
escuela limpieza escuela limpieza

78 61 44 20 15.5 12 6 2
78 56 24 19 15.5 9 5 1
71 59 46 23 13 10 7 3.5
72 60 47 23 14 11 8 3.5
58 42 26 10
Ejemplo 2 Decanos Directores
de escuela
Profesores Personal de
limpieza

78 61 44 20
  H
78 56 24 19
71 59 46 23

72 60 47 23

H13.98
  T=
 
Gl4-1 T=
  T=
 
  T= 6 T= 6
Gl3

 El valor de = 7.815
Hcal > F tabla
Valor H calculado = 13.98
H  13.98 > 7.815

H  Conclusión: se rechaza la hipótesis nula; es decir, si existen diferencias


estadisticamente significativas entre los puntajes de clima organizacional
de acuerdo con el tipo de cargo.
DCA con submuestreo
En algunos experimentos, pueden obtenerse varias observaciones en cada Unidad Experimental (UE). Si
éstas observaciones están todas en la misma característica (o se mide la misma variable respuesta), el
proceso para obtener las observaciones es frecuentemente llamado Submuestreo.

Se lo emplea cuando el investigador no está interesado en:


 Tomar los datos de toda la unidad experimental
 Generalmente con el fin de ahorrar tiempo y trabajo, o por conveniencia.
 Los datos son tomados por partes o porciones de la unidad experimental, las que se constituyen o
conocencomo submuestras.

Es necesario distinguir entre:

 Error experimental: variación entre UE de un mismo tratamiento


 Error de muestreo: (variación entre submuestra en una misma UE(, sl que dan lugar las submuestras
tomadas de la unidad o parcela experimental.
Modelo lineal para submuestreo
 El modelo lineal para un diseño completamente al azar con submuestreo es el siguiente:

Donde:
  t = número de tratamientos

= número de observaciones en la j-ésima repetición del i-ésimo tratamiento

µ = media general
= efecto atribuído al i-ésimo tratamiento
= término del error experimental
= término del error observacional.
i = iesimo - tratamiento
j = jotaésima - repetición
k = k-ésima - muestra

Hipótesis a probar
 Ho :
H1 : Al menos el efecto de un tratamiento es diferente de los demás
Análisis de varianza con submuestreo. Número igual de submuestras.

 
Donde:

 
Donde:
FC= Factor de corrección
s = número de submuestras por unidad experimental
r = número de repeticiones
Y = suma de todas las observaciones en el experimento
suma de todas las observaciones que pertenecen al j-ésima repetición
del i-ésimo tratamiento.
Regla de decisión
Ejercicio
Se diseñó un experimento para estudiar el rendimiento de cuatro detergentes
diferentes. Las siguientes lecturas de "blancura" se obtuvieron con un equipo
especialmente diseñado para 12 cargas de lavado distribuidas en tres modelos
de lavadoras:

Lav. 1 Lav. 2 Lav. 3 Totales

Detergente A 45 43 51 139
Detergente B 47 46 52 145
Detergente C 48 50 55 153
Detergente D 42 37 49 128
Totales 182 176 207 565
Solución
Considerando los detergentes como tratamientos  y las lavadoras como bloques, se obtiene la tabla
de análisis de varianza adecuada y se prueba con análisis de varianza adecuada y se prueba con
un nivel de significación de 0.01 si existen diferencias entre los detergentes o entre las lavadoras.

SCT =
SC(Tr)=([ + 3 – FC =111
SC(BI)= [/4 -26602=135
SCE = 265-11-135=19
Solución
Fuente de Grados de Suma de Cuadrado medio F
varianza libertad cuadrados
Detergentes 3 111 37.0 11.6
Lavadoras 2 135 67.5 21.1
Error 6 19 3.2 -
Total 11 265 - -

Ftr = 11.6
En la tabla
F(0,01;3;6) = 9.78
Solución
El primer F calculado sobrepasa el F de tabla, por lo que se rechaza la hipótesis nula; es decir, existen diferencias en la
eficiencia de los cuatro detergentes.
Fbl = 21.1
En la tabla

F(0,01;2;6) = 10.9
Como el F calculado sobrepasa el F de tabla, se rechaza la hipótesis nula; es decir, existen diferencias entre los
resultados de las 3 lavadoras.
Interpretación: Se rechaza Ho esto quiere decir que al menos una de ellas tiene un rendimiento signicativamente
distinto al de los demás, por lo que los efectos de los detergentes y las lavadoras son significativos.
Ejercicio (DCA) en R
Numerosos factores contribuyen al funcionamiento suave de un
motor eléctrico. En particular, es deseable mantener el ruido del
motor y vibraciones a un mínimo. Para estudiar el efecto que la
marca de los cojinetes tiene en la vibración del motor, se
examinaron cinco marcas diferentes de cojinetes instalando cada
tipo de cojinete en muestras aleatorias distintas de seis motores.
Se registró la cantidad de vibración del motor (medida en
micrones) cuando cada uno de los 30 motores estaba
funcionando. (Anand, 1991)

Las hipótesis a evaluar son las siguientes:


• H0: Las cinco marca producen en promedio igual cantidad de
vibración
• H1: Al menos una de las marcas produce una vibración
promedio diferente
Solución

Para probar las hipótesis dadas se usa la técnica ANOVA


fit<-aov(Vibración~Marca, data=Base)
summary(fit)
Observamos el valor-p o p-value y como es menor que 0,05 Osea se
rechaza la hipótesis nula,es decir,que hay evidencia estadística para
concluir que existen diferencias significativas en al menos un par de
medias de tratamientos (Marcas)

0.000187 < 0.05

La validez de los resultados obtenidos queda


supeditado a que los supuestos del modelo se cumplan
• Normalidad de los residuos
Para verificar la normalidad de los residuos utilizaremos la prueba de
Shapiro-Wilks
• Homocedasticidad de varianzas
los residuos provienen de una distribución
normal p-value >0.05 Para verificar el supuesto de homocedasticidad de las varianzas
utilizaremos la prueba de Bartlett

Las varianzas son homogéneas


p-value >0.05
Solución

Una vez verificados los supuestos podemos concluir con una confianza
del 95 % que se rechaza la hipótesis nula
Hay evidencia estadística para concluir que existen diferencias
significativas en al menos un par de medias de tratamientos (marcas) por
lo que si queremos disminuir el ruido debemos identificar la marca de
los cojinetes tiene menor vibración del moto.
Referencias

Romaina, J. (2012). Estadística Experimental- Herramientas para la investigación. Fondo


Editorial UPT.Lima: Perú. pp97-105

Verduzco, C. (2009). Uso de calc de openoffice en el análisis de diseños experimentales. [Tesis para
optar por el título de Licenciado en estadística. Universidad Autónoma Chapingo

También podría gustarte