Está en la página 1de 250

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA

Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

INDICE
Capítulo I ......................................................................................................................................... 2
APLICACIONES DE LA DISTRIBUCIÓN CHI-CUADRADO .................................................. 2
Capítulo II ..................................................................................................................................... 47
DISEÑOS EXPERIMENTALES .................................................................................................. 47
Capítulo III .................................................................................................................................... 56
DISEÑO COMPLETAMENTE AL AZAR (D.C.A.)................................................................... 56
DISEÑO DE BLOQUES COMPLETOS AL AZAR (D.B.C.A) .................................................. 91
Capítulo V ................................................................................................................................... 113
DISEÑO CUADRADO LATINO (D.C.L) ................................................................................. 113
Capítulo VI .................................................................................................................................. 130
PRUEBAS NO PARAMÉTRICAS RELACIONADAS A DISEÑOS EXPERIMENTALES .. 130
Capítulo VII................................................................................................................................. 151
EXPERIMENTO FACTORIAL ................................................................................................. 151
Capítulo VIII ............................................................................................................................... 181
ANÁLISIS DE CORRELACIÓN ............................................................................................... 181
ANÁLISIS DE REGRESIÓN LINEAL SIMPLE ...................................................................... 192
Capítulo X ................................................................................................................................... 208
ANALISIS DE REGRESION LINEAL MÚLTIPLE ................................................................. 208
Capítulo XI .................................................................................................................................. 224
ANALISIS DE COVARIANZA ................................................................................................. 224

1
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Capítulo I

APLICACIONES DE LA DISTRIBUCIÓN CHI-CUADRADO

OBJETIVO

El presente capítulo tiene como objetivo presentar las principales aplicaciones de la


prueba Chi Cuadrada.

Introducción

En el análisis de datos mediante estadística inferencial existen dos tipos de pruebas


estadísticas: las paramétricas y las no paramétricas.

Las pruebas paramétricas asumen distribuciones estadísticas subyacentes a los datos.


Por ello, deben cumplirse algunas condiciones de validez, de modo que el resultado de
la prueba paramétrica sea fiable. Por ejemplo, la prueba t de Student para dos muestras
independientes será fiable solo si cada muestra se ajusta a una distribución normal y si
las varianzas son homogéneas.

Las pruebas no paramétricas no deben ajustarse a ninguna distribución. Pueden por


tanto aplicarse incluso aunque no se cumplan las condiciones de validez paramétricas.

A pesar que las pruebas no paramétricas son más robustas que las paramétricas. En
otras palabras, son válidas en un rango más amplio de situaciones (exigen menos
condiciones de validez); las pruebas paramétricas son las más utilizadas por los
investigadores, debido a su mayor difusión.

Verificar si las observaciones provienen de una distribución teórica puede hacerse


mediante algún procedimiento estadístico descriptivo o a través de un procedimiento
inferencial. Sin embargo, el método descriptivo en muchas situaciones podría crear cierta
ambigüedad en la toma de decisión sobre la forma de la distribución del conjunto de
datos. Por este motivo, un procedimiento inferencial sería lo más recomendable.

En el curso de Estadística General se utilizó la variable aleatoria Chi Cuadrada o Ji


Cuadrada, la cual es de naturaleza continua y cuyo comportamiento se representa con
una función de densidad (probabilidad) también de naturaleza continua. Ahora, en el
tema de las aplicaciones de la prueba Chi Cuadrada las variables aleatorias que se
utilizarán son de naturaleza discreta pero por ser su comportamiento similar al de la
distribución Chi Cuadrada se la utilizará como una aproximación. Esta aproximación
podría perder efectividad cuando en alguna clase o categoría de la variable estudiada el
valor esperado sea menor a cinco, en estos casos se corregirá mediante una agrupación
de clases.

2
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Las aplicaciones de la prueba Chi Cuadrado son las de mayor uso en los estudios de
análisis con datos de conteo o de frecuencias. Karl Pearson (1857-1936) prominente
científico, matemático y pensador británico, demostró que la distribución Chi Cuadrado
puede aplicarse como prueba para verificar la congruencia entre los datos resultados de
una observación y las hipotéticas, siempre que los datos sean de conteo o frecuencias.
Está basada en la comparación de las frecuencias observadas (muestrales) versus
frecuencias esperadas o teóricas (poblacionales), las mismas que pueden provenir o no
de tablas de contingencia.

Esa no es la única utilidad de la distribución Chi Cuadrado, debido a que también se


utiliza para verificar el cumplimiento del supuesto de homogeneidad de varianzas,
requisito exigido en los Diseños Experimentales.

En síntesis, la distribución Chi Cuadrado puede ser utilizada para diferentes propósitos.
Entre las principales pruebas y su respectivo uso tenemos:

a) Pruebas para datos que no provienen de una tabla de contingencia:

Pruebas de Bondad de Ajuste, para verificar si un conjunto de datos muestrales se


ajusta o no una distribución teórica establecida (Multinomial, Binomial, Poisson, Normal,
etc.)

b) Pruebas para datos que si provienen de una tabla de contingencia:

Prueba de Independencia, se utiliza para probar si dos variables cualitativas son o no


independientes.

Prueba de Homogeneidad de Sub poblaciones, se utiliza para verificar si las clases o


categorías de una variable en estudio se distribuye homogéneamente en dos o más
muestras (sub poblaciones)

1. Pruebas de Bondad de Ajuste

Como se mencionó las pruebas de bondad de ajuste se utiliza para probar sin un
conjunto de datos muestrales, como es el caso de las distribuciones: multinomial,
binomial, Poisson, normal, etc. sigue o se ajusta a una determinada distribución teórica.
Los datos en las pruebas de bondad de ajuste no provienen de tablas de contingencia.

Un investigador luego de recolectar una muestra en cual se observó o midió ciertas


características o variables, podría tener interés en saber a qué distribución teórica se
puede ajustar los datos de la(s) variable(s) que analizó, con el fin.

Ejemplos:

 Cuando se analiza la variable número de insectos muertos por m 2 luego de aplicar


un insecticida en un campo experimental, se quiere saber si esta variable se ajusta
a una distribución de Poisson.

3
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

 Cuando se quiere determinar si la gestión de un personaje político está distribuido


de la siguiente manera: muy buena en un 10%, regular en un 20% y pésima en
un 70%.

Condiciones para su aplicación:

Para poder aplicar adecuadamente esta prueba se debe contar con una tabla de
frecuencias de una variable cualitativa o cuantitativa, de la siguiente manera:

Frecuencia
Valor de la variable cuantitativa o observadas

Categoría de la variable cualitativa
 oi 
1 A1 o1
2 A2 o2

k Ak ok
Total n

La i–ésima frecuencia observada  oi  indica el número de veces que se repite la


categoría (o el valor de la variable) en la muestra de tamaño n.

En otras palabras, oi representa la frecuencia absoluta  fi  , de tal manera que se debe


cumplir que:
k

o
i 1
i n

Esta prueba se aplica cuando se desea verificar si al menos una de las frecuencias
observadas  oi  perteneciente a la i-ésima categoría o valor de la variable (mutuamente
excluyentes) difiere significativamente de su respectiva frecuencia teórica o frecuencia
esperada  ei  .

Cada frecuencia esperada  ei  se obtiene multiplicando el tamaño de la muestra n por


la probabilidad teórica correspondiente  i  :

ei n i

En algunas pruebas de bondad de ajuste, las probabilidades teóricas o hipotéticas  i 


son establecidas por el investigador, mientras que en otras pruebas deben ser estimadas
a partir de la distribución teórica formulada en la hipótesis nula. De tal manera que se
debe cumplir que:
k

 i 1
i 1

4
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Este valor esperado representa el número de observaciones pertenecientes a la i-ésima


categoría (o valor de la variable), que cabe esperar se obtenga en la muestra, si la
distribución de probabilidad de la población es la que se formula en la hipótesis nula.

k
A partir de la expresión anterior es fácil deducir que: e
i 1
i n

Estadístico de Prueba

Debido a las fluctuaciones aleatorias en el proceso de muestreo es razonable que las


frecuencias observadas  oi  y las frecuencias esperadas  ei  no coincidan. La hipótesis
nula afirma que la discrepancia entre dichas frecuencias no es muy grande.

Como medida de discrepancia, entre las frecuencias esperadas y observadas, Pearson


propuso el siguiente estadístico:

k
(oi  ei )2 2
 
2
c ~ ( k m1)
i 1 ei

En la expresión cada diferencia oi ei aparece elevada al cuadrado para evitar que


signos contrarios compensen la medida global, pues el interés se centra en la cuantía de
la desviación y no en su dirección o signo. La diferencia se pondera por el inverso de la
frecuencia esperada, puesto que una discrepancia grande podría llevar a rechazar el
modelo de probabilidad recogido en la hipótesis nula aunque la i-ésima categoría o valor
de la variable sea de probabilidad no muy grande.

Región Crítica

Valores elevados del estadístico 2 evidencian discrepancias relevantes entre las


frecuencias observadas  oi  y las esperadas  ei  , por lo que deberá rechazarse la
hipótesis nula de que dicha muestra procede de una población con probabilidades
teóricas  i . Por lo tanto si  c   (1 ;k  m 1) se rechaza H0.
2 2

El percentil  (1 ; k  m 1) o valor crítico   crit  (también conocido como valor tabular, tab2 )
2 2

es determinado por el complemento del nivel de significación asignado (es decir, 1-α) y
el número de grados de libertad es el número de categorías o valores de la variable en
que se dividen los datos en la tabla de frecuencia (k) (gl = k – m –1) menos el número de
parámetros estimados a partir de la muestra (m) menos una unidad.

Los parámetros estimados a partir de la muestra son utilizados para calcular los  i y
dependen de la distribución teórica propuesta en las hipótesis y si estos son conocidos
o desconocidos.

5
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

En resumen, las pruebas de bondad de ajuste tienen como objetivo verificar si un


conjunto de datos se ajusta a una distribución teórica preestablecida por el investigador.
Si bien es cierto que mediante este tipo de prueba se puede verificar si un conjunto de
datos presenta cualquier distribución teórica, en el presente curso solo se realizarán los
siguientes ajustes:

 Ajuste a la Distribución Multinomial o de frecuencias

 Ajuste a la Distribución Binomial

 Ajuste a la Distribución de Poisson

Casos especiales:

a) Agrupación de Clases

Dado que la distribución del estadístico 2 es asintótica se utiliza, comúnmente,


como regla de aproximación aceptable que la frecuencia esperada deban ser iguales
o superiores a 5. Si esto no sucede se deben agrupar las clases que tienen
frecuencias esperadas menores a 5 con aquella clase más cercana y más pequeña
hasta lograr el cumplimiento de esta regla. Este reagrupamiento produce a su vez
una reducción de los grados de libertad de la distribución del estadístico 2 , al unirse
algunas categorías o valores de la variable X.

b) Corrección de Yates

Si se tiene un solo grado de libertad para el valor crítico o el tamaño de la muestra


es pequeña (n50), se puede hacer uso de la Corrección de Yates, el cual hace un
ajuste al estadístico 2

 o e  0.5
2
k
 c2   ~  (2k m1)
i i

i 1 ei

6
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

1.1 Ajuste a la Distribución Multinomial o de Frecuencias

En esta prueba las probabilidades teóricas o hipotéticas  i  son establecidas por el


investigador.

Por ejemplo, en una investigación la hipótesis nula podría ser que en una ciudad el 60%
de personas prefieren la marca Toyota, el 30% la marca Nissan y el 10% la marca
Volkswagen, mientras que la hipótesis alterna seria al menos una de las proporciones es
diferente a las especificadas.

Como los valores  i son conocidos, el número de parámetros a estimar a partir de la


muestra m es igual a cero, con lo cual los grados de libertad en el valor crítico es igual
a k -1.

Procedimiento:

Utilizando el p-valor

El “p-valor” llamado el nivel de significación observado, es el mínimo valor de  al cual


se rechazaría la hipótesis nula. Un “p-value” cercano a 0 indica que es muy poco
probable que H0 ocurra por lo que estaremos inclinados a rechazarla.

El procedimiento de la prueba de hipótesis usando el p-valor es:

P1) Planteamiento de la hipótesis


H0: Las categorías están distribuidas según las proporciones especificadas
H1: Al menos una de las proporciones es diferente a las especificadas

P2) Nivel de Significación ().

P3) Criterio de decisión

El p-valor, se extrae del reporte estadístico

Si valor p ≤ α, entonces, se rechaza la hipótesis nula (RHo) y se acepta H1


Si valor p > α, entonces no se rechaza la hipótesis nula (NRHo)

P4) Conclusión

7
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Utilizando el estadístico de prueba

El procedimiento de la prueba de hipótesis usando el estadístico de prueba es:

P1) Planteamiento de la hipótesis


H0: Las categorías están distribuidas según las proporciones especificadas
H1: Al menos una de las proporciones es diferente a las especificadas

P2) Nivel de Significación ()

 oi  ei 
2
k
P3) Estadístico de prueba  
2
c ~  (2k 1)
i 1 ei
P4) Desarrollo de la prueba

P5) Criterios de decisión

0.10

0.08 No se rechaza H0 si: 2cal  2crit

0.06 Se rechaza H0 si: 2cal  2crit

0.04
 2
crit  tab
2
 21 ,k 1 
0.02

0.00
0 Chi Critico

P6) Conclusión

Ejemplo de aplicación 1

Una fábrica cuenta con tres máquinas para la producción de un mismo producto.
Durante la última semana de producción se han producido 135 artículos. El jefe de
producción cree que las máquinas no producen en cantidades similares. Por lo que ha
solicitado clasifiquen cada producto según la máquina que la ha producido. A
continuación se presenta la tabla de frecuencia de las cantidades producidas por cada
máquina:
Máquina A Máquina B Máquina C
43 53 39

Use nivel de significación 5% para probar si la cantidad producida es la misma en las 3


máquinas. Use el valor-p y la prueba estadística respectiva.

Y el reporte de salida del Minitab es:

8
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Prueba Chi-cuadrada de bondad de ajuste para conteos observados en variable:


Observados
Uso de nombres de categorías en Maquina

Proporción Contribución
Categoría Observado de prueba Esperado a Chi-cuad.
A 43 0,333333 45 0,08889
B 53 0,333333 45 1,42222
C 39 0,333333 45 0,80000

Estadístico de prueba Chi


N GL Chi-cuad. Valor p Cuadrado
135 2 2,31111 0,315

P-valor de la prueba
estadística

Solución: Utilizando el p-valor

1) Planteamiento de la hipótesis.
H0: Las tres máquinas producen en igual proporción.
H1: Las tres máquinas no producen en igual proporción.

2)  = 0,05

3) Como el P-valor = 0.315 > a 0.05, NRHo

4) Conclusión. A un nivel de significación del 5%, no se puede rechazar que la cantidad


producida es la misma en las 3 máquinas.

Solución: Utilizando la prueba estadística

1) Planteamiento de la hipótesis.
H0: Las tres máquinas producen en igual proporción.
H1: Las tres máquinas no producen en igual proporción.

2) =0,05
 oi  ei 
2
k
3) Estadístico de prueba.  
2
c 
i 1 ei
~  (32 1)

4) Desarrollo de la Prueba.
A continuación se muestra la tabla que contiene las frecuencias observadas, las
frecuencias esperadas entre otros valores que se requieren para esta prueba.

Máquina oi i ei n i (oi-ei)2/ei
A 43 1/3 45 0,08888889
B 53 1/3 45 1,42222222
C 39 1/3 45 0,80000000
Total 135 1 135 2.31111111

9
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Observe que las probabilidades para cada máquina deben ser las mismas, pues debe
tenerse igual frecuencia teórica en el supuesto de que la producción es la misma para
cada máquina.

  2
k
oi  ei 2  2.3111
c
i 1 ei

5) Decisión

Chi-Square, df=2

0.5

Como:
 
0.4
crit
2
 tab
2
 20.95,2  5.9915
0.3
Luego:
0.2 2c = 2.3111  5.9915
0.1
Entonces, no se rechaza H0.
0.05
0.0
0 5.99
X

6) Conclusión.

A un nivel de significación del 5%, A un nivel de significación del 5%, no se puede


rechazar que la cantidad producida es la misma en las 3 máquinas.

Ejemplo de aplicación 2

La compañía “FINANCE S.A.”, es una institución crediticia con mayor número de


agencias en los distritos de San Isidro, San Borja y Surco. La gerencia realizó un estudio
para poder tener un adecuado control sobre el número y monto de las cuentas atrasadas
en los pagos de los clientes debidos a que un número excesivo de estas cuentas podrían
ocasionar problemas de liquidez financiera y un incremento de gastos adicionales de
operación.

Se proporciona a continuación la información recolectada:

Número de clientes por distrito y monto de cuentas atrasadas

Monto de cuentas atrasadas (dólares) San San Borja Surco


Isidro
Menos de 140 23 27 29
De 140 a menos de 240 19 20 19
Más de 240 9 19 18

¿Se puede afirmar que el número de clientes del distrito de Surco que han solicitado
regularizar sus montos de cuentas atrasadas, no siguen la proporción de 3:4:3 ? Use
el p-valor y la prueba estadística.

10
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

El reporte de resultado es:

Monto Observado de prueba Esperado a Chi-cuad.


Menos de 140 29 0.3 19.8 4.27475
De 140 a menos de 240 19 0.4 26.4 2.07424
Mas de 240 18
Proporción 0.3 19.8 0.16364
Contribución

N GL Chi-cuad. Valor p
66 2 6.51263 0.039

Solución: Utilizando el p-valor

1) Planteamiento de la hipótesis

H0: El número de clientes del distrito de Surco que han solicitado regularizar sus
montos de cuentas atrasadas, sigue la proporción de 3:4:3
H1: El número de clientes del distrito de Surco que han solicitado regularizar sus
montos de cuentas atrasadas, NO sigue la proporción de 3:4:3

2) =0.05

3) P-valor= 0.039, luego

P-valor =0.039 < 0.05 , entonces RHo y se acepta H1

4) Conclusión: Con un nivel de significación del 5%, se puede afirmar que el número
de clientes del distrito de Surco que han solicitado regularizar sus montos de
cuentas atrasadas no siguen la proporción de 3:4:3

Solución: Utilizando el estadístico de prueba

1) Planteamiento de la hipótesis.
H0: El número de clientes del distrito de Surco que han solicitado regularizar sus
montos de cuentas atrasadas, sigue la proporción de 3:4:3
H1: El número de clientes del distrito de Surco que han solicitado regularizar sus
montos de cuentas atrasadas, NO sigue la proporción de 3:4:3

2) =0.05
 oi  ei 
2
k
3) Estadística de prueba.  
2
c 
i 1 ei
~  (32 1)

4) Desarrollo de la Prueba.
A continuación se muestra la tabla que contiene las frecuencias observadas, las
frecuencias esperadas entre otros valores que se requieren para esta prueba.

11
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Monto de cuentas atrasadas oi i ei n i (oi-ei)2/ei


Menos de 140 29 0.3 19.8 4,2748
De 140 a menos de 240 19 0.4 26.4 2,0742
Más de 240 18 0.3 19.8 0,1636
Total 66 1 66 6,5126

 oi  ei 
2
k
  2
c  6,5126
i 1 ei

5) Decisión

Chi-Square, df=2

0.5 Como:

0.4
crit
2
 tab
2
 20.95,2  5.9915 
Luego 2c = 6.5126  5,9915
0.3

0.2
Entonces se rechaza H0 y se
acepta H1
0.1

0.05
0.0
0 5.99
X

6) Conclusión
A un nivel de significación del 5%, se puede afirmar que el número de clientes del
distrito de Surco que han solicitado regularizar sus montos de cuentas atrasadas no
siguen la proporción de 3:4:3

1.2 Ajuste a la Distribución Binomial


En esta prueba, las probabilidades teóricas  i  que serán utilizadas para calcular las
frecuencias esperadas deben ser estimadas a partir de la distribución Binomial

 r  x rx
  p (1  p) x  0,1, 2 , r
P( X  x)   x  .

 0 c.c.

Recordemos que la distribución Binomial tiene dos parámetros r y p y detonamos que


una variable se ajusta a una distribución Binomial como X~B(r,p). La probabilidad
P  X  x  sirve para calcular los valores de  i

12
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

El valor de r siempre es conocido debido a que es el número de veces que se realiza el


experimento o ensayo de Bernoulli, mientras el valor de p (probabilidad de éxito) puede
ser conocido o desconocido.

Si es desconocido debe ser estimado utilizando la muestra a partir del valor esperado de
la distribución Binomial E ( X ) rp , de tal manera que:

E( X )
p
r

El valor esperado en una tabla de frecuencia para una variable discreta puede ser
estimado mediante:
k

xo i i
E( X )  i 1
n

Por lo tanto, cuando se tiene que estimar el parámetro p a partir de la muestra, m es


igual a uno, con lo cual los grados de libertad en el valor crítico es igual a k–1–1
= k – 2; caso contrario cuando el parámetro p es conocido “ m ” sería igual a cero, con lo
cual los grados de libertad en el valor crítico es igual a: k – 0 – 1 = k – 1.

Procedimiento:

1) Planteamiento de la hipótesis.
H0: Los datos provenientes de la variable en estudio "X" se ajustan a una distribución
teórica Binomial.
H1: Los datos provenientes de la variable en estudio "X" no se ajustan a una distribución
teórica Binomial.

2) Nivel de Significación ()

3) Estadística de prueba.
 oi  ei 
2
k
 
2
c ~  (2k m1)
i 1 ei

Donde:
oi: frecuencia observada para el valor i de la variable X.
ei: frecuencia esperada para el valor i de la variable X.

4) Desarrollo de la prueba

13
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

5) Criterios de decisión

0.10 No se rechaza H0 si: 2c  2crit


0.08 Se rechaza H0 si: 2c  2crit
0.06
crit
2
 tab
2

 21 ,k m1
0.04

0.02

0.00
0 Chi Critico

6) Conclusión.

Ejemplo de Aplicación 1

Con el fin de realizar afiliaciones a un seguro médico, un vendedor de pólizas de seguros


hace cuatro llamadas diarias. Una muestra de 210 días da como resultado las
frecuencias del número de ventas realizadas tal como se muestra en la siguiente tabla:

Número de ventas
Número de días
realizadas
0 50
1 75
2 65
3 15
4 5

Se desea verificar si el número de ventas realizadas diariamente sigue una distribución


Binomial a un nivel de significación del 5%.

Solución:

1) Planteamiento de la hipótesis
H0: Los datos provenientes del número de ventas realizadas por el vendedor de
seguros se ajustan a una distribución Binomial.
H1: Los datos provenientes del número de ventas realizadas por el vendedor de
seguros no se ajustan a una distribución Binomial.

2) =0,05
 oi  ei 
2
k
3) Estadística de prueba  
2
c ~  (2k m1)
i 1 ei

14
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

4) Desarrollo de la Prueba

Estimamos la media de la población suponiendo que la hipótesis nula es verdadera.

Número de ventas (X) Número de días ( oi ) xi oi


0 50 0
1 75 75
2 65 130
3 15 45
4 5 20
Total 210 270

270 1,2857143
E ( X )  rp   1.2857143  pˆ   0.3214286
210 4

Esta probabilidad de éxito será utiliza para calcular las probabilidades teóricas que a la
vez servirán para calcular las frecuencias esperadas:

 4
1  P  X  0     0.3210 (1  0.321)40  0.212
 
0

 5  P( x  4)  1   P  x  3  0.011

Número de ventas (X) Número de días ( oi ) i ei n i

0 50 0.212023 44.5247586
1 75 0.401727 84.3627004
2 65 0.285438 59.9419187
3 15 0.090138 18.929027
4 5 0.010674 2.2415953
Total 210 1,000000 210

La frecuencia observada de la última clase es menor que cinco.

Número de Número de días (


i ei n i (oi-ei)2/ei
ventas (X) oi )
0 50 0.212023 44.5247586 0.673294359
1 75 0.401727 84.3627004 1.039086694
2 65 0.285438 59.9419187 0.426816269
3y4 20 0.1008125 21.1706223 0.064729155
Total 210 210 2.203926477

 
2
k
oi  ei 2  2.2039 ~  (22 )
c
i 1 ei

15
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

5) Criterios de decisión
Luego entonces tenemos 4-1-1 = 2 grados de libertad para la estadística de prueba
Chi-cuadrado y con α = 0.05, el valor critico es 5.9915

Chi-Square, df=2

0.5

0.4

0.3

No se rechaza H0 si: 2c  5.9915


0.2
Se rechaza H0 si: 2c  5.9915
0.1

0.05
0.0
0 5.99
X

6) Conclusión
A un nivel de significación del 5% no se rechaza Ho, no se puede afirmar que la
variable número de ventas realizadas tenga una distribución distinta a la Binomial.

Ejemplo de Aplicación 2

Un Ingeniero Zootecnista ha recogido información de 105 hembras que tuvieron solo dos
crías; para examinar su estado físico y determinar si las crías están en óptimas
condiciones de crecimiento o no. Se sabe que el porcentaje de crías que se desarrollan
en óptimas condiciones es del 60%. Los datos se presentan a continuación:

Número de crías en Número de


óptimas condiciones Hembras
0 11
1 36
2 58

¿A qué distribución cree usted se ajustaría mejor la variable en estudio? Use =0,05

Solución:

1) Planteamiento de la hipótesis.
H0: El número de crías por hembra en óptimas condiciones se ajustan a una
distribución Binomial con una proporción de éxito p = 0.6.
H1: El número de crías por hembra en óptimas condiciones NO se ajustan a una
distribución Binomial con una proporción de éxito p = 0.6.

2) =0.05
 oi  ei 
2
k
3) Estadística de prueba   2
c ~  (2k m1)
i 1 ei

16
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

4) Desarrollo de la Prueba.

Chi-cuadrada con 2 GL
Proporción Contribución
Categoría Observado de prueba Esperado a Chi-cuad. P( X ≤ x ) x
1 11 0.16 16.8 2.0024 0.95 5.99146
2 36 0.48 50.4 4.1143
3 58 0.36 37.8 10.7947

N GL Chi-cuad. Valor p
105 2 16.9114 0.000

5) Criterios de decisión

 Utilizando el estadístico de prueba:


Para calcular el valor crítico, se usa la Función de distribución acumulada
inversa, que se puede obtener mediante una tabla estadística o un programa
estadístico.
Como c  16.9114  (0.95,2)  5.9915 entonces se Rho y se acepta H1
2 2

 Utilizando Valor p:
Como valor p = 0.000 < α= 0.05, RHo y se acepta H1

6) Conclusión
A un nivel de significación del 5% se rechaza Ho. Por lo tanto se puede afirmar que el
número de crías en óptimas condiciones NO se ajustan a una distribución Binomial
con una proporción de éxito p = 0.6.

1.3 Ajuste a la Distribución de Poisson

En esta prueba las probabilidades teóricas  i  , que serán utilizadas para calcular las
frecuencias esperadas deben ser estimadas a partir de la distribución de Poisson

 e     x
 x  0,1, 2...
P( X  x)   x ! .

 0 c.c.

Recordemos que la distribución de Poisson tiene un parámetro  y la variable X se ajusta


a una distribución de Poisson como X~P(). El valor de  puede ser conocido o
desconocido. Si es desconocido debe ser estimado utilizando la muestra a partir del valor
esperado de la distribución de Poisson E (X )  

Cuando se tiene que estimar el parámetro  a partir de la muestra el valor de m =1, y los
grados de libertad en el valor crítico es igual a: k – 1 – 1 = k – 2; si no hay necesario
estimar el parámetro , el valor de m =0, y sus grados de libertad es k – 0 – 1 = k – 1.

17
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Procedimiento:

Utilizando el p-valor

1) Planteamiento de la hipótesis.
H0: Los datos provenientes de la variable en estudio "X" se ajustan a una distribución
de Poisson.
H1: La variable X no tiene distribución de Poisson

2)  = 0,05

3) Como el P-valor = 0.315 > a 0.05, NRHo

4) Conclusión.

Utilizando el estadístico de prueba

1) Planteamiento de la hipótesis.
H0: Los datos provenientes de la variable en estudio "X" se ajustan a una Distribución
Poisson.
H1: Los datos provenientes de la variable en estudio "X" no se ajustan a una
Distribución Poisson.

2) Nivel de Significación ()


 oi  ei 
2
k
3) Estadística de prueba.   2
c ~  (2k m1)
i 1 ei

Donde:
oi: frecuencia observada para el valor i de la variable X.
ei: frecuencia esperada para el valor i de la variable X.

4) Desarrollo de la prueba

5) Criterios de decisión

0.10 No se rechaza H0 si: 2c  2crit


Se rechaza H0 si: 2c  2crit
 
0.08

0.06
crit
2
 tab
2
 21 ,k m1
0.04

0.02

0.00
0 Chi Critico

6) Conclusión

18
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejemplo de Aplicación 1

Se cree que el número de accidentes automovilísticos diarios en un cruce de dos


avenidas de determinada ciudad tiene una distribución de Poisson. En una muestra de
80 días del año pasado se obtuvieron los datos de la tabla adjunta. ¿Apoyan estos datos
la hipótesis de que el número diario de accidentes tiene una distribución de Poisson?
Use nivel de significación 0.05 y concluya usando p-valor y la prueba estadística

N° accidentes oi
0 34
1 25
2 11
3 7
4 3

Prueba de bondad de ajuste para distribución de Poisson

Columna Datos: Nº Accidentes


Columna Frecuencia: Observados

Media de Poisson para Nº Accidentes = 1

Nº Probabilidad Contribución
Accidentes Observado de Poisson Esperado a Chi-cuad.
0 34 0,367879 29,4304 0,70953
1 25 0,367879 29,4304 0,66693 Aparece como “>=3”
2 11 0,183940 14,7152 0,93798
porque el programa realizó
>=3 10 0,080301 6,4241 1,99047
la unión de filas, ya que el
valor esperado de la última
N N* GL Chi-cuad. Valor p fila resulto menor a 5
80 0 2 4,30491 0,116

Estadístico de prueba P-valor de la prueba


Chi Cuadrado estadística

Solución: Utilizando el p-valor

Hipótesis
1) Planteamiento de la hipótesis.
H0: Los datos provenientes del número de accidentes automovilísticos en el cruce de
las avenidas de interés sigue una distribución de Poisson.
H1: Los datos provenientes del número de accidentes automovilísticos en el cruce de
las avenidas de interés no sigue una distribución de Poisson.

2) =0.05

3) Como el P-valor=0.116 > a 0.05, entonces NRHo

Conclusión
A un nivel de significación del 5%, no se puede rechazar que el número diario de
accidentes sigue una distribución Poisson.

19
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Solución: Utilizando el estadístico de prueba

1) Planteamiento de la hipótesis.
H0: Los datos provenientes del número de accidentes automovilísticos en el cruce de
las avenidas de interés sigue una distribución de Poisson.
H1: Los datos provenientes del número de accidentes automovilísticos en el cruce de
las avenidas de interés no sigue una distribución de Poisson.

2) =0.05
 oi  ei 
2
k
3) Estadística de prueba.  
2
c 
i 1 ei
~  (2k m1)

4) Desarrollo de la Prueba

N° accidentes (xi) oi xi oi
0 34 0
1 25 25
2 11 22
3 7 21
4 3 12
80 80

Estimación del parámetro lambda:

xo i i
80
 i 1
 1
n 80

A continuación tenemos otros cálculos que nos permiten realizar la prueba y obtener
los grados de libertad de la estadística de prueba.

e1 1
0

1  P  X  0    0.3679
0!

 5  P  X  4  1  P  X  4  1  P  X  3  1  0.081  0.019

N° accidentes i ei n i
0 0.3679 29.43
1 0.3679 29.43
2 0.1839 14.72
3 0.0613 4.91
4 o más 0.0190 1.52
1.0000 80.00

Observe que hay dos clases con ei < 5 que deben ser agrupadas.

20
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

La tabla final quedaría con los siguientes resultados:

N° accidentes oi ei n i (oi-ei)2/ei
(x)
0 34 29.43 0.7096
1 25 29.43 0.6668
2 11 14.72 0.9401
3 o más 10 6.42 1.9963
80 80 4.3129

 
2
k
oi  ei 2  4.3129
c
i 1 ei

5) Criterios de decisión
Los grados de libertad para la distribución Chi- cuadrado de la prueba son: k – m - 1
= 4 – 1 - 1 = 2 grados de libertad.

Chi-Square, df=2 No se rechaza H0 si: 2c 5,9915


0.5 Se rechaza H0 si: 2c  5,9915
( crit
2
 tab
2
 20.95,2  5.9915 )
0.4

0.3

0.2

0.1

0.05
0.0
0 5.99
X

6) Conclusión.
A un nivel de significación del 5% no se rechaza Ho. Por lo tanto no podemos afirmar
que la variable número de accidentes automovilísticos en el cruce de las avenidas de
interés tenga una distribución distinta a la distribución de Poisson.

Ejemplo de Aplicación 2

Un zootecnista ha registrado el número de crías vivas que 86 hembras de cierta especie


de mamífero tuvieron durante su vida productiva:

Número de crías Número de hembras


0 8
1 35
2 25
3 10
4 8
¿A qué distribución cree usted se ajustaría mejor la variable en estudio? Use =0.05

21
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Solución: Utilizando el p-valor

1) Planteamiento de la hipótesis
H0: El número de crías vivas por hembra se ajusta a una distribución Poisson
H1: El número de crías vivas por hembras NO se ajusta a una distribución Poisson

2) =0.05
 oi  ei 
2
k
3) Estadística de prueba.  
2
c 
i 1 ei
~  (2k m1)

4) Desarrollo de la Prueba

REPORTE DE MINITAB

Prueba de bondad de ajuste para distribución de Poisson


Columna Datos: Numero de crias
Columna Frecuencia: Numero de hembras

Media de Poisson para Numero de crias = 1.70930


Numero Probabilidad Contribución
de crias Observado de Poisson Esperado a Chi-cuad.
0 8 0.180992 15.5653 3.67702
1 35 0.309370 26.6058 2.64837
2 25 0.264404 22.7387 0.22488
3 10 0.150649 12.9558 0.67434
>=4 8 0.094586 8.1344 0.00222
N N* GL Chi-cuad. P-Value
86 0 3 7.22683 0.065

5) Criterios de decisión

Utilizando Valor Critico

Función de distribución acumulada inversa


Chi-cuadrada con 3 GL
P( X <= x ) x
0.95 7.81473

Utilizando Valor P

Como Valor P = 0.065 > α = 0.05, NRHo.

6) Conclusión
A un nivel de significación del 5% No se rechaza Ho. Por lo tanto NO se puede afirmar
que el número de crías vivas NO se ajusta a una distribución Poisson.

22
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejercicios Propuestos

1. En el año 2000 se fundó la compañía “AGROSERV.S.A.”, encargada de la fabricación y


distribución de implementos para campos de cultivo, la cual tiene sucursales en los
distritos de Lince, San Borja, San Miguel y San Martín. La gerencia realizó un estudio
para poder evaluar el nivel de las ventas, la satisfacción del cliente y el proceso de
ventas. Los clientes en ciertos casos solicitan descuentos por la compra de los
implementos y esto puede cambiar según la ubicación de la sucursal. La forma de pago
puede ser al crédito o al contado.

Número de clientes Lince San Borja San San


por distrito que Miguel Martín
solicitan descuentos
por la compra de
implementos
Total 25 30 25 35

¿Se puede afirmar que el número de clientes por distrito que han solicitado descuentos
por las compras, siguen la proporción de 2:3:1:2? Plantee las hipótesis respectivas y
concluya. Use  = 0.05

2. En un estudio para determinar la opinión de los agricultores sobre un nuevo tipo de


insecticida se tomó una muestra aleatoria de 400 agricultores en una región,
obteniéndose los siguientes resultados:

Opinión muy bueno bueno regular malo muy malo total


Frecuencia 25 60 175 120 20 400

Probar si la opinión de los agricultores respecto al nuevo tipo de insecticida no se


distribuye en la proporción: 2:4:6:5:3. Use  = 0.01

3. Suponga que el número de llamadas telefónicas que entran al conmutador de una


empresa agrícola durante intervalos de un minuto tiene una distribución de Poisson. Los
resultados obtenidos de analizar una muestra aleatoria de 100 intervalos de un minuto
de duración son los siguientes:

N° llamadas que entran cada minuto 0 1 2 3 4 5 6


Frecuencia observada 15 31 20 15 13 4 2

Use los siguientes datos para probar la hipótesis de que las llamadas, que entran al
conmutador de una empresa agrícola durante intervalos de un minuto, no tiene
distribución de Poisson. Use  = 0.10

4. Un vendedor de semillas hace cuatro llamadas diarias. Una muestra aleatoria de 100
días da como resultado las frecuencias de ventas que vemos a continuación:
Número de ventas 0 1 2 3 4
Número de días 30 32 25 10 3

23
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

En los registros históricos se conoce que el 30% de las llamadas se concretaron en una
venta. Suponga que las llamadas son independientes, ¿el número de ventas que se
concretan por día sigue una distribución binomial? Use  = 0.01

5. Una empresa estudia el número de defectos en unas tarjetas de video que se fabrican
para unos equipos de meteorología. Se obtiene una muestra aleatoria de las tarjetas y
se observa el número de defectos que hay. Los resultados obtenidos se muestran a
continuación:

Número de defectos 0 1 2 3 4
Frecuencia 17 13 9 5 7

Probar si los datos se ajustan a una distribución teórica. Use  = 0.05

6. A continuación se presenta la información del número de automóviles que llegaron a una


estación de servicios durante 80 intervalos no superpuestos de 5 minutos cada uno, los
cuales fueron seleccionados aleatoriamente

número de automóviles 0 1 2 3 4 o más


número de intervalos 10 18 12 17 23

¿Se puede afirmar que el número de automóviles que llegan a la estación de servicio en
un intervalo dado se ajusta a una distribución de Poisson con  = 2 Use  = 0.05.

7. Una caja contiene 5 semillas de un gran valor. La preocupación que se tiene de estas
cajas es que existan semillas que no germinen. Se hizo un experimento en donde se
evaluó 100 cajas y se contó el número de semillas que no germinaron. A continuación,
se presentan los resultados:

N° de cajas 30 32 25 10 3
N° de semillas que no germinaron 1 2 3 4 5

Usando un nivel de significación de 0.05. ¿Se puede afirmar que el número de semillas
que no germinaron por caja sigue una distribución teórica conocida? Concluya de
acuerdo al caso.

8. Durante las primeras 13 semanas de la temporada de televisión, se registraron las


audiencias de sábado por la noche, de 8:00 p.m. a 9:00 pm. Como sigue: ABC 29%, CBS
28%, NBC 25% y otros 18%. Dos semanas después, una muestra de 300 hogares
seleccionados aleatoriamente arrojó los siguientes resultados de audiencia: ABC 95
hogares, CBS 70 hogares, NBC 89 hogares y otros 46 hogares. Pruebe, con nivel de
significación 0.05, si han cambiado las proporciones de telespectadores.

9. En un estudio se observó la cantidad de accidentes que sufren los operarios de máquinas


en cierta industria; los resultados se muestran en la siguiente tabla:

Accidente por operario 0 1 2 3 4 5 6 7 8


# de operarios 296 74 26 8 4 4 1 0 1

24
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Realice una prueba, con un nivel de significación de 5%, de la hipótesis que afirma que
los datos no provienen de una distribución de teórica con promedio 2 accidentes.

10. Se realizó un estudio que consistió en evaluar 600 bolsas de peras, cada una de las
bolsas contiene 3 peras de las cuales algunas se encuentran en buen estado y otras en
mal estado. Los resultados al evaluar las 600 bolsas son los siguientes:

Número de peras en mal estado por bolsa 0 1 2 3


Frecuencia( número de bolsas) 300 150 100 50

Usando un nivel de significación de 0.05. ¿Se puede afirmar que el número de peras en
mal estado por bolsa sigue una distribución teórica conocida? Concluya de acuerdo al
caso.

Referencias

R.G.D. Steel, & Torrie, J.H.(1985). Bioestadística Principios y Procedimientos. McGraw


Hill, ed Bogotá, Colombia.

Porras, J. (2017). Pruebas No Paramétricas Usando R. Lima. UNALM .

Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of
data analysis. Australia: Duxbury/Thomson Learning

Agresti, A. (2002) Categorical Data Analysis, (2nd Ed). Wiley-Interscience. New Yersey

25
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

2. Pruebas con Tablas de Contingencia

Tablas de Contingencia f x c
Es un cuadro de doble entrada en el cual se recoge la frecuencia conjunta de los datos
de una o varias muestras aleatorias. Estas frecuencias son clasificadas de acuerdo a las
clases o categorías de una variable A y a las clases o categorías de una variable B.

Sea "A" una característica con sus categorías a1, a2, ,ac y "B" una característica con sus
categorías b1, b2,..., bf

Característica A
Total
a1 a2 … ac
b1 o11 o12 … o1c n1.
b2 o21 o22 … o2c n2.
Carac. B

bf of1 of2 … ofc nr.
Total n.1 n.2 n.c n..

Donde:
i = 1, 2, ...., f "filas"
j = 1, 2, ...., c "columnas"

c f f c
ni    oij n j   oij n   oij
j 1 i 1 i 1 j 1

A los totales de filas y columnas se les conoce como totales marginales.

La ij – ésima frecuencia observada  oij  indica el número de veces que se repite un


elemento en las categorías i y j a la vez.
Esta prueba se aplica cuando se desea verificar si al menos una de las frecuencias
observadas  oij  perteneciente a la ij - ésima categoría (mutuamente excluyentes) difiere
significativamente de su respectiva frecuencia teórica o frecuencia esperada  eij  .
Las frecuencias esperadas  eij  se calculadas de la siguiente manera:
  
e n  eij n  e ij  n   n i   n  j   e  n i n  j
ij ij i j   
 n    n  
ij
n 

Estadístico de Prueba

Como medida de discrepancia, entre las frecuencias esperadas y observadas, Pearson


propuso el siguiente estadístico:
f c (oij  eij )2
  
2
c ~ ((2 f 1)( c 1))
i 1 j 1 eij

26
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Región Crítica

Valores elevados del estadístico 2 evidencian discrepancias relevantes entre las


frecuencias observadas  oij  y las esperadas  eij  , por lo que deberá rechazarse la
hipótesis nula de que dicha muestra procede de una población con probabilidades
teóricas  i . Por lo tanto si c  (1 ;( f 1)( c 1)) se rechaza H0.
2 2

Hay diversas inferencias usando tablas de contingencia, en el curso solo se verá dos:

 Prueba de Independencia
 Prueba de Homogeneidad de Subpoblaciones

Observaciones:

Si se tiene un solo grado de libertad para el valor crítico, el tamaño de la muestra es


pequeño (n50) o existe una frecuencia esperada menor a 5, se puede hacer uso de la
Corrección de Yates, el cual hace un ajuste al estadístico 2

o  ~
2
f c  eij  0.5
 c2  
ij 2
(( f 1)( c 1))
i 1 j 1 eij

2.1 Prueba de Independencia

Se aplica cuando los datos de una muestra aleatoria son clasificados de acuerdo a dos
características (variables) y lo que se desea es probar si las características utilizadas
como criterios de clasificación son independientes entre sí ó si existe alguna relación
entre ellas. Los totales marginales de filas y columnas son aleatorios.

Procedimiento

1) Planteamiento de la Hipótesis
H0: Las características "A" y "B" son independientes (no están relacionadas) entre sí.
H1: Las características "A" y "B" no son independientes (si están relacionadas).

2) Nivel de Significación ()


o  eij 
2
f c
 c2   ~  2 f 1 c 1
ij
3) Estadístico de prueba.  
i 1 j 1 eij
4) Desarrollo de la prueba

5) Criterios de Decisión:

27
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

0.10 No se rechaza H0 si: 2c ≤ 2crit


0.08 Se rechaza H0 si: 2c  2crit
0.06

0.04
 2
crit  tab
2
 21 , f 1 c 1 
0.02

0.00
0 Chi Critico

6) Conclusiones

Medida de intensidad de la asociación: Coeficiente de contingencia de Pearson

La prueba de independencia solo analiza la existencia o no de una posible asociación


entre dos variables de tipo categórico, pero no indica la intensidad de la posible relación.

El coeficiente de contingencia de Pearson mide la intensidad y se obtiene:

 c2
C
 c2  n

C toma valores entre 0 y 1. Valores cercanos a cero muestran una baja asociación entre
las variables y los valores próximos a 1 una alta asociación.

Ejemplo de aplicación 1

El jefe de una planta industrial desea determinar si existe relación entre el rendimiento
en el trabajo y turno laboral del empleado. Se tomó una muestra aleatoria de 400
empleados y se obtuvo los siguientes resultados:

Rendimiento Turno Laboral


en el
trabajo Mañana Tarde Noche Total

Deficiente 23 60 29 112
Promedio 28 79 60 167
Muy bueno 9 49 63 121
Total 60 188 152 400

Con el nivel de significación 0.01

a. ¿La calificación del rendimiento del trabajador está asociada con el turno en el
que labora el empleado? Analice la magnitud de la asociación, si la hubiera

28
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Solución: Utilizando el p-valor

Prueba chi-cuadrada para asociación: Rendimiento; Turno


Filas: Rendimiento Columnas: Turno

Mañana Tarde Noche Todo


Deficiente 23 60 29 112
16,80 52,64 42,56 Frecuencia
Esperada
Promedio 28 79 60 167
25,05 78,49 63,46

Muy bueno 9 49 63 121


18,15 56,87 45,98

Todo 60 188 152 400


P-valor de la prueba
Contenido de la celda: Conteo
estadística
Conteo esperado
Estadístico de prueba
Chi-cuadrada de Pearson = 20,179; GL = 4; Valor p = 0,000 Chi Cuadrado
Chi-cuadrada de la tasa de verosimilitud = 20,892; DF = 4; Valor p = 0,000

a. Analizando la independencia de variables

Solución: Utilizando el p-valor

1) Formulación de hipótesis.
H0: El rendimiento de un empleado y el turno que labora en el trabajo son
independientes.
H1: El rendimiento de un empleado y el turno que labora en el trabajo no son
independientes.

2)  = 0,01

3) El P-valor=0.000 < a 0.01, entonces RHo y se acepta H1

Conclusión.
A un nivel de significación del 1%, se puede afirmar que existe relación entre el
rendimiento del empleado y el turno en el laboral.

Solución: Utilizando la prueba estadística

1) Formulación de hipótesis.
H0: El rendimiento de un empleado y el turno que labora en el trabajo son
independientes.
H1: El rendimiento de un empleado y el turno que labora en el trabajo no son
independientes.

2)  = 0,01
f c
o  eij 
2

3) Estadístico de prueba.  
2
c 
i 1 j 1
ij

eij
~  2 f 1c1

29
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

4) Desarrollo de la prueba

La siguiente tabla muestra tanto las frecuencias observadas como las esperadas
(entre paréntesis)

Rendimiento Turno Laboral


en el trabajo Mañana Tarde Noche Total
Deficiente 23 (16.80) 60 (52.64) 29 (42.56) 112
Promedio 28 (25.05) 79 (78.49) 60 (63.46) 167
Muy bueno 9 (18.15) 49 (56.87) 63 (45.98) 121
Total: 60 188 152 400

(23  16.8) 2 (63  45.98) 2


 c2   ...   20.18 ~  (24 )
16.8 45.98

5) Criterios de decisión

0.20 Si 2cal > 13.277 se rechaza H0


Si 2cal ≤ 13.277 no se rechaza H0
0.15

0.10

0.05

0.01
0.00
0 13.3

6) Conclusión
Con nivel de significación 0,01 se rechaza Ho. Por lo tanto se puede afirmar que la
calificación del rendimiento real de un empleado en el trabajo está relacionada con
el turno en el que labora.

b. El grado de asociación entre estas dos variables es:

 c2 20.18
C   0.219151
 c2  n 20.18  400

30
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejemplo de aplicación 2

De acuerdo a un reciente estudio realizado por los estudiantes de Ingeniería en Gestión


Empresarial de cierta universidad, para establecer un restaurante de comida rápida pero
saludable y, cuyos potenciales clientes serían los mismos estudiantes de la universidad,
se encuestó un grupo de estudiantes seleccionados al azar y se registró el sexo de los
estudiantes y preguntó entre otras cosas lo siguiente:

Comida que consumen


frecuentemente fuera de casa Hombres Mujeres
Desayuno 154 85
Almuerzo 80 101
Cena 46 18

a. ¿Es posible relacionar la comida que consumen con más frecuencia fuera de casa
con el sexo de los estudiantes? Use α = 0.01 Utilice el P-valor.

b. Analice el grado de asociación entre las variables, si la hubiera

Reporte de Minitab

Prueba Estadistica:

C1 C2 Total
1 154 85 239
138.26 100.74

2 80 101 181
104.71 76.29

3 46 18 64
37.02 26.98

Total 280 204 484

Chi-cuadrada = 23.246, GL = 2, Valor P = 0.000

Solución: Utilizando el p-valor

1) Formulación de hipótesis.
H0: La comida que consumen fuera de casa es independiente del sexo.
H1: La comida que consumen fuera de casa no es independiente del sexo.

2)  = 0.01

3) Valor P = 0.000 < α = 0.01 entonces RH0 y se acepta H1

4) Conclusión
Con un nivel de significación de 0.01 se puede afirmar que la comida que consumen
fuera de casa no es independiente del sexo, es decir si existe relación entre las dos
variables.

31
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

b. El grado de asociación entre estas dos variables es:

 c2 23.246
C   0.21407
 n
2
c 23.246  484

2.2 Prueba de Homogeneidad de Subpoblaciones:

Esta prueba se aplica cuando se desea verificar si las “K” categorías de una variable en
estudio tiene un comportamiento semejante ú homogéneo en “P” muestras o sub
poblaciones provenientes de igual número de poblaciones. De verificarse este
comportamiento homogéneo se puede inferir que las subpoblaciones provienen de una
misma población. En una prueba de homogeneidad de subpoblaciones uno de los totales
marginales de filas y columnas es aleatorio y el otro es fijo.

Procedimiento:

1) Planteamiento de la Hipótesis

H0: Los “K” categorías de la variable se distribuyen homogéneamente en las “P” muestras
o subpoblaciones.
H1: Los “K” categorías de la variable no se distribuyen homogéneamente en las “P”
muestras o subpoblaciones.

2) Nivel de Significación ()


o ij  eij 
2
f c

3) Estadístico de prueba.  c2   ~  2 f 1 c 1


eij  
i 1 j 1

4) Desarrollo de la prueba

5) Criterios de Decisión

0.10 No se rechaza H0 si: 2c ≤ 2crit


Se rechaza H0 si: 2c  2crit
 
0.08

0.06
2
crit  tab
2
 21 , f 1 c 1
0.04

0.02

0.00
0 Chi Critico

6) Conclusiones

32
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejemplo de aplicación 1

Muestras de tres tipos de materiales, sujetos a cambios extremos de temperatura,


produjeron los resultados (desintegración) que se muestran en la siguiente tabla:

Condición Material A Material B Material C Total


Desintegrados 41 27 22 90
Permanecieron intactos 79 53 78 210
Total 120 80 100 300

Use un nivel de significancia de 0.05 para probar si, en las condiciones establecidas, la
probabilidad de desintegración es diferente en al menos uno de los tres tipos de
materiales. Use el valor P y prueba estadística.

El reporte de Minitab es:

Chi-Square Test: C1, C2, C3

Expected counts are printed below observed counts


Chi-Square contributions are printed below expected counts

C1 C2 C3 Total
1 41 27 22 90
36.00 24.00 30.00
0.694 0.375 2.133

2 79 53 78 210
84.00 56.00 70.00
0.298 0.161 0.914

Total 120 80 100 300

Chi-Sq = 4.575, DF = 2, P-Value = 0.101

Solución: Utilizando el p-valor

1) Formulación de las hipótesis


H0: La condición de desintegración se distribuye homogéneamente en los tres tipos
de materiales
H1: La condición de desintegración no se distribuye homogéneamente en los tres tipos
de materiales

2) Nivel de significación: 0.05

3) P-valor = 0.101

4) Decisión: como p-valor = 0.101 > 0.05, entonces No se rechaza Ho.

Conclusión: a un nivel de significación del 5%, no se rechaza Ho. Luego se puede


afirmar que la probabilidad de desintegración no difiere entre los tres tipos de
materiales.

33
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Solución: Utilizando el estadístico de prueba

1) Formulación de las hipótesis


H0:La desintegración de los tres tipos de materiales se distribuyen similarmente en
las dos condiciones.
H1:La desintegración de los tres tipos de materiales no se distribuyen similarmente
en las dos condiciones.

2) Nivel de significación: 0.05

  
2
f c o
ij  eij 
2

~  2 f 1c 1


3) Estadístico de prueba. c
i 1 j 1 eij

4) Desarrollo de la Prueba.

Cálculos previos:

Tipo de Material
Condición Total
Material A Material B Material C
41 27 22
Desintegrados (36) (24) (30) 90
Permanecieron 79 53 78
intactos (84) (56) (70) 210
Total 120 80 100 300

(41  36) 2 (78  70) 2


 c2   ...   4.575 ~  (22 )
36 70

5) Criterios de decisión

Chi-Square, df=2 No se rechaza H0 si: 2c ≤ 5.9915


0.5
Se rechaza H0 si: 2c  5.9915
0.4
( crit
2
 tab
2
 20.95,2  5.9915 )
0.3

0.2

0.1

0.05
0.0
0 5.99
X

6) Conclusión
Con nivel de significación 0,05 no se rechaza la hipótesis nula. Por lo tanto, la
condición de desintegración se distribuye similarmente en los tres tipos de materiales.

34
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejemplo de aplicación 2

Para probar la protección de dos vacunas contra los abortos producidos por cierta
enfermedad, se han seleccionado tres grupos de vacas (Grupo 1, Grupo 2 y Grupo 3),
cada uno de los cuales tiene un total de 150 vacas sometidas al estudio. Estos grupos
de vacas fueron vacunados de la forma siguiente:

Grupo 1: placebo (vacuna inocua)


Grupo 2: vacuna X
Grupo 3: vacuna Y

En el primer grupo hubo 20 vacas que abortaron, en el segundo 10 y en el tercero 5.


¿La proporción de abortos es la misma en los tres grupos? Use α = 0.05 .Utilice el valor
P y la prueba estadística.

Reporte de MINITAB
Prueba Chi-cuadrada: Grupo_1, Grupo_2, Grupo_3

Los conteos esperados se imprimen debajo de los conteos observados


Las contribuciones Chi-cuadradas se imprimen debajo de los conteos
esperados

Grupo_1 Grupo_2 Grupo_3 Total


1 20 10 5 35
11.67 11.67 11.67
2 130 140 145 415
138.33 138.33 138.33
Total 150 150 150 450
Chi-cuadrada = 10.843, GL = 2, Valor P = 0.004

Solución: Utilizando p-valor

1) Formulación de las hipótesis


H0: La proporción de abortos es la misma en los tres grupos de vacas.
H1: La proporción de abortos no es la misma en los tres grupos de vacas.

2) α = 0.05

3) p-valor = 0.004

4) Decisión: como p-valor = 0.004 < 0.05, RHo y se acepta H1

A un nivel de significación del 5% se rechaza Ho. Por lo tanto, se puede afirmar que
la proporción de abortos no es la misma en los tres grupos de vacas.

35
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Solución: Utilizando el estadístico de prueba

1) Formulación de las hipótesis


H0: La proporción de abortos es la misma en los tres grupos de vacas.
H1: La proporción de abortos no es la misma en los tres grupos de vacas.

2) α = 0.05
f c o  eij 
2

3) Estadística de prueba.   
2
c
ij
~  21 , f 1c 1
i 1 j 1 eij
Chi-cuadrada = 10.843,

4) Utilizando Valor Critico

Chi-cuadrada con 2 GL
P( X <= x ) x
0.95 5.99146

5) Conclusión.
A un nivel de significación del 5% se rechaza Ho. Luego se puede afirmar que la
proporción de abortos no es la misma en los tres grupos de vacas.

Diferencias entre la prueba de independencia y de homogeneidad

1) La prueba de Independencia se usa para probar si una característica es independiente


de otra, mientras que la prueba de Homogeneidad de subpoblaciones se usa para
probar si una característica se distribuye homogéneamente en 2 ó más
subpoblaciones, ó también si diferentes muestras proceden de la misma población.

2) La prueba de independencia supone una muestra tomada de una sola población,


mientras que la prueba de Homogeneidad de subpoblaciones supone 2 ó más
muestras independientes.

3) En la prueba de Independencia las frecuencias marginales de filas y columnas son


valores aleatorios, en la prueba de Homogeneidad de subpoblaciones una de las
frecuencias marginales (filas ó columnas) son valores fijados porque son los tamaños
de muestra.

36
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejercicios Propuestos

1) En el año 2000 se fundó la compañía “AGROSERV.S.A.”, encargada de la fabricación


y distribución de implementos para campos de cultivo, la cual tiene sucursales en los
distritos de Lince, San Borja, San Miguel y San Martín. La gerencia realizó un estudio
para poder evaluar el nivel de las ventas, la satisfacción del cliente y el proceso de
ventas. Los clientes en ciertos casos solicitan descuentos por la compra de los
implementos y esto puede cambiar según la ubicación de la sucursal. La forma de
pago puede ser al crédito o al contado. Se realizó una encuesta piloto a los clientes
de las cuatro sucursales, para evaluar la calidad del servicio brindado (Regular,
Bueno, Muy bueno). Se tomó una muestra distinta de clientes atendidos en cada una
de las sucursales (80 del Lince, 110 de San Borja, 105 de San Miguel y 75 de San
Martín).

Distritos
Calidad del
servicio Lince San Borja San Miguel San Martín
Regular 15 20 30 20
Buena 25 40 35 25
Muy buena 40 50 40 30

Realice la prueba más adecuada para este caso. Plantee las hipótesis respectivas y
concluya. Use un nivel de significación del 0.05

2) Se realizó una encuesta para saber si existe una relación entre el género y la confianza
que la gente tiene en los alimentos transgénicos. Los resultados de una muestra
aleatoria se presentan en la siguiente tabla:

Confianza en los alimentos transgénicos


Género Mucha Regular Muy poca o
ninguna
Hombres 115 56 29
Mujeres 175 94 31

Use un nivel de significación del 0.05 para probar sí existe una relación del género y
la confianza en los alimentos transgénicos.

3) Se realiza un estudio para determinar la relación entre nivel de rendimiento de cosecha


y la concentración de abono nitrogenado. La tabla adjunta lista los resultados para una
muestra aleatoria de parcelas

Concentración de abono nitrogenado


Nivel de rendimiento
Bajo Medio Alto
Medio 12 37 72
Alto 39 40 64

A un nivel de significación de 0.05, pruebe la hipótesis respectiva

37
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

4) Se recolectaron datos sobre un conjunto de cerdos a los cuales se les dio un tipo
especial de alimentación con la finalidad de incrementar el peso. Se registró el tipo
de raza (A, B, C, D) y la ganancia de peso que obtuvieron. Los resultados se muestran
en la tabla adjunta:

Tipo de raza
Ganancia de peso A B C D
De 2 a 5kg 127 53 50 57
Más de 5kg 71 47 43 42

Use un nivel de significancia de 0.10 para probar que la raza de cerdo no es


independiente de la ganancia de peso.

5) Un ingeniero agrónomo llevó a cabo un experimento para determinar el nivel de


curación de cierta enfermedad en un cultivo para lo cual usó tres tipos de insecticidas.
Cada tipo de insecticida se suministró a 50 plantas distintas y se registraron los
siguientes datos:

Tipo de insecticida
Nivel
A B C
Bajo 11 13 9
Medio 32 28 27
Alto 7 9 14

Pruebe la hipótesis, con un nivel de significación del 5%, que los tres tipos de
insecticidas no tienen el mismo nivel de efectividad en la curación.

38
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

3. Prueba de Homogeneidad de Variancias

Prueba de Bartlett de Homogeneidad de Variancias (Snedecor y Cochran, 1983). Esta


prueba es utilizada para evaluar si existe homogeneidad de variancias entre t
poblaciones  t  2  . Los supuestos para la aplicación de esta prueba son:

 Las muestras provienen de distribuciones normales


 Las muestras son independientes.
 Las muestras son tomadas al azar.

Nota Importante
 Esta prueba estadística no pertenece al grupo de pruebas no paramétricas.
 Es presentada en este capítulo como parte de las aplicaciones de la distribución Chi
Cuadrado dado que será utilizada como supuesto en los diseños experimentales

Procedimiento

1) Formulación de Hipótesis
H0: 12   22    t2   2
H1: Al menos un  i2 es diferente i  1, 2, ,t

2) Nivel de significación  .

3) Estadístico de prueba
El estadístico de prueba tiene una distribución Chi-cuadrado con t  1 grados de libertad

 t 
  ni  1 LnSi2 
t

 i     
2
n 1  LnS p
Q   i 1  i 1
~  2t 1
 
1  t 1  1 
1     
3  t  1  i 1 (ni  1)  t
   ni  1 
i 1 

Donde ni es el tamaño de la i-ésima muestra.


2
 ni 
ni ni   Y i 
 
 Yij  ni Y i  Yij 
2 2 2 j 1

ni
Si2 es la variancia muestral de cada muestra Si2  j 1  j 1
(ni  1) (ni  1)

2   n  1 Si i
2

S es la variancia ponderada de las muestras S 


p
2 i 1
p t

  n  1
i 1
i

4) Desarrollo de la prueba

39
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

5) Criterio de Decisión

Se rechaza la hipótesis nula con un nivel de significación  si:


Q  21 ,t 1 .
6) Conclusiones

Ejemplo de Aplicación 1

Una empresa usa 4 máquinas para el llenado de bolsas de detergente. Todas las
máquinas son de la misma marca y modelo. Dichas máquinas están programadas para
llenar 250 gr. en cada bolsa de detergente. El jefe de producción se ha quejado de que
las 4 máquinas presentan cierto nivel de variabilidad en la cantidad de detergente de
cada bolsa. Un especialista encargado por la compañía selecciona al azar 6 bolsas de
c/u de las máquinas y posteriormente pesa las bolsas. Los resultados obtenidos se
muestran a continuación:

Máquinas
Repetición
A B C D
1 250.3 249.3 250.0 251.1
2 250.2 246.8 251.1 250.1
3 249.9 248.3 250.9 248.9
4 249.3 247.9 248.3 249.3
5 250.6 249.7 248.9 251.0
6 250.3 249.9 249.9 249.9
Total 1500.6 1491.9 1499.1 1500.3
Promedio 250.10 248.65 249.85 250.05
Si2 0.20 1.44 1.20 0.78

a. Pruebe el supuesto de normalidad utilizando los reportes. Use   0.05

PRUEBAS DE NORMALIDAD

A B
Probability Plot of A Probability Plot of B
Normal Normal
99 99
Mean 250.1 Mean 248.7
StDev 0.4517 StDev 1.200
95 N 6 95 N 6
AD 0.391 AD 0.255
90 90
P-Value 0.254 P-Value 0.576
80 80
70 70
Percent
Percent

60 60
50 50
40 40
30 30
20 20

10 10

5 5

1 1
249.0 249.5 250.0 250.5 251.0 246 247 248 249 250 251 252
A B

pvalor=0.254 p-valor=0.576

40
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

C D
Probability Plot of C Probability Plot of D
Normal Normal
99 99
Mean 249.9 Mean 250.1
StDev 1.095 StDev 0.8849
95 N 6 95 N 6
AD 0.239 AD 0.242
90 90
P-Value 0.630 P-Value 0.621

80 80

70 70

Percent
Percent

60 60
50 50
40 40
30 30

20 20

10 10

5 5

1
1
247 248 249 250 251 252 253 248 249 250 251 252
C D

pvalor=0.63 pvalor=0.621

1) Hipótesis
H0: Los pesos de las bolsas de detergente medidos por la máquina i tienen
distribución normal
H1: Los pesos de las bolsas de detergente medidos por la máquina i no tienen
distribución normal

Para todo i= A, B, C, D

2)   0.05

3) P-valor y Criterio de Decisión:

Máquina P-valor Sig.


A 0.254 ns
B 0.576 ns
C 0.63 ns
D 0.621 ns

4) Conclusión:
Con un nivel de significación del 5% no se rechaza H0. Por lo tanto no se puede afirmar
que las variancias sean heterogéneas. Se cumple el supuesto de homogeneidad de
varianzas

b. Pruebe el supuesto de homogeneidad de varianzas. Use   0.05

Reporte Minitab:
Prueba de varianzas iguales: A, B, C, D

Pruebas

Estadística Estadístico de prueba


Método de prueba Valor p Bartlett
Bartlett 4.13 0.248 P-valor de la prueba
estadística

41
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Solución: Utilizando p-valor

5) Hipótesis
H0: 12   22   32   42   2
H1: Al menos un  i2 es diferente i  1, 2,3, 4

6)   0.05

7) P-valor = 0.248

8) Decisión: como p-valor > 0.05, No se rechaza Ho

Conclusión:
Con un nivel de significación del 5% no se rechaza H 0. Por lo tanto no se puede
afirmar que las variancias sean heterogéneas. Se cumple el supuesto de
homogeneidad de varianzas.

Solución: Utilizando el estadístico de prueba

1) Hipótesis
H0: 12   22   32   42   2
H1: Al menos un  i2 es diferente i  1, 2,3, 4

2)   0.05

3) Estadístico de prueba
El estadístico de prueba tiene una distribución Chi-cuadrado con t  1 grados de
libertad
 t 
   ni  1  LnS p     ni  1 LnSi 
t
2 2

Q   i 1  i 1
~  2t 1
 
1  t 1  1 
1    t 
3  t  1  i 1 (ni  1) 
   ni  1 
i 1 
4) Desarrollo de la prueba:

Si2 0.20 1.44 1.20 0.78


LnSi2 -1.6094 0.3646 0.1823 -0.2485
 ni  1 5 5 5 5 20

5  0.20    5  0.78 18.10


S p2    0.905
20 20

20 Ln0.905   6.555 4.5586


Q   4.208
1  1 1 1  1.0833
1     
3  3  5 5  20 

42
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

5) Criterio de Decisión:
0.25 Se rechaza la hipótesis nula con un
nivel de significación   0.05 si:
0.20

Q  tab
2
 20.95,3  7.8147
0.15

0.10

0.05

0.05
0.00
0 7.81
X

6) Conclusión
Con un nivel de significación del 5% no se rechaza H0. Por lo tanto no se puede afirmar
que las variancias sean heterogéneas. Se cumple el supuesto de homogeneidad de
varianzas.

Ejemplo de Aplicación 2

Un ingeniero Agrónomo quiere saber si la variabilidad del rendimiento por planta (en Kg.)
es diferente en al menos una localidad donde se realizaron sus plantaciones y se aplicó
el uso de agroquímicos como práctica cultural. Para esto decidió correr sus datos en un
conocido programa estadístico. Obtuvo los siguientes resultados:

Localidad n Desviación estándar


Casma 78 0.0870377
Lurín 133 0.0926798
San Antonio 18 0.0836254

Realice la prueba estadística más adecuada.

Solución:

1) Hipótesis
H0: 12   22   32   2
H1: Al menos un  i2 es diferente i  1, 2,3

2)   0.05

3) Estadístico de prueba

 t 
  ni  1 LnSi2 
t

 i     
2
n 1  LnS p
Q   i 1  i 1
~  2t 1
 
1  t 1  1 
1    t 
3  t  1  i 1 ni  1 
   ni  1 
i 1 

43
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

4) Desarrollo de la prueba:

Si 0.0870377 0.0926798 0.0836254


Si^2 0.00757556 0.00858955 0.00699321
LnSi^2 -4.88282784 -4.75720947 -4.96281595
(ni-1) 77 132 17 226

S p2  0.008123

226 Ln0.00812   1088.2972 


Q  0.56725 ~  (2)
2

1  1 1 1 
1     
3  2   77 17  226 

5) Criterio de Decisión

Se rechaza la hipótesis nula con un nivel de significación   0.05 si:


Q  tab
2
 20.95,2  5.991

6) Conclusión
Con nivel de significación 0.05 no se rechaza la hipótesis nula. Por lo tanto no se puede
afirmar que las varianzas del rendimiento (en Kg.) por localidad donde se aplicaron
agroquímicos sean heterogéneas. Se cumple el supuesto de homogeneidad de
varianzas.

44
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejercicios Propuestos

Se realizó una investigación en donde se estudiaron 4 dosis de insecticida (A: 4 litros/ha,


B: 5 litros /ha, C: 7 litros/ha, y D: 9 litros/ha) para poder controlar la Phyiophthora infestans
en los cultivos de papa. Los tratamientos fueron asignados aleatoriamente a las parcelas,
obteniéndose los siguientes resultados correspondiente al rendimiento en TM/ha. Los
datos de rendimiento se distribuyen normalmente.

A B C D
29 40 50 41
32 39 45 38
36 41 46 39
34 44 52 44
35 46 49 46

A un nivel de significación de 0.05 pruebe el supuesto de homogeneidad de varianzas.

1. Una empresa que vende fertilizantes está considerando invertir en un centro comercial a
construirse en el sector medio de una capital del país. Para la empresa, es muy
importante el nivel de las ventas semanales en diversas tiendas. Para el estudio, se
evalúan 4 ciudades: Arequipa, Iquitos, Piura y Trujillo y en cada una de ellas se
seleccionaron muestras aleatorias de tiendas. Las ventas semanales en dólares son:

Arequipa Iquitos Piura Trujillo


610 710 560 500
560 730 610 400
490 660 470 500
550 610 510 500
460 580 500
620 400
650

Asuma que las ventas se distribuyen normalmente.


A un nivel de significación de 0.05 pruebe el supuesto de homogeneidad de varianzas.

2. Un ingeniero especialista en cultivos de Olivo está preocupado por la cantidad de hongos


(Diente de león- Taraxacum officinale) encontrados en las plantas del olivo que afectan
el peso del fruto (aceituna) del olivo. El ingeniero quiere resolver el problema y decide
contratar a un estadístico para muestrear plantas y analizarlas estadísticamente.
A continuación se presenta los pesos de las aceitunas según variedad:

Variedad A Variedad B Variedad C


5.56 5.22 5.22
5.12 5.17 5.45
4.99 4.89 5.66
4.22 4.9 5.88
4.18 5.1 5.48

45
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Asumiendo la normalidad en las muestras, pruebe el supuesto de homogeneidad de


varianzas. Use α=0.05.

Referencias

R.G.D. Steel, & Torrie, J.H. (1985). Bioestadística Principios y Procedimientos. McGraw
Hill, ed Bogotá, Colombia.

Porras, J. (2017). Pruebas No Paramétricas Usando R. Lima. UNALM.

Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of
data analysis. Australia: Duxbury/Thomson Learning

Agresti, A. (2002) Categorical Data Analysis, (2nd Ed). Wiley-Interscience. New Yersey

46
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Capítulo II

DISEÑOS EXPERIMENTALES
OBJETIVOS.

 Determina los elementos y principios de los diseños experimentales y su importancia


en la investigación.
 Diseña un experimento identificando elementos y principios de los diseños
experimentales.

Introducción

Hasta ahora Ud. solo tiene el conocimiento del desarrollo de pruebas de hipótesis para
comparar dos medias poblacionales (prueba de diferencia de medias) o dos variancias
poblacionales (prueba de razón de varianzas). Sin embargo en muchas aplicaciones, se
desea comparar el promedio de una variable de interés en más de dos poblaciones. En
estos casos el planteamiento de un Diseño Experimental es de gran utilidad.
Los Diseños Experimentales mediante el ANVA (o ANOVA por Analysis of Variance) que
es la descomposición de la variabilidad total en cada una de sus componentes permiten
probar si dos o más poblaciones tienen la misma media. Aun cuando el propósito del
ANVA es hacer pruebas para hallar las diferencias en las medias poblacionales, implica
un examen de las variancias muestrales; de allí el término de análisis de variancia.
En este capítulo se presentará los conceptos básicos de Diseños Experimentales.

1. Conceptos Básicos

a) Factor:
Es una variable independiente que afecta los resultados del experimento. El factor en
estudio es controlado por el investigador y es de interés estudiarlo. A las distintas
categorías o valores que puede tomar el factor se le denomina niveles del factor. En
un experimento se puede evaluar un solo factor o más factores.

Ejemplo:
 Factor: Métodos de enseñanza en cuanto a la relación profesor alumno
Niveles: Individual, Recíproco, Colectivo
 Factor: Razas de perros
Niveles: Pastor Alemán, Labrador, Doberman, Dálmata.
 Factor: Porcentaje de Nitrógeno
Niveles; 0%, 10%, 20%

47
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

b) Tratamiento:
A cada nivel de un factor o a cada combinación de los niveles de varios factores
considerados en el experimento se le denomina tratamiento.

Ejemplo:

 Factor1: Turno de trabajo de un empleado


Niveles o Tratamientos: mañana, tarde, noche
 Factor 2: Categoría de experiencia de un empleado
Niveles o Tratamientos: junior, senior

Si se combinan los niveles de ambos factores se pueden obtener los siguientes


tratamientos:
mañana-junior, mañana-senior, tarde-junior, tarde-senior, noche-junior, noche-senior,
etc.

c) Unidad Experimental:
Es el elemento al cual se le aplica un tratamiento. Al conjunto de unidades
experimentales se le denomina material experimental. Cada unidad experimental
contiene una o mas unidades muestrales en las cuales las condiciones
experimentales planeadas previamente se realizan, como por ejemplo:
 En un experimento agrícola para evaluar el rendimiento de algunas variedades de
maíz, la unidad experimental puede ser una porción de terreno de tamaño óptimo
preestablecido, usualmente denominada parcela, o un número de plantas o un
número de mazorcas.
 En un estudio clínico, un paciente sometido a un tratamiento terapéutico puede
ser considerado como una unidad experimental.
 En un trabajo en entomología la unidad experimental puede ser un insecto, una
colonia o toda una especie.

d) Variable respuesta (Y):


Es la característica en la cual se desea evaluar los efectos de los tratamientos. Las
variables respuestas proporcionan las mediciones del experimento, las cuales varían
debido a la diversidad presente entre las unidades experimentales
Ejemplo:
 Puntuaciones obtenidas por un alumno en un examen.
 Ganancia de peso (en kg.) de un ternero.
 Tiempo (en minutos) de ensamblaje de una computadora portátil.

e) Dato u observación:
Es el registro numérico obtenido después de la aplicación del tratamiento a la unidad
experimental.
Ejemplo:
 15 puntos.
 1.3 kg.
 18.5 minutos.

48
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

2. Diseño Experimental
Es la distribución de los tratamientos (niveles de un factor o combinación de los
niveles de varios factores) a las unidades experimentales. Así, también involucra la
elección del tamaño muestral y la disposición de las unidades experimentales.
El uso del diseño experimental adecuado permite minimizar el error experimental.

2.1 Tipos de Diseños Experimentales

a) Diseños donde no existe restricción a la aleatorización:


En este tipo de diseño, se espera que las unidades experimentales sean
homogéneas. Es decir solo los tratamientos puedan afectar los cambios en la variable
respuesta
Ejemplo:
Diseño Completamente al Azar (D.C.A.)

b) Diseños donde existe una restricción a la aleatorización:


En este tipo de diseño las unidades experimentales, se diferencian por una
determinada característica que permite formar bloques o grupos.
Ejemplo:
Diseño de Bloques Completos al Azar (D.B.C.A.)

c) Diseños donde existe más de una restricción a la aleatorización:


En este tipo de diseño, las unidades experimentales se pueden agrupar según un
doble criterio de clasificación.
Ejemplo:
Diseño Cuadrado Latino (D.C.L.)

Por ejemplo, si se tienen 4 tratamientos (A, B, C y D) y 16 unidades experimentales, se


tendrían 4 unidades experimentales por tratamiento. (experimento balanceado).

La distribución de las unidades experimentales (croquis experimental) a los tratamientos


según los diseños propuestos sería la siguiente (considere a cada celda como una
unidad elemental):

Diseño Completamente al Azar

A D C B
C B D A
B A D D
A C B C

Observe que no hay ninguna restricción en la distribución de los tratamientos a las


unidades experimentales

Diseño de Bloques Completos al Azar

Bloque I A D C B
Bloque II C B D A
Bloque III B A C D
Bloque IV A D B C

49
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Note que ningún tratamiento se repite en cada bloque. El bloqueo puede representarse
en las filas o columnas

Diseño Cuadrado Latino

Bloque I Bloque II Bloque III Bloque IV


Bloque I A B C D
Bloque II B A D C
Bloque III C D A B
Bloque IV D C B A

Note que hay un doble bloqueo de tal manera que ningún tratamiento se repite en fila y
columna

3. Error Experimental
Son las diferencias observadas en los valores de la variable respuesta de cada una de
las unidades experimentales por una acción diferente a la de los tratamientos.

3.1 Fuentes de Error Experimental


Las fuentes principales causantes del error experimental son:
 Variabilidad existente entre las unidades experimentales a la cual se le aplica los
tratamientos.
 Variabilidad en la uniformidad en la conducción del experimento.

Las fuentes secundarias causantes del error experimental son:


 Los errores de observación o medición.
 El hecho de no controlar factores o variables importantes no incluídas en el
experimento.

3.2 Formas de reducir el Error Experimental


Se debe reducir el error experimental con el fin de poder tener una mayor probabilidad
de detectar las diferencias existentes entre los efectos de los tratamientos. El error
experimental se puede reducir:
 Utilizando el diseño experimental adecuado.
 Seleccionando minuciosamente el material experimental.
 Refinando la técnica experimental y teniendo en cuenta los factores que puedan
afectar el experimento.
 Incrementando lo máximo posible el número de repeticiones en el experimento.
 Utilizando la información proporcionada por variables auxiliares que se
encuentran relacionadas a la variable respuesta.

4. Principios Básicos de un Diseño Experimental

4.1 Repetición:
Consiste en aplicar el tratamiento a más de una unidad experimental. Es decir es el
proceso de repetir en condiciones similares el experimento para cada tratamiento. La
repetición permite:
 La estimación del error experimental.
 Obtener estimaciones más precisas del efecto medio de cualquier tratamiento en
estudio, ya que la variancia estimada mediante dicho tratamiento disminuye a
medida que se incrementa el número de repeticiones.

50
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

4.2 Aleatorización
Es el procedimiento que permite que cada unidad experimental tenga iguales
condiciones para recibir cualquier tratamiento. Es decir, consiste en la asignación
aleatoria de los tratamientos a las unidades experimentales. La aleatorización
permite:
 Hacer validas nuestras conclusiones o inferencia estadística.
 Que las observaciones sean independientes. Es decir que no exista correlación
entre las unidades experimentales.
 Evitar sesgos en la estimación del error experimental y los efectos de los
tratamientos.

4.3 Control Local


Es el proceso de clasificación de las unidades experimentales en grupos
homogéneos. Es decir, son procedimientos aplicados al material experimental con el
fin de reducir el error experimental. El control local comprende:
a) Agrupamiento: Es la unión de un conjunto de unidades experimentales
homogéneas, formando grupos, de modo que las diferencias se presentan entre
los grupos. A cada grupo se le aplicaran los tratamientos planteados en el
experimento.
b) Bloqueo: Es la distribución de las unidades experimentales en bloques, de tal
manera que las unidades dentro de cada bloque sean relativamente homogéneas.
Para alcanzar la máxima eficiencia con el bloqueo, es necesario el conocimiento
relacionado con varios factores extraños que afectan las unidades
experimentales, información que solo el que realiza el estudio puede proveer.
c) Balanceo: Es la aplicación de los tratamientos a un igual número de unidades
experimentales de tal modo que cualquier tratamiento pueda compararse con la
misma precisión.

Cuando los tratamientos no tienen igual cantidad de unidades experimentales se


les denomina experimentos desbalanceados

5. Modelo Aditivo Lineal


Es una representación matemática de las relaciones existentes entre los factores o
componentes considerados en un diseño experimental. Por ejemplo:

Yij     i  eij

5.1 Tipos de Modelos


De acuerdo a la forma como son seleccionados los tratamientos, los modelos pueden
ser de tres tipos:

a) Modelo I (Efectos Fijos):


Ocurre cuando los tratamientos incluidos en el experimento han sido fijados por el
experimentador. En este caso las conclusiones del experimento son válidas
solamente para los tratamientos evaluados. Este es el modelo más utilizado y en
esta Guía se desarrollarán los estadísticos de prueba basados en este modelo.

b) Modelo II (Efectos Aleatorios)


Es el modelo que se presenta cuando los tratamientos incluidos en el experimento
son seleccionados aleatoriamente de una población de tratamientos. En este caso
51
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

las conclusiones del experimento son válidas para la población de los


tratamientos.

c) Modelo III (Efectos Mixtos)


Se presenta cuando se tiene una combinación de los modelos anteriores.

5.2 Supuestos del Modelo


a) Aditividad: Los efectos del modelo son aditivos.
b) Linealidad: Las relaciones entre los efectos del modelo son lineales.
c) Normalidad: Los errores del modelo deben tener distribución normal con media
cero y variancia  2 .
Para verificar la normalidad de los errores se puede hacer uso de diferentes
procedimientos no paramétricas como las pruebas de: Anderson-Darling, Shapiro
Wilk, Kolmogorov-Smirnov y otros.
d) Independencia: Los resultados obtenidos en el experimento son independientes
entre si.
e) Homogeneidad de variancias: Las diferentes poblaciones generadas por la
aplicación de los diferentes tratamientos tienen variancias iguales. Como ya se vio
en el capítulo anterior la homogeneidad de varianzas se puede verificar mediante
la prueba de Bartlett

6. Análisis de Varianza
Es una técnica estadística que permite descomponer la variabilidad total de los
resultados de un experimento en sus distintas fuentes (tratamientos o niveles de factor,
interacciones de niveles, covariables, error experimental, bloques).

Como el Análisis de Variancia requiere el cumplimiento de supuestos para poder


desarrollarlo, antes de presentar el primer diseño se desarrollarán dos pruebas que
permitan verificar dichos supuestos,

52
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejercicios Propuestos

1) Se quiere comparar el rendimiento (en Kg/Ha.) de tres variedades de camote


A, B y C para lo cual se prepara un campo experimental con 15 parcelas. En
cinco de ellas, seleccionadas al azar, se siembra la variedad A, en otras cinco
se siembra la variedad B, y en las restantes, la variedad C

Según el caso anterior:

a) El factor en estudio es: _________________________________________.

b) La unidad experimental es: _______________________________________.

c) El control local considerado es: ___________________________________.

d) El diseño experimental que se pretende aplicar es un __________________.

2) Un ingeniero zootecnista está interesado en evaluar la ganancia de peso (en g.)


de cuyes machos mejorados luego de aplicar cuatro dietas alimenticias (T1:
Dieta control, T2: Dieta con 1% de aceite de pescado, T3: Dieta con 4% de
semilla de sacha inchi, T4: Dieta con 1% de aceite de pescado y 4% de semilla
de sacha inchi. Los 48 cuyes usados en el experimento tuvieron una edad y peso
promedio de 42 días y 615 g, respectivamente. Para realizar dicho experimento,
el ingeniero construyó 12 pozas idénticas de material noble revestidas con
cemento. Donde en cada una de ellas se distribuyeron al azar grupos
homogéneos de 4 cuyes y se les aplicó una de las dietas en estudio.

Según el caso anterior:

a) La variable respuesta es: ________________________________________.

b) La unidad experimental es: _______________________________________.

c) El diseño experimental, según el número de repeticiones, es considerado de


tipo: _________________________________________________________.

d) Complete el siguiente cuadro con un croquis experimental para el caso:

e) Si los cuyes utilizados en el experimento hubiesen sido de las siguientes


edades promedio: 12 días (E1), 24 (E2) y 42 días (E3). Bajo el mismo interés
en estudio, entonces el factor de bloqueo sería: ______________________.

53
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

3) En un experimento agrícola se estudió el efecto de 3 variedades de mandarina


(V1, V2 y V3) sobre la producción obtenida por parcela (en T/Ha.). En la siembra
intervinieron dos bloques: el tipo de suelo (arenoso, arcilloso y franco arenoso) y
la pendiente de terreno (alta, media y baja). Identifique:

a) Tipo de diseño experimental: _____________________________________.

b) El número de unidades experimentales es: __________________________.

c) Factor(es) en estudio: ___________________________________________.

Según la información del caso, complete el siguiente cuadro con un croquis


experimental:

Suelo/Pendiente alta media baja


arenoso
arcilloso
franco arenoso

4) Cuatro métodos de crecimiento de trigo son comparados en cinco extensiones


agrícolas. Cuatro parcelas son usadas en cada extensión agrícola. La
aleatorización de los métodos a las parcelas se realizó dentro de cada extensión.
Se registraron cinco medidas adicionales a la de estudio que fue la producción
de trigo.

Según el caso anterior:

a) El diseño experimental aplicado es: ________________________________.

b) El factor en estudio es: ________________________________________.

c) La unidad experimental es: ______________________________________.

d) La variable respuesta es: _______________________________________.

e) El tipo de control local considerado es: _____________________________.

5) Una medicación nueva para tratar cierta enfermedad de vacunos se comparó


con la medicación tradicional. Para esto se tomó al azar un grupo de 300
animales que padecían la enfermedad; a la mitad de éstos, tomados al azar, se
los trató con la nueva medicación y a los otros 150, con la medicación tradicional.
Luego de un tiempo se analizaron nuevamente los animales registrando si
empeoraron, se mantuvieron o mejoraron. Identifique:

a) Variable respuesta: _____________________________________________.

b) Unidad experimental: __________________________________________.

c) Factor en estudio: ______________________________________________.

d) Tratamientos: _________________________________________________.

54
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

6) El estudio de Ames sobre la salmonela microsoma se usa para investigar el


potencial de sustancias contaminantes, según su capacidad para efectuar
cambios en material genético. Suponga que se probaron cinco dosis del
compuesto 4-nitroorto-penilenidiamina (4NoP) con la variedad salmonela TA98
y se contó el número de colonias visibles en placas dosificadas con 4NoP.

Usando esta información identifique:

a) Factor en estudio: _____________________________________________.

b) Número de niveles del factor: _____________________________________.

c) Unidad experimental: ___________________________________________.

d) Variable respuesta: _____________________________________________.

7) Para observar si fumar influye en el desarrollo de cáncer pulmonar un grupo de


investigadores seleccionaron al azar 500 historias clínicas de pacientes
diagnosticados con cáncer al pulmón y después de revisar su historial registraron
en cada paciente si tuvieron o no hábito de fumar.
¿El diseño de este estudio es experimental? Argumente.

8) Se realizó el siguiente experimento, de una piscina se tomó 20 alevines y se


colocó en una pecera los cuales fueron alimentados con un tipo de alimento A,
luego se tomó otros 20 alevines y se colocó en otra pecera los cuales fueron
alimentados con el alimento B y finalmente se tomó otros 20 alevines los cuales
fueron alimentados con el alimento C. Si se considera que las peceras donde se
colocaron los alevines fueron idénticas
¿Qué principios del diseño de experimentos no se están considerando en la
realización del experimento? Argumente.

Referencias

R.G.D. Steel, & Torrie, J.H.(1985). Bioestadística Principios y Procedimientos. McGraw


Hill, ed Bogotá, Colombia.

Montgomery, D. C. (2005). Diseño y análisis de experimentos (2nd. Ed). México: Limusa


Wiey.

Kuehl, R. O., (2001). Diseño de experimentos: principios estadísticos para el diseño y


análisis de investigaciones. (2nd Ed). International Thomson Editores, S.A. de C.V.,
Mexico, DF.

Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of
data analysis. Australia: Duxbury/Thomson Learning.

55
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Capítulo III

DISEÑO COMPLETAMENTE AL AZAR (D.C.A.)

Objetivos.

 Identificar un experimento en diseño completamente al azar.


 Analizar los resultados de un experimento en diseño completamente al azar.
 Aplicar los procedimientos de comparaciones múltiples para comparar conjunto de
tratamientos de un diseño completo al azar.

Introducción

Es el diseño experimental más simple de todos los diseños experimentales. Es útil


cuando las unidades experimentales son homogéneas, es decir cuando la variación entre
ellas es pequeña y no existe ningún criterio de bloqueo que permita disminuirla. En este
diseño los tratamientos son asignados aleatoriamente a las unidades experimentales sin
ninguna restricción, por lo tanto cada unidad experimental tiene la misma probabilidad
de recibir un tratamiento.
Dado que los tratamientos constituyen el único criterio de clasificación para las unidades
experimentales, este diseño se le conoce también como diseño de clasificación de una
vía (One Way).

Ventajas
 Es un diseño flexible debido a que el número de tratamientos y de repeticiones esta
limitado solo por el número de unidades experimentales.
 El número de repeticiones puede variar entre tratamientos, aunque generalmente lo
ideal es tener el mismo número de repeticiones por cada tratamiento.
 El análisis estadístico es simple.
 El número de grados de libertad para estimar el error experimental es máximo. Esto
mejora la precisión del experimento.

Desventajas
 Solo es aplicable en situaciones en las que el material experimental es homogéneo.
 Debido a que no hay restricciones de aleatoriedad, toda la variabilidad existente en
las unidades experimentales tratadas con el mismo tratamiento estará incluida en el
error experimental.

1. Croquis Experimental

El croquis experimental es una muestra de arreglo de la aleatorización de los


tratamientos a las unidades experimentales. Estos croquis son fáciles de entender
cuando las unidades experimentales son estáticas, como en el caso de parcelas de
terreno en un experimento agronómico. Por ejemplo, supongamos que tenemos 4
tratamientos y 12 unidades experimentales. Si consideramos cada celda como una

56
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

unidad experimental, se debe aleatorizar los tratamientos sin tener ninguna restricción,
de tal manera que una posible aleatorización de los tratamientos en las unidades
experimentales podría ser la siguiente:

T2 T4 T2 T4
T1 T3 T1 T3
T3 T2 T4 T1

2. Cuadro de Datos

Suponga que se desea comparar t tratamientos. El i-ésimo tratamiento cuenta con ni


repeticiones y cada unidad experimental (u.e.) genera una observación Yij.
Luego, cuadro de datos sería el siguiente:

Tratamientos Totales
Repetición
1 2 T
1 Y11 Y21 Yt1

ni Y1ni Ytnt
t ri

Totales Y1 Y2 Yt Y  Yij


i 1 j 1
t
ni n1 n2 nt n   ni
i 1

Promedios Y 1 Y 2 Y t Y
Y  
n

ni

Donde Yi  Y
j 1
ij y Y i 
Yi
ni
para todo i  1, 2, , t

Si ni  n j i  j i, j  1, , t se dice que es un experimento balanceado dado que se


tiene igual cantidad de repeticiones y los ni pueden ser denotados por r por lo tanto el
número total de unidades experimentales sería n  rt

3. Modelo Aditivo Lineal

El Modelo Aditivo Lineal para un Diseño Completamente al Azar es el siguiente:

Yij     i   ij i  1, 2, , t j  1, 2, , ni

Donde:
Yij : Es el valor generado en el i-ésimo tratamiento por la j-ésima repetición o u.e.
 : Es el efecto de la media general.
 i : Es el efecto del i-ésimo tratamiento.
 ij : Es el efecto del error experimental en el i-ésimo tratamiento y la j-ésima repetición.

57
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Para las pruebas de hipótesis se asume que  ij es una variable independiente distribuida
normalmente con media cero y variancia común  2 (es decir  ij ~ N  0,  2  .

4. Estimación de los efectos

Los efectos del modelo son estimados por el método de Mínimos Cuadrados. Con este
método se pueden obtener los valores de  y  i (i=1,2,…,t) que minimizan la suma de
los errores al cuadrado. Es decir:

ni ni
Q    ij2   Yij     i 
t t
2

i 1 j 1 i 1 j 1

Para calcular los valores de  y  i , se debe solucionar el sistema de ecuaciones


obtenido por las derivadas parciales de Q (con respecto a  y a cada uno de los valores
de  i ) e igualar esas derivadas a cero. Si se aplica el método de mínimos cuadrados se
obtiene:
Q
 
t ni
 2 Yij     i  0
 ˆ ,ˆi i 1 j 1

Q
 
t ni
 2 Yij     i  0 (i=1,2,…,t)
 i ˆ ,ˆi i 1 j 1

El resultado sería:
t ni
nˆ  ˆi  Y
i 1 j 1

nˆ  niˆi  Yi (i=1,2,…,t)

Al sistema de ecuaciones dado anteriormente se le llama sistema de ecuaciones


normales, el cual tiene múltiples soluciones. Para obtener una solución se aplica la
restricción
t

 ni 1
i i 0

Con esta restricción se puede deducir que:

Y
De la primera ecuación se tiene: nˆ  Y  ˆ  Y  
n
Yi Y
De la segunda ecuación se tiene: nˆ  niˆi  Yi  ˆi  Y i  Y   
ni n
ˆij  Yij  Y i

58
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

5. Análisis de Varianza

En este modelo la variabilidad total se descompone en dos fuentes de variación: la


explicada por los tratamientos y la explicada por el error. Por lo tanto, el modelo de
descomposición de la variabilidad total será el siguiente:

Variabilidad (Total) = Variabilidad (Tratamientos) + Variabilidad (Error)

      
t ni t t ni
  ni Yi  Y    Yij  Y i
2 2 2
Yij  Y 
i 1 j 1 i 1 i 1 j 1

La variabilidad total es cuantificada por la suma de cuadrado total, la cual se calcula de


la siguiente manera:

 
ni ni
t t
Y2
SC Total   SC Y    Yij  Y    Yij 
2
2

i 1 j 1 i 1 j 1 n
Y2
A la expresión se le conoce como término de corrección (TC)
n
La variabilidad explicada por los tratamientos (o suma de cuadrados de los tratamientos)
se calcula de la siguiente manera:

  Yi2
t t
SC Trat    ni Yi  Y  
2
 TC
i 1 i 1 ni

De los dos resultados anteriores se puede deducir que la variabilidad explicada por el
error puede ser calculada por:

 
ni ni
t t t
Yi2
SC  Error    Yij  Y i   Yij 
2
2

i 1 j 1 i 1 j 1 i 1 ni

SC(Error) = SC(Total) – SC(Tratamientos)

Estos elementos se resumen en el siguiente cuadro de Análisis de Varianza.

Fuente de Grados de Suma de Cuadrados Fcal


Variación Libertad Cuadrados Medios
Tratamientos t-1 SC(Trat) SC(Trat)/(t-1) CM(Trat)/CM(Error)
Error n-t SC(Error) SC(Error)/(n-t)
Total n-1 SC(Total)

donde n  n1  n2  ...  nt

Bajo el supuesto que los errores son variables aleatorias independientes distribuidas
normalmente con media cero y variancia común se puede demostrar que:

CM Trat
Fcal ~ Ft 1, n t
CM Error

59
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Formulación de Hipótesis:

Para el Modelo I (Efectos fijos) las hipótesis pueden basarse en:

a) Los efectos de los tratamientos:


H0:  i  0 i  1, , t
H1:  i  0 para al menos algún i

b) Las medias de los tratamientos


H0: i   i  1, , t
H1: i   para al menos algún i

Para el Modelo II (efectos aleatorios) las hipótesis serán planeadas en términos de la


variancia de los tratamientos.
H0:  2  0 i  1, , t
H1:  2  0 para al menos algún i

En cualquiera de los casos, la hipótesis nula significa que los tratamientos no afectan a
la variable respuesta, o que con cualquiera de los tratamientos se obtienen los mismos
resultados.

Regla de Decisión
La hipótesis nula ( H 0 ) se rechaza con un nivel de significación  si:

Fcal  F1 ,t 1,nt  , donde F1 ,t 1,nt  es el valor crítico o valor tabular

F tab  Fcrit  F1 ,t 1,nt  


6. Coeficiente de variabilidad

Es una medida usada para evaluar el grado de homogeneidad de los resultados de un


experimento. Para saber si un coeficiente de variabilidad es grande o pequeño, es
preciso tener experiencia con datos similares.

CME
CV   100
Y 

Ejemplo de aplicación 1

El gerente de personal de una compañía que fabrica computadoras quiere capacitar a


los empleados que trabajan en operaciones de ensamblado mediante uno de los 4
diferentes programas de motivación (Alfa, Beta, Gamma y Sigma) que se ofrecen en el
mercado. Como no se decide por uno de ellos, realiza un experimento que consiste en
distribuir aleatoriamente a 20 empleados en los 4 programas de motivación para
posteriormente evaluar su tiempo de ensamblado (en minutos). Los resultados luego de
la capacitación fueron los siguientes:
60
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Programa
Repetición
Alfa Beta Gamma Sigma
1 64 59 65 58
2 67 58 68 60
3 62 61 63 59
4 64 59 64 62
5 66 58 65 60
Total 323 295 325 299
Promedio 64.6 59.0 65.0 59.8

a. Realice un análisis descriptivo de los resultados.

Es conveniente realizar primero un análisis descriptivo (obtener algún gráfico y


medidas descriptivas). Así por ejemplo podemos obtener las siguientes medidas y
diagrama de cajas:

Estadísticos descriptivos: Tiempo


Variable Programa n Media Desv.Est. Mínimo Mediana Máximo IQR
Tiempo Alfa 5 64.600 1.949 62.000 64.000 67.000 3.500
Beta 5 59.000 1.225 58.000 59.000 61.000 2.000
Gamma 5 65.000 1.871 63.000 65.000 68.000 3.000
Sigma 5 59.800 1.483 58.000 60.000 62.000 2.500

Gráfica de cajas del Tiempo


68

66

64
Tiempo

62

60

58

Alfa Beta Gamma Sigma


Programa

Mediante este gráfico se puede observar que existen diferencias entre los tiempos
medianos de los cuatro métodos en estudio. Ya se puede tener una idea preliminar de
que tratamiento es el mejor.

61
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

b. Defina el modelo aditivo lineal con cada uno de sus componentes según el enunciado
del problema.

 El Modelo Aditivo Lineal es:

Yij     i   ij i  1, 2,3, 4 j  1, 2, ,5
Donde:
Yij : Tiempo de ensamblaje obtenido con el i-ésimo programa de motivación en el j-ésimo
empleado.
 : Efecto de la media general del tiempo de ensamblaje.
 i : Efecto del i-ésimo programa de motivación
 ij : Efecto del error experimental en el i-ésimo programa de motivación y el j-ésimo
empleado.

c. Verifique el supuesto que los errores se distribuyen normalmente y que existe


homogeneidad de varianzas.

 Normalidad de errores
H0: Los errores se distribuyen normalmente
H1: Los errores no se distribuyen normalmente

  0.05

p-valor = 0.155

Conclusión
A un nivel de significación de 0.05, no existe evidencia estadística para rechazar H 0.
Por lo tanto no se puede afirmar que los errores no se distribuyan normalmente.
Se cumple el supuesto de normalidad de errores.

62
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

 Homogeneidad de varianzas

H0: 12   22   32   42   2
H1: Al menos un  i2 es diferente i  1, 2, ,4

  0.05

p-valor = 0.811

Conclusión
A un nivel de significación de 0.05, no existe evidencia estadística para rechazar H0.
Por lo tanto no se puede afirmar que las variancias de los tratamientos sean
heterogéneas. Se cumple el supuesto de homogeneidad de varianzas.

Prueba de igualdad de varianzas: Tiempo vs. Programa


Prueba de Bartlett

Alfa Valor p 0.811

Beta
Programa

Gamma

Sigma

0 1 2 3 4 5 6 7 8 9
Intervalos de confianza de Bonferroni de 95% para Desv.Est.

Dado que se cumplen los supuestos de normalidad de errores y homogeneidad de


varianzas se puede proceder a realizar el Análisis de Varianza.

Si uno de estos supuestos no se cumple y se quiere comparar los tratamientos se puede


optar por pruebas alternativas (Pruebas No Paramétricas, que se discutirá en un capítulo
posterior) o transformar los datos.

d. ¿Se puede afirmar que al menos uno de los programas de motivación difiere del resto al
analizar el tiempo medio de ensamblaje? De sus conclusiones a un nivel de significación
de 0.05.

 Análisis de Varianza
El análisis de varianza nos permitirá probar si existen diferencias en los tiempos
promedios de los métodos de ensamblado.

63
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Reporte del MINITAB

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Programa 3 147.80 49.267 17.92 0.000
Error 16 44.00 2.750
Total 19 191.80

Resumen del modelo

R-cuad. R-cuad.
Hipótesis S R-cuad. (ajustado) (pred)
i  1,77.06%
H0: i  1.65831 ,4 72.76% 0:   0
64.16%
H i i  1, ,4
H1: i   para al menos algún i ó H1:  i  0 para al menos algún i
  0.05

Usando el Valor-p

Valor – p = 0.000 ≤ 0.05, entonces RHo y se acepta la H1

Conclusión
A un nivel de significación de 0.05, se puede afirmar que al menos uno de los programas
de motivación difiere del resto al analizar el tiempo medio de ensamblaje.

Usando el Estadístico de Prueba F

Cálculos previos:
12422
TC   77128.2
20
ni
Y2
  642   602   TC = 191.8
t
SC Total    Y  2
ij
i 1 j 1 n
t
Yi 2  3232 2992 
SC Trat     TC       TC  77276  77128.2  147.8
i 1 ni  5 5 
SC( Error )  191.8  147.8  44

Fuente de Grados de Suma de Cuadrados Fcal Fcrit Sig.


Variación Libertad Cuadrados Medios
Programa 3 147.8 49.27 17.92 3.24 *
Error 16 44.0 2.75
Total 19 191.8

Nota:

 Cuando en la última columna del cuadro anterior aparece (n.s.), significa que la prueba
resultó no significativa, es decir, que no existe evidencia suficiente para rechazar H0.
 Es usual utilizar un asterisco “*” para denotar diferencias o efectos significativos a un
  0.05 y dos asteriscos “**” para denotar diferencias o efectos significativos con
  0.01 . En el primer caso se dice que la diferencia o efecto es “significativo” y en el
segundo que es “altamente significativo”.

64
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Hipótesis
H0: i   i  1, ,4 H0:  i  0 i  1, ,4
H1: i   para al menos algún i ó H1:  i  0 para al menos algún i

  0.05

CM Trat 
Estadística de Prueba: Fcal  ~ Ft 1,nt 
CM Error 

Desarrollo de la Prueba. Fcal  17.92

Criterio de Decisión

0.8

0.7
Como
0.6
Fcal  17.92  F 0.95,3,16  3.2388
0.5 se rechaza H0 y se acepta H1
0.4

0.3

0.2

0.1
0.05
0.0
0 3.24
X

Conclusión
A un nivel de significación de 0.05, se puede afirmar que al menos uno de los programas
de motivación difiere del resto al analizar el tiempo medio de ensamblaje.

e. Calcule el coeficiente de variabilidad.


2.75
cv  100%  2.67%
62.1

65
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

7. Pruebas de Comparación

Existen muchas pruebas para la comparación de tratamientos, cada una de las pruebas
tiene un uso y exigencia específica. Por ejemplo existen pruebas para un par de
tratamientos, para todos los pares de tratamientos, para todos los tratamientos versus
un control, para comparar un grupo de tratamientos.

En un experimento no es necesario aplicar diferentes pruebas de comparación.


Algunas de las pruebas de comparación son:

 Prueba de Tukey (para todas las comparaciones que no necesariamente son


planeadas)
 Prueba T (para comparaciones planeadas de un par de tratamientos)
 Prueba DLS (para comparaciones planeadas de un par de tratamientos)
 Prueba de Dunnett (para comparar un tratamiento considerado como testigo versus
los demás tratamientos)
 Prueba de Contrastes Ortogonales (para funciones lineales de la media y
comparaciones planeadas)

Para todas las pruebas se requiere que la prueba de igualdad de medias de tratamientos
que utiliza el ANVA sea significativa a excepción de la prueba de Tukey.

Prueba de Tukey

Esta prueba es útil para realizar todas las comparaciones de medias por pares de
tratamientos. Si se cuenta en un experimento con t tratamientos el número total de
hipótesis a analizar es obtenido mediante C2t

Para aplicar esta prueba es necesario que los  ij sean variables aleatorias
independientes y  ij ~ N  0,  2  . En esta prueba no se necesita que las comparaciones
sean previamente planeadas y que la prueba F del ANVA resulte significativa. Lo que se
considera en esta prueba es un “error por familia”.

Hipótesis
H 0 : i   j i  j i, j  1, 2, ,t
H1 : i   j

Nivel de significación α

Amplitud Límite Significativa de Tukey


CME  1 1 
ALS (T )  AES (T )   
2  ni n j 
Donde:
AES(T): Es la amplitud estudentizada significativa de Tukey, obtenida de la tabla de
Tukey con nivel de significación  , el número de tratamientos en el experimento (t) y los
grados de libertad del error experimental.
66
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Si se tiene un experimento balanceado la desviación estándar de la diferencia de medias


de la expresión anterior se reduce a:

CME
r

Regla de Decisión
La hipótesis nula se rechaza con un nivel de significación  si Y i  Y j  ALS (T )

Ejemplo de aplicación 2.
Realice la prueba de Tukey para el caso del ejemplo de aplicación 1

Hipótesis
H 0 : 1  2 H 0 : 1  3 H 0 : 1  4
H1 : 1  2 H1 : 1  3 H1 : 1  4

H 0 :  2  3 H 0 : 2  4 H 0 : 3   4
H1 :  2   3 H1 :  2   4 H1 :  3   4

El valor de la tabla con   5% , p= t  4 y 16 grados de libertad para el error experimental


es AES(T)=4.05 . En el siguiente cuadro se resumen los cálculos necesarios para
efectuar las 6 comparaciones:

2.75
ALS (T )  4.05  3.004
5

Comparación ALS (T ) Yi Y j Significancia

Alfa – Beta 3.004 5.6 *


Alfa - Gamma 3.004 0.4 n.s.
Alfa – Sigma 3.004 4.8 *
Beta - Gamma 3.004 6.0 *
Beta – Sigma 3.004 0.8 n.s.
Gamma - Sigma 3.004 5.2 *

Resumen

Beta Sigma Alfa Gamma

Esta simbología es muy útil para presentar los resultados de pruebas múltiples en las
que se evalúan un gran número de hipótesis. Otra representación muy útil es mediante
líneas. El método consiste en ordenar las medias de los tratamientos en forma
ascendente o descendente y unir con líneas todos los tratamientos que no presentan
diferencias significativas.

67
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Reporte de MINITAB:

Comparaciones por parejas de Tukey: Respuesta = Tiempo, Término = Programa

Agrupar información utilizando el método de Tukey y una confianza de 95%

Programa N Media Agrupación


Gamma 5 65.0 A
Alfa 5 64.6 A
Sigma 5 59.8 B
Beta 5 59.0 B

Las medias que no comparten una letra son significativamente diferentes.

Pruebas simultáneas de Tukey para diferencias de las medias

IC
Diferencia de Diferencia EE de simultáneo Valor p
Programa niveles de medias diferencia de 95% Valor T ajustado
Beta - Alfa -5.60 1.05 (-8.60, -2.60) -5.34 0.000
Gamma - Alfa 0.40 1.05 (-2.60, 3.40) 0.38 0.980
Sigma - Alfa -4.80 1.05 (-7.80, -1.80) -4.58 0.002
Gamma - Beta 6.00 1.05 ( 3.00, 9.00) 5.72 0.000
Sigma - Beta 0.80 1.05 (-2.20, 3.80) 0.76 0.870
Sigma - Gamma -5.20 1.05 (-8.20, -2.20) -4.96 0.001

Nivel de confianza individual = 98.87%

El programa Minitab presenta los intervalos de confianza de Tukey para todas las
comparaciones, las cuales se obtienen mediante la siguiente expresión:

CME  1 1  CME  1 1 
Y i 
 Y j   AES (T )
2  ni n j 
 
    i   j  Y i  Y j   AES (T )   
2  ni n j 

Si se usan los p valores (Valor p ajustado) se obtienen las mismas conclusiones que
usando la regla de decisión de la prueba.
Finalmente, el programa usa letras para representar las diferencias significativas de los
tratamientos. Las medias de los tratamientos se encuentran ordenadas en forma
descendente. Si dos tratamientos comparten una letra entonces no presentan diferencia
significativa, caso contrario sí presentan diferencia significativa.

Conclusión
A un nivel de significación de 0.05, se puede afirmar que:

Existen diferencias significativas entre el programa de motivación Beta con los


programas de motivación Alfa y Gamma al analizar el tiempo medio de ensamblaje.
Existen diferencias significativas entre el programa de motivación Sigma con los
programas de motivación Alfa y Gamma al analizar el tiempo medio de ensamblaje.
Los programas de motivación Beta y Sigma brindan los menores tiempos promedio de
ensamblaje.

68
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Prueba t

Es una prueba para comparaciones planeadas con anterioridad. El nivel de significación


se toma como un error individual. Los supuestos para la realización de esta prueba son:

 La prueba F del análisis de variancia debe ser significativa.


 Los  ij son variables aleatorias independientes y  ij ~ N  0,  2  .

El procedimiento para la realización de la prueba es el siguiente:

Hipótesis

Bilateral Unilateral
Caso A Caso B Caso C
H 0 : i   j   0 H 0 : i   j   0 H 0 : i   j   0
H1 : i   j  0 H1 : i   j  0 H1 : i   j  0

Donde: i  j i, j  1, 2, ,t

Estadística de Prueba. tc 
Y i 
 Y j   0
~ tGLE 
1 1
CME   
n n 
 i j 

Si el par de tratamientos en comparación tiene la misma cantidad de repeticiones r el


denominador (desviación estándar de la diferencia de medias o error estándar) de la
expresión anterior se reduce a:

2CME
r

Regla de Decisión

Decisión Bilateral Unilateral


Caso A Caso B Caso C
Se rechaza tc  t  
ó tc  t  
tc  t ,GLE  tc  t1 ,GLE 
H0 si  ,GLE  1 ,GLE 
2   2 

Ejemplo de aplicación 3
Suponga que un objetivo del ejemplo de aplicación 1 es comparar los programas de
motivación Alfa y Beta. Pruebe si el tiempo medio de ensamblaje del método Alfa es
superior al método Beta en más de 3 minutos. De sus conclusiones a un  =0.05.

H 0 : 1  2  3
H1 : 1  2  3

69
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

  0.05

Estadística de Prueba. tc 
Y i 
 Y j   0
~ tGLE 
1 1
CME   
n n 
 i j 

Criterio de Decisión

0.4

Si tc  ttab  t 0.95,16  1.746 se


0.3
rechaza H 0 y se acepta H1
0.2

0.1

0.05
0.0
0 1.75
X

Desarrollo de la Prueba

tc 
 64.6  59.0   3  2.479
2  2.75
5

Conclusión
A un nivel de significación de 0.05 existe suficiente evidencia estadística para rechazar
H 0 por lo que se acepta H1 . Por lo tanto, se puede afirmar que el tiempo medio de
ensamblaje al aplicar el programa de motivación Alfa es mayor al de Beta en más de 3
minutos.

Prueba DLS

La prueba DLS de Fisher es una forma abreviada de la prueba t para el caso bilateral
cuando la diferencia hipotética es cero (Caso A). La prueba consiste en calcular una
diferencia límite significativa (DLS) de modo que cualquier diferencia entre las medias de
dos tratamientos mayor a dicho límite sea significativa. Los supuestos para la realización
de esta prueba son los mismos que para la prueba t . Esta prueba también debe ser
planeada con anterioridad.

Hipótesis
H 0 : i   j
H1 :  i   j

70
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

1 1
Diferencia Límite Significativa. DLS  t CME   
 
1 ,GLE  n n 
 2   i j 

Regla de Decisión
La hipótesis nula se rechaza con un nivel de significación  si Y i  Y j  DLS

Ejemplo de aplicación 4

Suponga que un objetivo del ejemplo de aplicación 1 es comparar los programas de


motivación Gamma y Sigma. Pruebe si existen diferencias en el tiempo medio de
ensamblaje de ambos métodos. De sus conclusiones a un  =0.05.

H 0 : 3   4
H1 :  3   4

  0.05
2  2.75
DLS  t 0.975,16  2.119 1.04   2.222
5
Como 65.0  59.8  5.2  DLS se rechaza H 0 y se acepta H1 .

Conclusión
A un nivel de significación de 0.05 existe suficiente evidencia estadística para rechazar
H 0 y aceptar H1 . Por lo tanto, se puede afirmar que existen diferencias en el tiempo
medio de ensamblaje al aplicar los programas de motivación Gamma y Sigma.

En Minitab se puede obtener intervalos de confianza para cada comparación, los cuales
pueden ser obtenidos mediante la siguiente expresión:

1 1 1 1
Y i 
 Y j   t  
1 , GLE  n n   
CME     i   j  Y i  Y j   t   CME   
1 , GLE  n n 
 2   i j   2   i j 

Pruebas individuales de Fisher para diferencias de las medias

IC
Diferencia de Diferencia EE de individual
Programa niveles de medias diferencia de 95% Valor T Valor p
Sigma - Gamma -5.20 1.05 (-7.42, -2.98) -4.96 0.000

Prueba de Dunnett

Es utilizada cuando se quiere comparar a cada uno de los tratamientos contra un


tratamiento considerado como testigo o control.

71
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Un tratamiento es considerado como control, cuando su efectividad es conocida. Para


aplicar esta prueba es necesario que los  ij sean variables aleatorias independientes y
 ij ~ N  0,  2  y que las comparaciones sean previamente planeadas.

Hipótesis
H 0 : i  T i  T (Tratamiento Testigo)
H1 : i  T

Amplitud Límite Significativa de Dunnett


1 1
ALS ( Dn)  t ( Dn) CME   
n n 
 i j 

Donde:
t(Dn): Es el valor obtenido de la tabla de Dunnett con nivel de significación  y el número
de tratamientos en el experimento sin incluir el control (t-1) y los grados de libertad del
error experimental.

Regla de Decisión
La hipótesis nula se rechaza con un nivel de significación  si Y i  Y j  ALS ( Dn)

Ejemplo de aplicación 5
Suponga que para el ejemplo de aplicación 1 el programa de motivación Alfa es
considerado como tratamiento testigo y que las comparaciones con dicho tratamiento
fueron planeadas. Realice la prueba de Dunnett a un nivel de significación de 0.05

Hipótesis
H 0 : 1  2 H 0 : 1  3 H 0 : 1  4
H1 : 1  2 H1 : 1  3 H1 : 1  4

El valor de la tabla con   5% , p= t  1  3 y 16 grados de libertad para el error


experimental es t(Dn) =2.59 . En el siguiente cuadro se resumen los cálculos necesarios
para efectuar las 3 comparaciones:
2  2.75
ALS ( Dn)  2.59  2.716
5

Comparación ALS ( Dn) Yi Y j Significancia

Alfa – Beta 2.716 5.6 *


Alfa - Gamma 2.716 0.4 n.s.
Alfa – Sigma 2.716 4.8 *

Resumen
Beta Sigma Alfa Gamma

72
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Reporte del Minitab:

Comparaciones para Tiempo


Comparaciones múltiples de Dunnet con un control: Respuesta = Tiempo, Término =
Programa

Agrupar información utilizando el método de Dunnett y una confianza de 95%

Programa N Media Agrupación


Alfa (Control) 5 64.6 A
Gamma 5 65.0 A
Sigma 5 59.8
Beta 5 59.0

Las medias no etiquetadas con la letra A son significativamente diferentes de la media


del nivel de control.

Pruebas simultáneas de Dunnett para la media de nivel – Media de control

El programa Minitab presenta los intervalos deIC confianza de Dunnet para todas las
Diferencia de Diferencia EE de simultáneo Valor p
comparaciones, las cuales
Programa niveles se obtienen
de medias mediante
diferencia la siguiente
de 95% Valorexpresión:
T ajustado
Beta - Alfa -5.60 1.05 (-8.32, -2.88) -5.34 0.000
Gamma - Alfa 0.40 1.05 (-2.32, 3.12) 0.38 0.963
-4.80  0.001
Sigma - Alfa 1.05 (-7.52, -2.08) -4.58
1 1
Y i 
 Y j   t ( Dn) CME 
 n= 98.04%
Nivel de confianza individual n 
1

1
 
  i   j  Y i  Y j   t ( Dn) CME   
 i j   ni n j 

Si se usan los p valores (Valor p ajustado) se obtienen las mismas conclusiones que
usando la regla de decisión de la prueba.

A diferencia del reporte de Tukey, se usará una sola letra para representar las diferencias
significativas entre el tratamiento control y el resto de tratamientos. Si un tratamiento no
presenta letra entonces tiene diferencia significativa con el tratamiento control, caso
contrario no tiene diferencia significativa.

Conclusión
A un nivel de significación de 0.05, se puede afirmar que existen diferencias significativas
entre el programa de motivación Alfa (testigo) con los programas de motivación Beta y
Sigma al analizar el tiempo medio de ensamblaje.

Prueba de Contrastes Ortogonales

En muchas situaciones el investigador puede estar interesado en comparar grupos de


tratamientos, los cuales pueden ser expresados mediante combinaciones lineales de las
medias de los tratamientos; en esta situación se puede hacer uso de Contrastes
Ortogonales.

73
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

La prueba de contrastes es una generalización de la prueba de comparación t, ya que


permite comparar más de dos tratamientos a la vez. Los supuestos que exige esta
prueba son los mismos que los de la prueba t.
Un contraste, denotado por L , es una combinación lineal de la forma:

t t
L   CiYi   rC
i i i
i 1 i 1

En donde
t

 rC
i 1
i i 0

Si todos los tratamientos tienen el mismo número de repeticiones, entonces la condición


anterior se reduce a:
t

C
i 1
i 0

y el contraste puede plantearse como:


t
L   Ci i
i 1

Para un experimento con t tratamientos se pueden plantear t-1 contrastes ortogonales


diferentes (en el curso se discutirá solo el uso de un contraste)

Bilateral Unilateral
Caso A Caso B Caso C
H 0 : L  L0 H 0 : L  L0 H 0 : L  L0
H1 : L  L0 H1 : L  L0 H1 : L  L0

Estadístico de Prueba
L  L0
tc  ~ tGLE 
SL
Donde
t t 2
C
Lˆ   Ci Y i es el contraste estimado y S L  CME  i es la desviación estándar del
i 1 i 1 r

contraste estimado.
Criterio de Decisión

Decisión Bilateral Unilateral


Caso A Caso B Caso C
Se rechaza tc  t  
ó tc  t  
tc  t ,GLE  tc  t1 ,GLE 
H0 si  ,GLE  1 ,GLE 
2   2 

Ejemplo de Aplicación 6

Suponga que para el ejemplo de aplicación 1 los programas de motivación Alfa y Beta
fueron desarrollados por psicólogos egresados de la universidad A y los programas de

74
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

motivación Gamma y Sigma fueron desarrollados por psicólogos egresados de la


universidad B. Si se planeó comparar si el tiempo medio de ensamblaje del primer grupo
es inferior al del segundo grupo, realice la prueba de contrastes ortogonales a un nivel
de significación de 0.05.

Prácticamente lo que se desea comparar es:

1  2 3  4
  1  2  3  4  0
2 2

Hipótesis
H 0 : 1  2  3  4  0
H1 : 1  2  3  4  0

L  L0
Estadístico de Prueba. tc  ~ tGLE 
SL
Desarrollo de la Prueba
L  64.6+59.0-65.0-59.8=  1.2

 12 12  12  12 
S L  2.75       1.483
5 5 5 5 
 
1.2  0
tc   0.809
1.483

Criterio de Decisión
0.4
Como tc  t 0.05,16  -1.746 no
se rechaza H 0
0.3

0.2

0.1

0.05
0.0
-1.75 0
X

Conclusión
A un nivel de significación del 0.05 no podemos afirmar que el tiempo medio de
ensamblaje de los programas de motivación desarrollados por psicólogos egresados de
la universidad A sea inferior al tiempo medio de ensamblaje de los programas de
motivación desarrollados por psicólogos egresados de la universidad B.

75
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Prueba de Contrastes Ortogonales en un DCA con desigual número de


repeticiones.

Cuando el diseño Completamente al Azar (DCA) tiene un desigual número de


repeticiones por tratamiento, el procedimiento toma en cuenta el número de repeticiones
para las sumas de cuadrados. En la prueba de contrastes ortogonales también cambia
los cálculos respecto a la prueba de contrastes con igual número de repeticiones por
tratamiento. En el siguiente ejemplo, se presenta un caso con desigual número de
repeticiones, obsérvese el procedimiento para cuadro del ANVA y el procedimiento de la
prueba de contrastes.

Ejemplo de aplicación 7

Se realizó un experimento para evaluar el efecto de la adición de compuestos vitamínicos


al alimento balanceado en la ganancia de peso en cerdos. Tres diferentes compuestos
fueron evaluados (A, B y C) y un control (D – sin la adición de compuesto vitamínico). El
aumento de peso tras una semana de aplicación de estos compuestos a una muestra
aleatoria de 22 cerdos de la misma edad, sexo y raza, se da a continuación:

Compuesto Aumento de peso tras una semana en lb


Vitamínico
A 11.1 10.9 10.8 10.2 11.4 10.7
B 11.5 11 10.8 10.6 11.2 10.9
C 10.1 10.6 11.2 10.2 10.4
D 9.2 9.8 10.1 9.7 10.4

Este experimento fue conducido bajo los lineamientos de un DCA, por lo que el modelo
aditivo lineal es el siguiente:

Yij     i  eij i  1,..., t j  1,...ri

Se comprueba los supuestos de normalidad y homogeneidad de varianzas y se procede


a obtener la suma de cuadrados y el cuadro ANVA

t ri
Y2
SC(Total)   Yij2 
i 1 j 1 r
232.8 2
SC(Total)  (11.12  10.9 2  ...  10.4 2 )   2470.6  2463.45  7.1527
22
t
Y2
SC(Tratamientos)   i  TC
i 1 ri

65.12 66 2 52.5 2 49.2 2


SC(Tratamientos)      2463.45  4.2657
6 6 5 5

SC(Error) = SC(Total) - SC(Tratamientos)

SC(Error) = 7.1527 – 4.2657 = 2.8870

76
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Cuadro ANVA

Fuentes de Variación GL SC CM Fc
Tratamientos 3 4.2657 1.4219 8.87
Error Experimental 18 2.8870 0.1604
Total 21 7.1527

El estadístico de prueba es Fc = 8.87. El valor tabular un nivel de significación del 5% es


F0.95, 3,18  3.16. Dado que en la prueba estadística Fc resulta mayor que el valor de tabla
se rechaza H0, se concluye que existen diferencias en al menos uno de los promedio de
incremento de peso de las dietas.

Prueba de contrastes ortogonales.

Para cumplir con las prueba con contrastes ortogonales con desigual número de
t
repeticiones se tiene que cumplir con  rC
i 1
i i  0 , donde Ci y ri es el coeficiente de

contraste y el número de repeticiones del tratamiento i respectivamente.

a) Evalúe si la ganancia de peso medio obtenida con los compuestos vitamínicos A, B


y C es distinto con el compuesto D. Utilice un nivel de significación del 5%

Se determinan los promedios y repeticiones:

A B C D
Yi 65.10 66.00 52.50 49.20
Yi 10.85 11.00 10.50 9.84
ri 6 6 5 5

t t
Sea L   rC
i i i donde el valor estimado es L   rC
ˆ
i iYi
i 1 i 1

Para hacer la comparación es necesario determinar el valor de Ci para que cumpla


t
la condición  rC
i 1
i i  0 Entonces:

A B C D
Yi 10.85 11.00 10.50 9.84
ri 6 6 5 5
Ci 5 5 5 -17
t
Luego, las hipótesis son en función L   rC
i i i :
i 1

H 0 : 301  302  253  854  0


H1 : 301  302  253  854  0

77
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Nivel de significación:   0.05

Estadístico de Prueba:
L  L0
tc  ~ tGLE 
SL
t
 t 2
Donde Lˆ   rC Y
i i i y S Lˆ
 CME   rC i i 
i 1  i 1 
4

 rC
i 1
i i  (6)(5)  (6)(5)  (5)(5)  (5)(17)  0 se cumple el contraste
4
Luego Lˆ   rC
i iYi  (6)(5)(10.85)  (6)(5)(11.0)  (5)(5)(10.5)  (5)( 17)(9.84)  81.6
i 1

y L0  0

 t 2
S Lˆ  CME   rC i i   0.1604  (6)(5)2  (6)(5)2  (5)(5)2  (5)(17)2   17.3190
 i 1 
81.6  0
tc   4.7116 ~ t18
17.3190

Criterio de decisión:
ttab1  t 0.025,18  2.101 ttab 2  t0.975,18  2.101

Si 2.101  tc  2.101 no se rechaza H 0


Si tc  2.101 ó tc  2.101 se rechaza H 0

Conclusión:
Con un nivel de significación del 5% se rechaza H 0 . Por lo tanto se puede afirmar las
dietas A, B y C, en forma conjunta ocasionan un peso promedio distinto al de la dieta
D (tratamiento control).

b) Pruebe si las dietas A y B, en forma conjunta, ocasionan una diferencia de en el


incremento de peso promedio distinto a la dieta C. Utilice un nivel de significación del
5%

Se determinan los promedios y repeticiones:


A B C D
Yi 65.10 66.00 52.50 49.20
Yi 10.85 11.00 10.50 9.84
ri 6 6 5 5

t t
L   rC
i i i donde el valor estimado es L   rC
ˆ
i iYi 
i 1 i 1

78
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Para hacer la comparación es necesario determinar el valor de Ci para que cumpla


t
la condición  rC
i 1
i i  0 Entonces:

A B C D
Yi 10.85 11.00 10.50 9.84
ri 6 6 5 5
Ci 5 5 -12 0

t
Luego, las hipótesis son en función L   rC
i i i :
i 1

H 0 : 301  302  603  0


H1 : 301  302  603  0

Nivel de significación:   0.05

Estadístico de Prueba:
L  L0
tc  ~ tGLE 
SL

t
 t 2
Donde L   rC i iYi  y S Lˆ  CME   rC
ˆ i i 
i 1  i 1 

 rC
i 1
i i  (6)(5)  (6)(5)  (5)(12)  (5)(0)  0 se cumple el contraste

4
Luego Lˆ   rC
i iYi  (6)(5)(10.85)  (6)(5)(11.0)  (5)( 12)(10.5)  (5)(0)(9.84)  25.5
i 1

y L0  0

 t 2
S Lˆ  CME   rC i i   0.1604  (6)(5)2  (6)(5)2  (5)(12)2  (5)(0)2   12.7909
 i 1 
25.5  0
tc   1.9936 ~ t18
12.7909
Criterio de decisión:
ttab1  t0.025,18  2.101 ttab 2  t0.975,18  2.101

Si 2.101  tc  2.101 no se rechaza H 0


Si tc  2.101 ó tc  2.101 se rechaza H 0

79
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Conclusión:
Con un nivel de significación del 5% no se rechaza H 0 . Por lo tanto no se puede
afirmar las dietas A y B, en forma conjunta, ocasionan un incremento de peso
promedio distinto al de la dieta C.

c) Pruebe si las dietas A y B son distintas en el incremento de peso. Utilice un nivel de


significación del 5%

Se determinan los promedios y repeticiones:


A B C D
Yi 65.10 66.00 52.50 49.20
Yi 10.85 11.00 10.50 9.84
ri 6 6 5 5
t t
L   rC
i i i donde el valor estimado es L   rC
ˆ
i iYi 
i 1 i 1

Para hacer la comparación es necesario determinar el valor de Ci para que cumpla


t
la condición  rC
i 1
i i  0 Entonces:

A B C D
Yi 10.85 11.00 10.50 9.84
ri 6 6 5 5
Ci 6 -6 0 0

Las hipótesis serían las siguientes:

H 0 : 361  362  0 H 0 : 1  2  0
o también
H1 : 361  362  0 H1 : 1  2  0

Nivel d significación:   0.05

Estadístico de Prueba:
L  L0
tc  ~ tGLE 
SL

t
 t 2
Donde Lˆ   rC Y
i i i y S Lˆ
 CME   rC i i 
i 1  i 1 

 rC
i 1
i i  (6)(6)  (6)(6)  (5)(0)  (5)(0)  0 se cumple el contraste
4
Luego Lˆ   rC
i iYi  (6)(6)(10.85)  (6)( 6)(11.0)  (5)(0)(10.5)  (5)(0)(9.84)  5.4
i 1

80
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

y L0  0

 t 2
S Lˆ  CME   rC i i   0.1604  (6)(6)2  (6)(6)2  (5)(0)2  (5)(0)2   8.3242
 i 1 
5.4  0
tc   0.6487 ~ t18
8.3242

Criterio de decisión:
ttab1  t0.025,18  2.101 ttab 2  t0.975,18  2.101

Si 2.101  tc  2.101 no se rechaza H 0


Si tc  2.101 ó tc  2.101 se rechaza H 0

Conclusión:
Con un nivel de significación del 5% no se rechaza H 0 . Por lo tanto no se puede
afirmar las dietas A y B tengan un incremento de peso promedio distinto.

81
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Referencias de Tesis en DCA

Facultad Titulo Año Autor

Control químico de pudriciones en frutos


Agronomía cosechados de chirimoyo 1976 Vìctor Rojas Aspe
Evaluación del germinado de Cebada
(Hordeum vulgare) suplementado con mezclas
balanceadas simples en el crecimiento y
engorde de Cuyes machos y hembras (Cavia
Zootecnia porcellus) 1996 Mirka Ruiz Yaya
Digestibilidad y Consumo Voluntario en Ovinos
de Paja de Cebada y Tratado con Hidròxido de
Zootecnia Sodio y Suplementada con Urea 1987 V`ctor Orlando Casana Leòn

Efecto de un ingrediente de base láctea en


dietas de inicio sobre el comportamiento Luis Fernando Alata
Zootecnia productivo de pollos de carne 2007 Artunduaga

Evaluaciòn de sustratos sobre el crecimiento de


ciencias fresas hidropònicas. 2001 Cecilia Sysi Caso Ramìrez

Sustituciòn de maìz por Hominy Feed en dietas


Zootecnia para pollos de carne 1994 Josè Germàn Piedra Villar
Efecto de cuatro niveles de oruji seco de
cerveza en dietas peletizadas de postura sobre
el comportamiento productivo de la codorniz
Zootecnia (Coturniz coturnix japònica L.) 2005 Karina Santti Sanchez

Obtenciòn y caracterizaciòn de los


Oligofructanos a partir de la raìz del yacòn Rosana Sonia Chirinos
Industrias (smallanthus sonchifola Poepp. Y Endl) 1999 Gallardo
Efecto de un concentrado de inicio y cerca
gazapero sobre el incremento de peso y
Zootecnia consumo de alimento de cuyes al destete 2008 Carmen Rosa Soto Mateo

INVESTIGACIONES QUE UTILIZARON DCA


VILLALBA-CAMPOS, Leonardo; HERRERA-AREVALO, Aníbal O and ORDUZ-RODRIGUEZ, Javier Orlando. Parámetros de calidad
en la etapa de desarrollo y maduración en frutos de dos variedades y un cultivar de mandarina (Citrus reticulata
Blanco). Orinoquia [online]. 2014, vol.18, n.1 [cited 2016-03-08], pp. 21-34 .
Disponible en: <http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0121-37092014000100003&lng=en&nrm=iso>. ISSN
0121-3709.

ESTRADA-PRADO, Wilfredo; LESCAY-BATISTA, Elio; ALVAREZ-FONSECA, Alexander and MACEO-RAMOS, Yariuska


Caridad. Niveles de humedad en el suelo en la producción de bulbos de cebolla. Agron. Mesoam [online]. 2015, vol.26, n.1
[cited 2016-03-08], pp. 112-117 .
Disponible en: <http://www.scielo.sa.cr/scielo.php?script=sci_arttext&pid=S1659-13212015000100011&lng=en&nrm=iso>. ISSN
1021-7444.

82
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejercicios Propuestos

1) Un ingeniero agrónomo está interesado en evaluar el rendimiento (en toneladas)


obtenido al utilizar distintas variedades de mandarina sembradas en un campo
experimental. El diseño empleado fue completamente al azar y utilizó parcelas de 500
m2 con 3 surcos, de los cuáles sólo tomó el surco central para evitar efectos de
bordura.

Las variedades en estudio fueron las siguientes:

 Grupo Satsuma: Clausellina (V1), Okitsu (V2), Owari (V3)


 Grupo Tangores: Murcott (V4)

La información se presenta a continuación:

Cuadro N°1. Rendimiento (en t) según variedad


Total
V1 4.8 3.6 6 5.1 5.9 3.6 29
V2 2.8 3.9 2.7 3.6 1.2 14.2
V3 3.3 4.1 2.9 3.2 3.4 3.2 1.3 21.4
V4 4.5 6.1 5.2 4.2 5.5 3.2 28.7

t ni

Y
i 1 j 1
2
ij  402.99

Cuadro N°2. Supuestos básicos

Prueba de Bartlett AD 0.683


Estadística de Prueba 0.11 Valor P 0.127

Para las siguientes preguntas utilice un nivel de significancia del 5%:

a) Realice la verificación de supuestos para el experimento.


b) Realice el análisis de varianza y de sus conclusiones.
c) El ingeniero agrónomo afirma que el rendimiento medio obtenido al aplicar la
variedad Murcott supera al rendimiento medio obtenido al aplicar la variedad
Owari en más de 1500 kg. Realice la prueba estadística más adecuada.
d) El ingeniero desea saber cuál(es) es(son) la(s) mejor(s) variedad(es) de
mandarina. Realice la prueba estadística más adecuada.
e) Suponga que la variedad Okitsu es considerada de uso tradicional. Si el ingeniero
está interesado en comparar dicha variedad con el resto de variedades, realice la
prueba estadística más adecuada.
f) El ingeniero agrónomo afirma que el rendimiento medio obtenido al aplicar las
variedades del grupo Satsuma es inferior al rendimiento medio obtenido al aplicar
la variedad del grupo Tangores. ¿Es cierta la afirmación del ingeniero? Realice la
prueba estadística más adecuada.

83
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Salidas Minitab:

Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Variedad 3 20.50 6.8318 6.90 0.002
Error 20 19.79 0.9895
Total 23 40.29

Comparaciones en parejas de Tukey


Pruebas simultáneas de Tukey para diferencias de las medias

Diferencia
Diferencia de las EE de Valor p
de niveles medias diferencia IC de 95% Valor T ajustado
V2 - V1 -1.993 0.602 (-3.680, -0.307) -3.31 0.017
V3 - V1 -1.776 0.553 (-3.326, -0.227) -3.21 0.021
V4 - V1 -0.050 0.574 (-1.658, 1.558) -0.09 1.000
V3 - V2 0.217 0.582 (-1.414, 1.848) 0.37 0.982
V4 - V2 1.943 0.602 ( 0.257, 3.630) 3.23 0.020
V4 - V3 1.726 0.553 ( 0.177, 3.276) 3.12 0.026

Nivel de confianza individual = 98.89%

Comparaciones múltiples de Dunnet con un control

Pruebas simultáneas de Dunnett para la media de nivel – Media de control

Diferencia
Diferencia de las EE de Valor p
de niveles medias diferencia IC de 95% Valor T ajustado
V1 - V2 1.993 0.602 ( 0.472, 3.515) 3.31 0.009
V3 - V2 0.217 0.582 (-1.254, 1.688) 0.37 0.963
V4 - V2 1.943 0.602 ( 0.422, 3.465) 3.23 0.011

2) Un ingeniero zootecnista desea analizar la efectividad de cuatro raciones de dieta en


la ganancia de peso (en Kg) en cerdos de raza Yorkshire. Para lo cual asignó las
raciones de manera aleatoria a los cerdos obteniendo los siguientes resultados:

Raciones
A B C D
43 35 35 42
46 33 35 42
50 36 36 43
45 35 34 44
44 32 34 43
42 30 33 45
40 33 34 42
Suma 310 234 241 301
Promedio 44.29 33.429 34.429 43.000

84
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

t ni

 Y
i =1 j =1
2
ij =42892

a) Establezca el modelo aditivo lineal y describa sus componentes en términos del


caso.

Asumiendo que se cumplen los supuestos necesarios:

b) Pruebe si al menos una de las raciones tiene efecto sobre la ganancia de peso de
los cerdos. Use α=0.05.
c) El ingeniero zootecnista afirma que existe diferencia significativa entre la ración A
y la ración D al analizar la ganancia promedio de peso (en Kg). ¿Es cierta la
afirmación del ingeniero? Realice una prueba estadística adecuada. Use α=0.05.
d) Realice la prueba Tukey para comparar la ganancia promedio de peso. Use
α=0.05.
e) El ingeniero zootecnista afirma que la ganancia promedio obtenida de aplicar las
raciones A y B, en forma conjunta, supera a la obtenida de aplicar las raciones C
y D, también en forma conjunta. ¿Es cierta la afirmación del ingeniero? Realice la
prueba estadística más adecuada. Use α=0.05.

Salidas Minitab:

Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Ración 3 669.9 223.286 53.13 0.000
Error 24 100.9 4.202
Total 27 770.7

Comparaciones en parejas de Tukey

Agrupar información utilizando el método de Tukey y una confianza de 95%

Factor N Media Agrupación


A 7 44.29 A
D 7 43.000 A
C 7 34.429 B
B 7 33.429 B

Las medias que no comparten una letra son significativamente diferentes.

Pruebas simultáneas de Tukey para diferencias de las medias

Diferencia
Diferencia de las EE de Valor p
de niveles medias diferencia IC de 95% Valor T ajustado
B - A -10.86 1.10 (-13.88, -7.84) -9.91 0.000
C - A -9.86 1.10 (-12.88, -6.84) -9.00 0.000
D - A -1.29 1.10 ( -4.31, 1.74) -1.17 0.649
C - B 1.00 1.10 ( -2.02, 4.02) 0.91 0.798
D - B 9.57 1.10 ( 6.55, 12.59) 8.74 0.000
D - C 8.57 1.10 ( 5.55, 11.59) 7.82 0.000

Nivel de confianza individual = 98.90%

85
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

3) Un ingeniero agrónomo realizó una investigación en un grupo de parcelas, donde se


estudiaron 4 dosis de insecticida (T1: 4 litros/ha, T2: 5 litros/ha, T3: 7 litros/ha y T4: 0
litros/ha) para poder controlar el parásito Phyiophthora infestans en cultivos de papa.
Los tratamientos fueron asignados aleatoriamente a las parcelas, obteniéndose los
siguientes resultados correspondiente al rendimiento en t/ha.

T1 T2 T3 T4
29 40 50 41
32 39 45 38
36 41 46 39
34 44 52 44
35 46 49 46

t ni

 Y
i =1 j =1
2
ij =34840

Asumiendo que se cumplen los supuestos necesarios:

a) Realice el análisis de variancia. Plantee la hipótesis respectiva y concluya con un


nivel de significación de 0.05.
b) Calcule el coeficiente de variabilidad del experimento.
c) Usando la prueba estadística más adecuada, determine si el rendimiento promedio
cuando se usa la dosis de insecticida T2 es mayor que cuando se usa la dosis de
T1 en 5 t/ha. Concluya con un nivel de significación de 0.05.
d) ¿Cuál(es) dosis(s) de insecticida(s) se recomienda(n) utilizar? Realice la prueba
respectiva con un nivel de significación de 0.05
e) Realice la prueba de Dunnet. Concluya con un nivel de significación de 0.05.
f) Compare los rendimientos promedio cuando se usan las dosis T2 y T3 usando la
prueba DLS. Concluya con un nivel de significación de 0.05
g) Pruebe si el rendimiento promedio cuando se usan las dosis T2 y T3 en forma
conjunta es mayor que la que se obtiene con la dosis T1, en más de 1t/ha. Concluya
con un nivel de significación de 0.05

Salidas Minitab:

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Factor 3 583.0 194.333 21.71 0.000
Error 16 143.2 8.950
Total 19 726.2

86
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Comparaciones en parejas de Tukey

Agrupar información utilizando el método de Tukey y una confianza de 95%

Factor N Media Agrupación


C 5 48.40 A
B 5 42.00 B
D 5 41.60 B
A 5 33.20 C
Pruebas simultáneas de Tukey para diferencias de las medias

Diferencia
Diferencia de las EE de Valor p
de niveles medias diferencia IC de 95% Valor T ajustado
B - A 8.80 1.89 ( 3.38, 14.22) 4.65 0.001
C - A 15.20 1.89 ( 9.78, 20.62) 8.03 0.000
D - A 8.40 1.89 ( 2.98, 13.82) 4.44 0.002
C - B 6.40 1.89 ( 0.98, 11.82) 3.38 0.018
D - B -0.40 1.89 ( -5.82, 5.02) -0.21 0.997
D - C -6.80 1.89 (-12.22, -1.38) -3.59 0.012

Nivel de confianza individual = 98.87%

4) Con la finalidad de probar 4 raciones alimenticias (R1, R2, R3 y R4) para vacas en
lactación, se realizó un experimento conducido en un diseño completamente al azar.
Los resultados de la producción de leche (en litros/día) son los siguientes:

Repetición R1 R2 R3 R4
1 26.6 23.5 29.3 23.3
2 24.5 26.1 28.3 21.6
3 25.6 24.3 29.2 22.4
4 24.5 24.2 26.8 22.5
5 25.7 26.8 29.2 21.1
6 26.6 28.1
Promedio 25.5833 24.980 28.4833 22.180
Variancia 0.8857 1.9570 0.9417 0.727

Para las siguientes preguntas use un nivel de significación del 5%.

a) Realice la verificación de supuestos.


b) Realice el Análisis de Variancia.
c) Se planeó comparar si la producción media de leche cuando se da la ración R1 es
mayor que cuando se da la ración R3. Realice la prueba estadística más adecuada.
d) Se planeó comparar si la producción media de leche cuando se da la ración R2 es
diferente a la producción media de leche cuando se da la ración R3. Realice la
prueba DLS y dé sus conclusiones.
e) Suponga que la ración R2 es considerada la ración tradicional. Complete la
información faltante en el reporte de Minitab adecuado y luego realice la prueba
estadística más adecuada para comparar el resto de raciones con la tradicional.
f) Realice la prueba de Tukey.

87
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Salidas Minitab:

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Ración 3 109.88 36.626 33.17 0.000
Error 18 19.87 1.104
Total 21 129.75

Prueba de igualdad de varianzas: Producción vs. Ración


Prueba de Bartlett

R1 Valor p 0.760

R2
Ración

R3

R4

0 1 2 3 4 5 6
Intervalos de confianza de Bonferroni de 95% para Desv.Est.

88
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Comparaciones múltiples de Dunnet con un control:


Respuesta = Producción, Término = Ración

Agrupar información utilizando el método de Dunnett y una confianza de 95%

Ración N Media Agrupación


R2 (Control) 5 24.9800 A
R3 6 28.4833
R1 6 25.5833 A
R4 5 22.1800
Pruebas simultáneas de Dunnett para la media de nivel – Media de control

Diferencia
de Ración Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado
R1 - R2 0.603 0.636 (-1.023, 2.229) 0.95 0.661
R3 - R2 3.503 0.636 ( 1.877, 5.129) 5.51 0.000
R4 - R2 -2.800 0.665 (-4.498, -1.102) -4.21 0.001

Comparaciones en parejas de Tukey

Pruebas simultáneas de Tukey para diferencias de las medias

Diferencia
Diferencia de las EE de Valor p
de niveles medias diferencia IC de 95% Valor T ajustado
R2 - R1 -0.603 0.636 (-2.403, 1.196) -0.95 0.780
R3 - R1 2.900 0.607 ( 1.184, 4.616) 4.78 0.001
R4 - R1 -3.403 0.636 (-5.203, -1.604) -5.35 0.000
R3 - R2 3.503 0.636 ( 1.704, 5.303) 5.51 0.000
R4 - R2 -2.800 0.665 (-4.680, -0.920) -4.21 0.003
R4 - R3 -6.303 0.636 (-8.103, -4.504) -9.91 0.000

Nivel de confianza individual = 98.89%

5) Se desea evaluar la eficacia de cinco fármacos diferentes (F1, F2, F3, F4 y F5) como
anestesia. Para ello se observa el tiempo (en min.) que tarda en hacer efecto en
cachorros. Además del balanceo, se considera que los factores edad y peso pueden
influir en los resultados. Por esta razón, los cachorros que fueron parte de este
experimento balanceado tuvieron la misma edad y peso.

Los resultados parciales y del ANVA se muestran a continuación:

Tabla de promedios:

F1 F2 F3 F4 F5
9.88 9.38 10.52 7.54 7.6

Cuadro ANVA:

Fuente GL SC CM Valor F
Fármaco
Error
Total 24 49.63

89
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Asumiendo el cumplimiento de supuestos:

a) Complete el cuadro ANVA y luego evalúe si al menos un fármaco es distinto a los


demás al analizar el tiempo medio en hacer efecto. Use α=0.01.
b) Realice la prueba estadística más adecuada para evaluar si el fármaco F3 es mejor
que el F4. Use α=0.01.
c) Se tiene la hipótesis de que al aplicar los fármacos F1 y F2 (en forma conjunta) el
tiempo medio en hacer efecto la anestesia es peor que al aplicar los fármacos F3 y
F4 (en forma conjunta). Verifique esta hipótesis con la prueba estadística más
adecuada. Use α=0.01.

Referencias

R.G.D. Steel, & Torrie, J.H.(1985). Bioestadística Principios y Procedimientos. McGraw


Hill, ed Bogotá, Colombia.

Montgomery, D. C. (2005). Diseño y análisis de experimentos (2nd. Ed). México: Limusa


Wiey.

Kuehl, R. O., (2001). Diseño de experimentos: principios estadísticos para el diseño y


análisis de investigaciones. (2nd Ed). International Thomson Editores, S.A. de C.V.,
Mexico, DF.

Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of
data analysis. Australia: Duxbury/Thomson Learning.

90
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Capítulo IV
DISEÑO DE BLOQUES COMPLETOS AL AZAR (D.B.C.A)

Objetivos

• Identificar si existe una característica o factor bloque para agrupar las unidades
experimentales.
• Realizar el análisis estadístico de un diseño en bloques completamente
aleatorizado (DBCA).
• Aplicar los procedimientos de comparaciones múltiples y toma de decisiones en
la comparación de grupos de tratamientos.

Introducción

El Diseño Completamente al Azar (DCA) es aplicable en casos en los que la única fuente
de variabilidad son los tratamientos y cuando se utilizan unidades experimentales
homogéneas. Sin embargo, en algunos experimentos se puede identificar de antemano
otras fuentes de variación, que no constituyen el objetivo de la investigación, pero que si
contribuirían a la reducción del error experimental.
Estas fuentes de variación pueden ser controladas mediante la formación de grupos
denominados bloques. Es decir se agrupan las unidades experimentales en bloques, de
tal manera que las unidades experimentales dentro de cada bloque sean lo mas
homogéneas posible y las unidades experimentales entre bloques distintos sean
heterogéneas. Si bien es cierto que el bloque puede ser considerado como otro factor en
el estudio, para aplicar este diseño, se debe asumir que no existe interacción entre los
bloques y los tratamientos de interés.

Los bloques deben ser definidos por el investigador antes de llevarse a cabo el
experimento, quien debe estar completamente seguro de la existencia de este factor
externo. Una vez realizado el experimento y recolectado los datos utilizando un DBCA,
si los bloques no resultan significativos (no hay diferencia entre bloques), los datos no
deberían ser analizado como un DCA.
Se denominan bloques completos porque en los experimentos existe al menos una
unidad experimental en cada bloque para cada uno de los tratamientos en estudio. A
este diseño también se le conoce como diseño de clasificación de dos vías sin interacción
(Two Way).

Ventajas
 El agrupamiento de las unidades experimentales en bloques, debido a la existencia
real de esta fuente de variabilidad, aumenta la precisión del experimento con relación
al D.C.A.
 No existe restricción en cuanto al número de tratamientos o bloques.
 El análisis estadístico es simple.
 Si se pierde los datos de un bloque completo, estos pueden omitirse sin mayores
complicaciones para el estudio. Si faltan datos de unidades experimentales, estos
pueden estimarse (estimación de unidades perdidas).

91
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Desventajas
 Cuando la variabilidad entre las unidades experimentales dentro de los bloques es
grande, resulta un error experimental considerable. Esto ocurre usualmente cuando
el número de tratamientos es muy grande.
 Si existe interacción entre los bloques y los tratamientos, esta va incluida en el error
experimental.
 Si no existe una real diferencia entre los bloques, habrá una pérdida de precisión en
el experimento con relación al D.C.A., debido a la disminución de los grados de
libertad del error.

Croquis Experimental

Como se comentó en el capítulo anterior el croquis experimental es una forma de arreglo


que muestra la aleatorización de los tratamientos a las unidades experimentales, los
cuales son fáciles de entender cuando se trata de unidades estáticas por ejemplo,
supongamos que tenemos 4 tratamientos (variedades de un cultivo) en 3 bloques (nivel
de pendiente de inclinación del terreno), si consideramos cada celda como una unidad
experimental, se debe aleatorizar los tratamientos dentro de cada bloque.

Una posible aleatorización de los tratamientos en las unidades experimentales seria la


siguiente:
Bloque 1 T2 T4 T1 T3
Bloque 2 T1 T3 T2 T4
Bloque 3 T3 T2 T4 T1

Sin embargo no siempre las unidades experimentales son estáticas, lo que implica que
no necesariamente los bloques deben aparecer ordenados, (recuerde que el criterio de
bloqueo de las unidades experimentales lo asume inicialmente el investigador).

Por ejemplo, suponga que se desea comparar el consumo de 3 marcas de un producto


(M1, M2 y M3) y que el experimentador por experiencia sabe que el consumo también
difiere según el tipo de edad y género, por lo cual forma 4 bloques (hombres adultos,
mujeres adultas, niños y niñas); con lo cual se podrían tener las siguientes unidades
experimentales a las cuales se les asigna los tratamientos:

Unidades asignadas Unid. Exp. reordenadas para el análisis


     hombres adultos   
M2 M1 M2 M1 M2 M1 M3
     mujeres adultas   
M3 M3 M3 M1 M2 M3 M1
    niños   
M2 M2 M3 M1 M1 M2 M3
 niñas   
M3 M2 M1

92
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

1. Cuadro de Datos

Suponga que se desea comparar t tratamientos y que cada tratamiento cuenta con b
bloques y de cada unidad experimental se obtiene solo una observación.
Luego, se obtiene el siguiente cuadro de datos:

Tratamientos
Bloque Totales
1 2 t
1 Y11 Y21 Yt1 Y1
2 Y12 Y22 Yt 2 Y2

b Y1b Y1b Ytb Y b


t b

Totales Y1 Y2 Yt Y  Yij


i 1 j 1

Promedios Y 1 Y 2 Y t Y
Y  
n

La disposición de los datos donde los tratamientos son las columnas y los bloques son
las filas no debe tomarse como una regla debido a que se puede presentar los datos de
los tratamientos en filas y los bloques en columnas.

2. Modelo Aditivo Lineal

El Modelo Aditivo Lineal para un Diseño de Bloques Completos al Azar es el siguiente:

Yij     i   j   ij i  1, 2, , t j  1, 2, , b
Donde:
Yij : Es el valor observado en el i-ésimo tratamiento y el j-ésimo bloque.
 : Es el efecto de la media general.
 i : Es el efecto del i-ésimo tratamiento.
 j : Es el efecto del j-ésimo bloque.
 ij : Es el efecto del error experimental en el i-ésimo tratamiento y el j-ésimo
bloque.

3. Estimación de los Efectos

Los efectos del modelo  ,  i y  j , son estimados de modo que se minimice la siguiente

expresión. Q    ij2   Yij     i   j 


t b t b
2

i 1 j 1 i 1 j 1

Teniendo en cuenta las siguientes restricciones:

t b


i 1
i 0 
i 1
j 0

La aplicación de este método da los siguientes resultados para la estimación de


93
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

los parámetros:

̂  Y ˆi  Yi   Y ̂ j  Y j  Y ˆij  Yij  Yi   Y j  Y

El efecto de la media y de los bloques mide la diferencia entre el i-ésimo tratamiento (j-
ésimo bloque) con respecto a sula media general.

4. Análisis de Variancia

En este modelo la variabilidad total se descompone en tres fuentes de variación de la


siguiente manera:

Var (Total) = Var (Tratamientos) + Var (Bloques) + Var (Error)

La variabilidad total es cuantificada por la suma de cuadrado total:

  Y2
t b t b
SC Total   SC Y    Yij  Y    Yij2 
2

i 1 j 1 i 1 j 1 tb
2
Y 
Aquí es el término de corrección (TC).
tb

La suma de cuadrados de tratamientos es dado por:

t
Yi2
SC Tratamientos     TC
i 1 b

La suma de cuadrados de bloques es dado por:

b
Y2j
SC  Bloques     TC
j 1 t

La suma de cuadrados del error es dado por:

SC(Error) = SC(Total) – SC(Tratamientos) – SC(Bloques)

Los resultados anteriores pueden ser representados en el siguiente cuadro de Análisis


de Variancia.

Fuente de Grados de Suma de Cuadrados Medios Fcal


Variación Libertad Cuadrados
Tratamientos t-1 SC(Trat) SC(Trat)/(t-1) CM(Trat)/CM(Error)
Bloques b-1 SC(Bloq) SC(Bloq)/(b-1)
Error (t-1)(b-1) SC(Error) SC(Error)/(t-1)(b-1)
Total tb-1 SC(Total)

94
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Bajo el supuesto que los errores son variables aleatorias independientes distribuidas
normalmente con media cero y variancia común se puede demostrar que:

CM Trat
Fcal ~F t 1, t 1 b 1
CM Error

Posibles Resultados

Fuente de Sig. Sig. Sig. Sig.


Variación
Tratamientos * n.s * n.s.
Bloques * * n.s n.s.

El cuadro anterior muestra los posibles resultados que se podrían obtener en el Análisis
de Varianza de un D.B.C.A.

 Los dos primeros resultados significan que se justifica el uso del D.B.C.A , dado que
existen diferencias significativas entre los bloques.
 Los dos últimos resultados significan que no se justifica el uso del D.B.C.A, dado que no
existen diferencias significativas entre los bloques. Eso no implica que el experimento
este mal hecho sino que no se escogió el diseño adecuado (el factor de bloqueo
correcto). De acuerdo a estos resultados se debería recomendar para un próximo
experimento futuro de similares características el uso de un D.C.A. Lo que si estaría mal
es analizar el experimento como un DCA dado que la aleatorización de las unidades
experimentales fue hecha como un DBCA.

Hipótesis

Para el Modelo I (Efectos fijos) las hipótesis pueden basarse en:


a) Los efectos de los tratamientos:
H0:  i  0 i  1, , t
H1:  i  0 para al menos algún i

b) Las medias de los tratamientos


H0: i   i  1, , t
H1: i   para al menos algún i

Para el Modelo II (efectos aleatorios) las hipótesis serán planeadas en términos de la


variancia de los tratamientos.

H0:  2  0 i  1, , t
H1:    0
2
para al menos algún i

En cualquiera de los casos, la hipótesis nula significa que los tratamientos no afectan a
la variable respuesta, o que con cualquiera de los tratamientos se obtienen los mismos
resultados.

95
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Estadístico de Prueba

CMTrat
F ~ FGLTrat ,GLError 
CMError

Regla de Decisión
La hipótesis nula ( H 0 ) se rechaza con un nivel de significación  si:
Fcal  F1 ,GLtrat ,GLError  . F tab  Fcrit  F1 ,GLTrat ,GLError  
Ejemplo de Aplicación 1

Una fisioterapeuta desea comparar métodos para enseñar a los pacientes el uso de un
determinado mecanismo de prótesis. Intuía que la rapidez de aprendizaje sería distinta
en pacientes de diferentes edades y deseaba diseñar un experimento en el que la
influencia de la edad pudiera ser tomada en cuenta. Se eligieron 5 pacientes de cada
uno de los cuatro grupos de edades, y a cada paciente se le asignó aleatoriamente uno
de los métodos, evaluándose el tiempo (en días) que requirió para aprender a usar la
prótesis. Los resultados del experimento se muestran en el siguiente cuadro:

MÉTODOS DE GRUPOS DE EDADES


ENSEÑANZA Menos de 20 a 29 30 a 39 40 a más Total Promedio
20 años años años años
A 7 8 9 10 34 8.50
B 9 9 9 12 39 9.75
C 10 11 11 12 44 11.00
D 6 5 6 8 25 6.25
E 13 12 14 15 54 13.50
Total 45 45 49 57 196 9.8

a. Realice un análisis descriptivo de la información.

¿Cuál de los métodos de enseñanza escogería? Use un nivel de significación de 0.05.

 Análisis Descriptivo
Antes de realizar el Análisis de Variancia es recomendable elaborar gráficos descriptivos
y obtener algunas medidas descriptivas

Descriptive Statistics: Dias

Variable Metodos N Mean StDev


Dias A 4 8.500 1.291
B 4 9.750 1.500
C 4 11.000 0.816
D 4 6.250 1.258
E 4 13.500 1.291

96
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

 Para los métodos

Gráfica de caja de Tiempo

15.0

12.5

Tiempo

10.0

7.5

5.0

A B C D E
Metodos

 Para las edades

Gráfica de caja de Tiempo

15.0

12.5
Tiempo

10.0

7.5

5.0

E1 E2 E3 E4
Edad

b. Determine y explique según el contexto el modelo aditivo lineal

El Modelo Aditivo Lineal es:

Yij     i   j   ij i  1, 2,3, 4,5 j  1, 2,3, 4

Donde:
Yij : Tiempo que se requiere para aprender a utilizar la prótesis con el i-ésimo método de
enseñanza en el j-ésimo grupo de edad.
 : Es el efecto de la media general del tiempo de aprendizaje
 i : Es el efecto del i-ésimo método de enseñanza.
 j : Es el efecto del j-ésimo grupo de edad.
 ij : Es el efecto del error experimental en el i-ésimo método de enseñanza en el j-ésimo
grupo de edad.
97
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

c. Realice el análisis de varianza y de sus conclusiones

Paso 1: Verificación de supuestos

Prueba de Normalidad

Ho: Los errores se ajustan a una distribución normal.


Hi: Los errores no se ajustan a una distribución normal.

Dado que el p-valor=0.632 es superior a α=0.05, los errores se ajustan a una distribución
normal.

Homogeneidad de Varianzas

Se realizará mediante el análisis gráfico de residuales versus los valores ajustados:

Se verifica que los residuos están distribuidos aleatoriamente y tienen una varianza
constante. Los puntos están ubicados aleatoriamente a ambos lados del 0, con patrones
no detectables en los puntos.

98
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Para detectar el incumplimiento del supuesto de la varianza constante, se puede


presentar el siguiente patrón de los puntos:

Dispersión irregular o en abanico de los residuos en los valores ajustados.

Los gráficos anteriores muestran que la varianza de los residuos aumenta con los valores
ajustados, lo cual indica que la variabilidad de los errores aumenta al aumentar su media.

Paso 2: Desarrollo del Análisis de Varianza

El análisis de varianza nos permitirá probar si existen diferencias en los tiempos


promedios de aprendizaje del uso de la prótesis.

Cálculos previos:

1962
TC   1920.8
20
ni
Y2
  72   152   TC = 141.2
t
SC Total    Y  2
ij
i 1 j 1 tb
t
Yi 2  342 542 
SC Trat     TC       TC  2038.5  1920.8  117.7
i 1 b  4 4 
t
 452
Y 2j 572 
SC  Bloques     TC       TC  1940  1920.8  19.2
i 1 t  5 5 
SC ( Error )  141.2 117.7 19.2  4.3

Fuente de Grados de Suma de Cuadrados Fcal


Variación Libertad Cuadrados Medios
Métodos 4 117.7 29.425 82.1239
Edad 3 19.2 6.4
Error 12 4.3 0.3583
Total 19 141.2

Hipótesis

H0: i   i  1, ,5 ó H0:  i  0 i  1, ,5

99
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

H1: i   para al menos algún i H1:  i  0 para al menos algún i

  0.05
CM Trat 
Prueba Estadística Fcal  ~ FGLtrat ,GLError 
CM  Error 
Desarrollo de la Prueba. Fcal  82.1239

Criterio de Decisión
0.7 Como Fcal  82.1239  F0.95,4,12  3.259
0.6
se rechaza H0 y se acepta H1
0.5

0.4

0.3

0.2

0.1

0.05
0.0
0 3.26
X

Conclusión
A un nivel de significación del 5%, existe evidencia estadística para afirmar que al menos
uno de los métodos difiere del resto al analizar el tiempo medio que se requiere para
aprender a utilizar la prótesis.

Reporte de Minitab

Two-way ANOVA: Tiempo versus Metodos, Edad

Fuente GL SC MC Valor F Valor p


Métodos 4 117.7 29.4250 82.12 0.000
Edad 3 19.2 6.4000 17.86 0.000
Error 12 4.3 0.3583
Total 19 141.2

Nota:
Dado que existen diferencias significativas entre los bloques (pvalor=0.000), se justifica
el uso del DBCA.

0.358
El coeficiente de variabilidad es: cv  100%  6.105%
9.8

5. Pruebas de Comparación de Medias de Tratamientos

Aquí se presentarán algunas de las pruebas que también fueron desarrolladas para el
D.C.A. Los supuestos y características de cada una de las prueba son las mismas. A
continuación se presentan las desviaciones estándar a utilizar en cada una de las
pruebas (como se puede observar con las mismas expresiones de las desviaciones
estándar para cada prueba pero asumiendo un DCA balanceado debido a que el DBCA
es completo):
100
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

2CME
Prueba t y DLS: Sd 
b
CME t 2
Prueba Contrastes Ortogonales S L   Ci
b i 1
CME
Prueba de Tukey: Sd 
b
2CME
Prueba de Dunnett: S L 
b

Utilizando el Ejemplo de Aplicación 1

Si se planeó probar si el Método A es mejor que el método B. Use la prueba t y dé sus


conclusiones a un nivel de significación de 0.05.

H 0 :  A  B  0
H1 :  A   B  0
  0.05
Estadística de Prueba y Desarrollo

tc 
 
Y 1  Y 2  0 8.50  9.75  0
  2.95 ~ tGLE   t12
2CME 2  0.358
b 4

Criterio de Decisión
0.4 Si tc  t 0.05,12  1.782

0.3
Entonces se rechaza H 0 y se acepta
H1
0.2

0.1

0.05
0.0
-1.78 0
X

Conclusión
A un nivel de significación de 0.05 existe suficiente evidencia estadística para rechazar
H 0 y aceptar H1 . Por lo tanto, se puede afirmar que el tiempo promedio de aprendizaje
bajo el método A es menor al tiempo promedio de aprendizaje bajo el método B. Lo que
indica que el mejor método entre estos dos es el A.

Utilizando el Ejemplo de Aplicación 1


Si se planeó comparar el método C con el método D. Use la prueba DLS y dé sus
conclusiones a un nivel de significación de 0.05.

101
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

H 0 : C   D
H1 : C   D
  0.05
2  0.358
DLS  t 0.975,12  2.178  0.423  0.921
4
Si 11  6.25  4.75  DLS se rechaza H 0 y se acepta H1 .

Conclusión
A un nivel de significación de 0.05 existe suficiente evidencia estadística para rechazar
H 0 y aceptar H1 .
Por lo tanto, se puede afirmar que el tiempo promedio de aprendizaje bajo el método C
es diferente al tiempo promedio de aprendizaje bajo el método D.

Utilizando el Ejemplo de aplicación 1

Utilice la prueba de Tukey para comparar los tratamientos en estudio de sus conclusiones
a un nivel de significación de 0.05.

H 0 :  A  B H 0 :  A  C H 0 :  A  D H 0 :  A  E
H1 :  A   B H1 :  A   C H1 :  A   D H1 :  A   E

H 0 :  B  C H 0 : B  D H 0 : B  E H 0 : C   D
H1 :  B   C H1 :  B   D H1 :  B   E H1 : C   D

H 0 : C   E H 0 : D  E
H1 : C   E H1 :  D   E

El valor de la tabla con   5% , p= t  5 y 12 grados de libertad para el error experimental


es AES(T)=4.51 . En el siguiente cuadro se resumen los cálculos necesarios para
efectuar las 10 comparaciones:

Comparación ALS (T ) Yi Y j Significancia

A–B 1.3492 1.25 n.s.


A–C 1.3492 2.50 *
A–D 1.3492 2.25 *
A–E 1.3492 5.00 *
B–C 1.3492 1.25 n.s.
B–D 1.3492 3.50 *
B–E 1.3492 3.75 *
C–D 1.3492 4.75 *
C–E 1.3492 2.50 *
D–E 1.3492 7.25 *

Gráfico de líneas:

E = 13.5 C = 11.0 B = 9.75 A = 8.5 D = 6.25

102
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Reporte Minitab:

Comparaciones por parejas de Tukey: Respuesta = Tiempo, Término = Método


Agrupar información utilizando el método de Tukey y una confianza de 95%

Método N Media Agrupación


5 4 13.50 A
3 4 11.00 B
2 4 9.75 B C
1 4 8.50 C
4 4 6.25 D

Las medias que no comparten una letra son significativamente diferentes

Pruebas simultáneas de Tukey para diferencias de las medias


Diferencia Diferencia EE de IC simultáneo Valor p
De niveles de medias diferencia de 95% Valor T ajustado
2 - 1 1.250 0.423 (-0.100; 2.600) 2.95 0.074
3 - 1 2.500 0.423 ( 1.150; 3.850) 5.91 0.001
4 - 1 -2.250 0.423 (-3.600; -0.900) -5.32 0.001
5 - 1 5.000 0.423 ( 3.650; 6.350) 11.81 0.000
3 - 2 1.250 0.423 (-0.100; 2.600) 2.95 0.074
4 - 2 -3.500 0.423 (-4.850; -2.150) -8.27 0.000
5 - 2 3.750 0.423 ( 2.400; 5.100) 8.86 0.000
4 - 3 -4.750 0.423 (-6.100; -3.400) -11.22 0.000
5 - 3 2.500 0.423 ( 1.150; 3.850) 5.91 0.001
5 - 4 7.250 0.423 ( 5.900; 8.600) 17.13 0.000

Usando el ejemplo de Aplicación 1.


Asumiendo que el método E es considerado como tratamiento testigo. Realice la prueba
de Dunnett y dé sus conclusiones a un nivel de significación de 0.05.
Hipótesis

H 0 : E   A H 0 : E  B H 0 :  E  C H 0 : E  D
H1 :  E   A H1 :  E   B H1 :  E   C H1 :  E   D

  0.05
El valor de la tabla con   5% , p= t  1  4 y 12 grados de libertad para el error
experimental es t(Dn) =2.81 . En el siguiente cuadro se resumen los cálculos necesarios
para efectuar las 4 comparaciones:

Comparación ALS ( Dn) Yi Y j Significancia

E–A 1.189 5.00 *


E–B 1.189 3.75 *
E–C 1.189 2.50 *
E–D 1.189 7.25 *

E C B A D

A un nivel de significación de 0.05, se puede afirmar que el método de aprendizaje E


(testigo) es diferente al resto de métodos en estudio, al evaluar el tiempo medio de
aprendizaje.
103
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Reporte en Minitab

Comparaciones múltiples de Dunnet con un control: Respuesta = Tiempo, Término = Método


Agrupar información utilizando el método de Dunnett y una confianza de 95%
Método N Media Agrupación
5 (Control) 4 13.50 A
3 4 11.00
2 4 9.75
1 4 8.50
4 4 6.25

Las medias no etiquetadas con la letra A son significativamente diferentes


de la media del
nivel de control.
Pruebas simultáneas de Dunnett para la media de nivel – Media de control

Diferencia
de Método Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado
1 - 5 -5.000 0.423 (-6.188; -3.812) -11.81 0.000
2 - 5 -3.750 0.423 (-4.938; -2.562) -8.86 0.000
3 - 5 -2.500 0.423 (-3.688; -1.312) -5.91 0.000
4 - 5 -7.250 0.423 (-8.438; -6.062) -17.13 0.000

Usando el Ejemplo de Aplicación 1


Compare si el tiempo de aprendizaje de los métodos A y B son en promedio diferentes
al tiempo de aprendizaje de los métodos C, D y E. Use un nivel de significación de 0.05.

Prácticamente lo que se desea comparar es

1  2 3  4  5
  31  32  23  24  25  0
2 3

Hipótesis

H 0 : 31  32  23  24  25  0


H1 : 31  32  23  24  25  0
  0.05

L  L0
Estadístico de Prueba. tc  ~ tGLE 
SL

Desarrollo de la Prueba
L  25.5+29.25-22-12.5-27=-6.75

 32  32   2 2   2 2   2 2 
S L  0.358    1.638596
 4 
6.75  0
tc   4.11938
1.638596

104
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Criterio de Decisión
0.4

0.3 Como tc  t 0.975,12  2.18 se rechaza H 0

0.2

0.1

0.025 0.025
0.0
-2.18 0 2.18
X

Conclusión
A un nivel de significación de 0.05 podemos afirmar que el tiempo de aprendizaje de los
métodos A y B son en promedio diferentes al tiempo de aprendizaje de los métodos C,
D y E.

REFERENCIAS DE TESIS- DBCA

Facultad Titulo Año Autor


Efecto de tres niveles de nitrógeno bajo tres
Ciencias - formas de aplicación en rendimiento y calidad
Bioloìa de vida 2008 Moisès Gerardo Chàvez
Comparativo de cuatro dosis de pollinaza en
Brachiaria brizantha cv. Marandu y su efecto en
las caracterìstica agronòmicas en zungarococha-
Agronomìa Iquitos 2007 Neisser Jim Barreto Rengifo
Efecto de la densidad de siembra y dosis de
Agronomìa fertilizaciòn en el cultivo de ajo cv. "Ñaupari" 2005 Jaime Eduardo Dìas Cano
Evaluaciòn de Campo de Nematicidas
Sistèmicos contra el nematodo del nudo de la
raìz, meloidogyne incognita (Kofoid y White) Alfredo Benjamìn Angeles Santa
Agronomìa Chitwood en Camote variedad japònica 1971 Marìa
Evaluaciòn de la harina de vìsceras de pollo en
reemplazo de la harina de pescado en el
Zootecnia engorde de machos de la codorniz japonesa 2002 Robert Daffny Hereña Moali
Evaluaciòn de yuca, plàtano y kudzu en la
alimentaciòn de cerdos en crecimiento y
Zootecnia acabado en el valle del Palcazu 1988 Demetrio Orlando Romero Tello

INVESTIGACIONES QUE UTILIZARON ESTE DISEÑO

Eybis J. , Saavedra H. Ríos O. , Castillo T. , Barrera (2015) Efecto de cinco dosis de humus de lombriz en el
cultivo de tomate (Lycopersicon esculentum Mill), en suelos ácidos, sector Aucaloma-San Martín – Perú.
Descargado de: http://blog.jooble.org/latam/wp-content/uploads/2015/02/Efecto-de-cinco-dosis-de-
humus-de-lombriz-en-el-cultivo-de-tomate.pdf

105
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

HERNANDEZ-LEAL, Enrique et al. Comportamiento agronómico de poblaciones F2 de híbridos de tomate


(Solanum lycopersicum L.). Rev. fitotec. mex [online]. 2013, vol.36, n.3 [citado 2016-03-08], pp. 209-215
. Disponible en: <http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S0187-
73802013000300004&lng=es&nrm=iso>. ISSN 0187-7380.

Ejercicios Propuestos

Para las siguientes preguntas, de ser necesario use un nivel de significación del 5%:

1) Un ingeniero agrónomo realizó un experimento para determinar si existe alguna


diferencia en el rendimiento de cierta variedad de maíz con 4 fórmulas diferentes de
fertilizante. Las fórmulas empleadas fueron las siguientes:

Fórmula 1 (Testigo): Sin fósforo (P) y sin nitrógeno (N).


Fórmula 2: Solo fósforo.
Fórmula 3: Solo nitrógeno.
Fórmula 4: Con fósforo y nitrógeno

Una variante en particular en la conducción del experimento fue el tipo de suelo, ya


que no fue el mismo para todas las parcelas en estudio. Los rendimientos obtenidos
en Kg. por parcela se presentan a continuación:

FÓRMULA
SUELO
1 2 3 4
Arcilloso 7 7 11 12
Arenoso 11 10 16 16
Franco Arenoso 13 12 18 19

a) Presente el modelo aditivo lineal y explique sus componentes según el enunciado


de la pregunta.

b) Asumiendo el cumplimiento de supuestos, pruebe si al menos una fórmula


presenta un rendimiento medio de maíz distinto a las demás. Complete el
siguiente cuadro ANVA y realice la prueba estadística respectiva.

Fuente GL SC CM Fcal
Fórmula 28.8889
Suelo 80.167
Error 1.833
Total 11 168.667

c) El ingeniero agrónomo planeó evaluar si con la fórmula 4 se obtienen mejores


rendimientos que con la fórmula 2, ¿Es cierta la información del ingeniero? Use
la información del siguiente reporte Minitab para realizar la prueba estadística más
adecuada

106
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

d) El ingeniero agrónomo afirma que el rendimiento medio de maíz con la fórmula 2


es diferente al obtenido con la fórmula 1 ¿Es cierta la afirmación del ingeniero?
Use el reporte prueba estadística adecuada.
e) El ingeniero agrónomo desea comparar la fórmula que no contiene fósforo ni
nitrógeno con el resto de fórmulas, realice la prueba estadística más adecuada.
f) El ingeniero agrónomo desea realizar todas las comparaciones posibles entre las
fórmulas empleadas, realice la prueba estadística más adecuada
g) El ingeniero agrónomo afirma que el rendimiento medio de maíz obtenido al aplicar
la fórmula 1 es inferior al rendimiento medio de maíz cuando se aplica
conjuntamente la fórmula 3 y 4 ¿Es cierta la afirmación del ingeniero? Realice la
prueba estadística más adecuada.

Salidas Minitab:

Estadísticos descriptivos: Rendimiento

Variable Fórmula N Media Desv.Est. Mínimo Máximo


Rendimiento 1 3 10.33 3.06 7.00 13.00
2 3 9.67 2.52 7.00 12.00
3 3 15.00 3.61 11.00 18.00
4 3 15.67 3.51 12.00 19.00

Comparaciones por parejas de Fisher: Fórmula

Pruebas individuales de Fisher para diferencias de las medias

Diferencia
de Fórmula Diferencia EE de IC individual
niveles de medias diferencia de 95% Valor T Valor p
2 - 1 -0.667 0.451 (-1.771, 0.438) -1.48 0.190
3 - 1 4.667 0.451 (3.562, 5.771) 10.34 0.000
4 - 1 5.333 0.451 (4.229, 6.438) 11.82 0.000
3 - 2 5.333 0.451 (4.229, 6.438) 11.82 0.000
4 - 2 6.000 0.451 (4.896, 7.104) 13.29 0.000
4 - 3 0.667 0.451 (-0.438, 1.771) 1.48 0.190

Comparaciones múltiples de Dunnet con un control: Fórmula

Agrupar información utilizando el método de Dunnett y una confianza de


95%

Fórmula N Media Agrupación


1 (Control) 3 10.3333 A
4 3 15.6667
3 3 15.0000
2 3 9.6667 A
Las medias no etiquetadas con la letra A son significativamente diferentes de la media del
nivel de control.

107
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Pruebas simultáneas de Dunnett para la media de nivel – Media de control

Diferencia
de Fórmula Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado
2 - 1 -0.667 0.451 (-2.066, 0.732) -1.48 0.389
3 - 1 4.667 0.451 (3.268, 6.066) 10.34 0.000
4 - 1 5.333 0.451 (3.934, 6.732) 11.82 0.000

Comparaciones por parejas de Tukey: Fórmula

Agrupar información utilizando el método de Tukey y una confianza de 95%

Fórmula N Media Agrupación


4 3 15.6667 A
3 3 15.0000 A
1 3 10.3333 B
2 3 9.6667 B
Las medias que no comparten una letra son significativamente diferentes.

Pruebas simultáneas de Tukey para diferencias de las medias

Diferencia
de Fórmula Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado
2 - 1 -0.667 0.451 (-2.230, 0.897) -1.48 0.503
3 - 1 4.667 0.451 (3.103, 6.230) 10.34 0.000
4 - 1 5.333 0.451 (3.770, 6.897) 11.82 0.000
3 - 2 5.333 0.451 (3.770, 6.897) 11.82 0.000
4 - 2 6.000 0.451 (4.436, 7.564) 13.29 0.000
4 - 3 0.667 0.451 (-0.897, 2.230) 1.48 0.503

2) Una ironía de la era espacial es que mientras los humanos envían mensajes
codificados a distintas galaxias en busca de formas de vida inteligente, la
comunicación con animales inteligentes en este planeta permanece en un
misterio. En un estudio, un investigador enseñó diez señales del lenguaje
americano (ASL) a cuatro chimpancés (Datos de R.S. Fouts, “Acquisiton and
Testing of Gestural Signs in Four Young Chimpanzees”. Science 180 (1973):978-
80).

El objetivo del estudio fue determinar si algunas señales eran adquiridas más
fácilmente que otras por los chimpancés. Los sujetos evaluados fueron cuatro
chimpancés Booee, Cindy, Bruno y Thelma, que se suponen podrían tener niveles
diferentes de comprensión. Las señales ASL enseñadas fueron: escuchar,
sombrero, zapato, fruta, beber, comer, mirar, llave, cadena y alimento, las cuales
cubrían un amplio rango de objetos, acciones y conceptos que fueron evaluados.
A los chimpancés se les enseñó individualmente usando un sistema de
recompensa hasta que respondieran correctamente en cinco ocasiones
consecutivas. La tabla dada a continuación muestra el tiempo en minutos
requerido en aprender cada señal a cada sujeto.

108
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Escuchar Beber Zapato Llave Comer Alimento Fruta Sombrero Mirar Cadena
Booee 12 15 14 10 10 80 80 78 115 129
Cindy 10 25 18 25 15 55 20 99 54 476
Bruno 2 36 60 40 225 14 177 178 345 287
Thelma 15 18 20 40 24 190 195 297 420 372

a) Presente el modelo aditivo lineal y describa cada uno de sus componentes de


acuerdo al caso.

Si se cumplieron los supuestos homogeneidad de variancias y normalidad de los


errores:

b) ¿Hay evidencia estadística para concluir que el tiempo promedio de aprendizaje


de los chimpancés es diferente en al menos una señal? Realice la prueba
estadística más adecuada.
c) ¿Es posible concluir que las señales escuchar y beber (en forma conjunta)
requieren menos tiempo de aprendizaje que las señales comer y mirar (en forma
conjunta)? Realice la prueba estadística más adecuada.
d) Pruebe si el tiempo de aprendizaje de la señal fruta es mayor que el de la señal
zapato en más de 50 minutos. Plantee y pruebe la hipótesis y de sus conclusiones
de acuerdo al caso.

Salidas de Minitab:

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Señal 9 374840 41649 5.95 0.000
Chimpancé 3 71008 23669 3.38 0.033
Error 27 189079 7003
Total 39 634927

Estadísticos descriptivos: Tiempo

Variable Señal N Media Desv.Est.


Tiempo Escuchar 4 9.75 5.56
Beber 4 23.50 9.33
Zapato 4 28.0 21.5
Llave 4 28.75 14.36
Comer 4 68.5 104.5
Alimento 4 84.8 75.3
Fruta 4 118.0 82.6
Sombrero 4 163.0 99.2
Mirar 4 233.5 176.5
Cadena 4 316.0 146.7

109
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

3) Un ingeniero zootecnista está interesado en evaluar el efecto de cinco dietas sobre


la ganancia de peso (en Kg.) de pavos. Él tiene como propósito optimizar la
producción de su granja en los próximos meses.
Para cumplir con su objetivo, el ingeniero realizó un estudio experimental, donde
seleccionó cinco pavos de cada uno de los cuatro corrales que tenía. Luego a cada
pavo le asignó una dieta distinta. Finalmente, transcurrido el tiempo del estudio
registró las ganancias de peso y obtuvo los siguientes resultados con el programa
estadístico Minitab:

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Dieta 4 13.7677 3.44192 72.11 0.000
Corral 3 0.4335 0.14449 3.03 0.071
Error 12 0.5728 0.04773
Total 19 14.7739

Estadísticas: Dieta Estadísticas: Corral

Variable Dieta Media Variable Corral Media


Peso 1 2.5600 Peso 1 4.258
2 3.965 2 4.064
3 4.268 3 4.104
4 4.527 4 3.846
5 5.0200

Comparaciones múltiples de Dunnet con un control: Dieta 1

Agrupar información utilizando el método de Dunnett y una confianza de 95%

Dieta N Media Agrupación


1 (Control) 4 2.5600 A
5 4 5.0200
4 4 4.5275
3 4 4.2675
2 4 3.9650

Las medias no etiquetadas con la letra A son significativamente diferentes de la media del
nivel de control.

Comparaciones por parejas de Tukey: Dieta

Pruebas simultáneas de Tukey para diferencias de las medias

Diferencia
de Dieta Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado
2 - 1 1.405 0.154 (0.912, 1.898) 9.09 0.000
3 - 1 1.708 0.154 (1.215, 2.200) 11.05 0.000
4 - 1 1.968 0.154 (1.475, 2.460) 12.74 0.000
5 - 1 2.460 0.154 (1.967, 2.953) 15.92 0.000

110
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

3 - 2 0.303 0.154 (-0.190, 0.795) 1.96 0.341


4 - 2 0.562 0.154 (0.070, 1.055) 3.64 0.023
5 - 2 1.055 0.154 (0.562, 1.548) 6.83 0.000
4 - 3 0.260 0.154 (-0.233, 0.753) 1.68 0.478
5 - 3 0.753 0.154 (0.260, 1.245) 4.87 0.003
5 - 4 0.493 0.154 (-0.000, 0.985) 3.19 0.050
Nivel de confianza individual = 99.22%

Asumiendo el cumplimiento de supuestos:

a) ¿Se puede afirmar que al menos una dieta produce una ganancia promedio de
peso distinta a las demás? Realice la prueba estadística más adecuada.
b) ¿Existen diferencias significativas entre las dietas 4 y 2 al analizar la ganancia
promedio de peso? Realice una prueba estadística más adecuada.
c) Realice la prueba de comparaciones de Tukey y use los resultados obtenidos para
determinar cuál es la dieta menos recomendada.
d) Si la dieta 1 es el tratamiento control, realice la prueba estadística más adecuada
para comparar todos los tratamientos versus el control.
e) El ingeniero afirma que la ganancia promedio de peso de las dietas 3 y 4, en forma
conjunta, superan a la obtenida con la dieta 5 en más de 200 gramos ¿Es cierta
la afirmación del ingeniero? Realice la prueba estadística más adecuada.

4) Un ingeniero pesquero investigó el efecto de cuatro clases de palangres (A, B, C y


D) sobre la producción de pesca (en Kg.). Para obtener una medida adecuada de la
habilidad de captura en la pesca, cuatro pescadores que trabajan en el turno mañana
fueron seleccionados para el estudio.

Los datos se procesaron mediante el software estadístico Minitab 17 y se obtuvieron


los siguientes resultados:

Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Pescador 3 0.5139 0.1713 0.82 0.514
Palangre 3 45.3802 15.1267 72.57 0.000
Error 9 1.8761 0.2085
Total 15 47.7702

Comparaciones por parejas de Tukey: Respuesta = Producción, Término = Pescador


Pruebas simultáneas de Tukey para diferencias de las medias

Diferencia
de Pescador Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 99% Valor T ajustado
2 - 1 -0.493 0.323 (-1.854, 0.867) -1.53 0.462
3 - 1 -0.225 0.323 (-1.585, 1.136) -0.70 0.896
4 - 1 -0.146 0.323 (-1.506, 1.215) -0.45 0.968
3 - 2 0.268 0.323 (-1.092, 1.629) 0.83 0.838
4 - 2 0.347 0.323 (-1.013, 1.708) 1.08 0.712
4 - 3 0.079 0.323 (-1.282, 1.440) 0.24 0.994

111
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Comparaciones por parejas de Tukey: Respuesta = Producción, Término = Palangre


Pruebas simultáneas de Tukey para diferencias de las medias

Diferencia
de Palangre Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 99% Valor T ajustado
2 - 1 1.576 0.323 ( 0.216, 2.937) 4.88 0.004
3 - 1 3.940 0.323 ( 2.579, 5.301) 12.20 0.000
4 - 1 3.993 0.323 ( 2.632, 5.353) 12.37 0.000
3 - 2 2.364 0.323 ( 1.003, 3.724) 7.32 0.000
4 - 2 2.416 0.323 ( 1.056, 3.777) 7.48 0.000
4 - 3 0.053 0.323 (-1.308, 1.413) 0.16 0.998

Comparaciones por parejas de Fisher: Respuesta = Producción, Término = Pescador


Pruebas individuales de Fisher para diferencias de las medias

Diferencia
de Pescador Diferencia EE de IC individual
niveles de medias diferencia de 99% Valor T Valor p
2 - 1 -0.493 0.323 (-1.542, 0.556) -1.53 0.161
3 - 1 -0.225 0.323 (-1.274, 0.825) -0.70 0.504
4 - 1 -0.146 0.323 (-1.195, 0.904) -0.45 0.663
3 - 2 0.268 0.323 (-0.781, 1.318) 0.83 0.427
4 - 2 0.347 0.323 (-0.702, 1.397) 1.08 0.310
4 - 3 0.079 0.323 (-0.970, 1.128) 0.24 0.812

Comparaciones por parejas de Fisher: Respuesta = Producción, Término = Palangre


Pruebas individuales de Fisher para diferencias de las medias

Diferencia
de Palangre Diferencia EE de IC individual
niveles de medias diferencia de 99% Valor T Valor p
2 - 1 1.576 0.323 ( 0.527, 2.626) 4.88 0.001
3 - 1 3.940 0.323 ( 2.891, 4.989) 12.20 0.000
4 - 1 3.993 0.323 ( 2.944, 5.042) 12.37 0.000
3 - 2 2.364 0.323 ( 1.315, 3.413) 7.32 0.000
4 - 2 2.416 0.323 ( 1.367, 3.466) 7.48 0.000
4 - 3 0.053 0.323 (-0.996, 1.102) 0.16 0.874

Utilice solo la información de mayor interés en los resultados para realizar todas las
comparaciones posibles mediante la prueba estadística más adecuada y concluya de
acuerdo al caso anterior

Referencias
R.G.D. Steel, & Torrie, J.H.(1985). Bioestadística Principios y Procedimientos. McGraw
Hill, ed Bogotá, Colombia.
Montgomery, D. C. (2005). Diseño y análisis de experimentos (2nd. Ed). México: Limusa
Wiey.
Kuehl, R. O., (2001). Diseño de experimentos: principios estadísticos para el diseño y
análisis de investigaciones. (2nd Ed). International Thomson Editores, S.A. de C.V.,
Mexico, DF.
Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of
data analysis. Australia: Duxbury/Thomson Learning

112
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Capítulo V

DISEÑO CUADRADO LATINO (D.C.L)

OBJETIVOS

• Identificar si existe dos características o factores bloque para agrupar las


unidades experimentales.
• Realizar el análisis estadístico de un diseño cuadrado latino (DCL).
• Aplicar los procedimientos de comparaciones múltiples y toma de decisiones en
la comparación de grupos de tratamientos.

Introducción

En el capítulo anterior se estudió el Diseño Bloque Completo al Azar (D.B.C.A) que utiliza
un solo criterio de aleatorización de los tratamientos a las unidades experimentales
(bloques), sin embargo, en algunas situaciones puede suceder que el problema
experimental obligue al investigador considerar un doble criterio de aleatorización (filas
y columnas). En este caso el diseño más adecuado a utilizar es el Diseño Cuadrado
Latino (D.C.L)

En el D.C.L la heterogeneidad de las unidades experimentales es controlada por el


investigador mediante la aplicación de bloqueo doble, en filas y columnas, siendo las
unidades experimentales dentro de cada fila o columnas relativamente homogéneas. Por
esta razón es considerado como una extensión del D.B.C.A.

La distribución de los tratamientos a las unidades experimentales se realiza al azar y de


manera tal que los tratamientos deben aparecer solo una vez en cada fila y en cada
columna.

El número total de unidades experimentales requeridas en un D.C.L es igual a t 2, siendo


“t” el número de tratamientos.

El presente capitulo tiene como objetivo exponer la metodología del Diseño Cuadrado
Latino.

Ventajas:
 El control de variabilidad de las unidades experimentales por filas y columnas y su
separación en el análisis de variancia permite incrementar la precisión experimental.
 Es posible estimar los valores de las unidades experimentales pérdidas.

Desventajas:
 No es flexible en la medida que el número de tratamientos depende del número de filas
y columnas que se disponga.

113
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

 Se incrementa el error experimental ante la existencia de interacciones (filas x


columnas, filas x tratamientos, columnas x tratamientos ó filas x columnas x
tratamientos)
 No es recomendable para un elevado número de tratamientos ya que en estos casos se
requiere de un elevado número de unidades experimentales.

1. Croquis Experimental
Supongamos que en un experimento con 4 tratamientos, 4 bloques filas y 4 bloques
columna, cada celda representa una unidad experimental; los tratamientos deben ser
distribuidos aleatoriamente dentro de cada bloque fila y columna, de tal manera, que un
tratamiento no se repita más de una vez por fila o por columna. Un ejemplo, de una
posible aleatorización de los tratamientos en las unidades experimentales seria la
siguiente:

Bloque Bloque Bloque Bloque


Columna Columna Columna Columna
1 2 3 4
Bloque Fila 1 T1 T2 T3 T4
Bloque Fila 2 T2 T1 T4 T3
Bloque Fila 3 T3 T4 T1 T2
Bloque Fila 4 T4 T3 T2 T1

2. Modelo Aditivo Lineal:

El modelo aditivo lineal es:

Y(i)jk =  + (i) + j + k + (i)jk

i = 1, 2, 3,..................,t (tratamientos)
j = 1, 2, 3,..................,t (filas)
k = 1, 2, 3,..................,t (columnas)
Donde:

Y(i)jk : Valor observado de la variable en estudio para la U.E. bajo el j-esimo bloque fila,
k-esimo bloque columna, sometida al i-esimo tratamiento.
 : Efecto de la media general.
(i) : Efecto del i-esimo tratamiento.
j : Efecto del j-esimo bloque fila.
k : Efecto del k-esimo bloque columna.
(i)jk : Efecto del error experimental bajo el j-esimo bloque fila, k-esimo bloque columna,
sometida al i-esimo tratamiento.

La simbología (i) indica que no es una clasificación ordinaria de tres vías.

114
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

3. Estimación de los Efectos

Los efectos del modelo  ,  i ,  j y k son estimados de modo que se minimice la


siguiente expresión

 
t b t t
Q      Yi  jk     i    j   k
2
2
 i  jk
i 1 j 1 i 1 j 1

Teniendo en cuenta las siguientes restricciones:

t t t

 i  0
i 1
j  0
i 1

i 1
k 0

La aplicación de este método da los siguientes resultados para la estimación de los


parámetros:

ˆ  Y   i   Y i   Y  ˆ j  Y  j  Y  ˆk  Y k  Y 

 i  jk  Yi  jk  Y i   Y  j  Y k  2Y 

4. Análisis de Variancia

En este modelo la variabilidad total se descompone en cuatro fuentes de variación de la


siguiente manera:

Var (Total) = Var (Tratamientos) + Var (Bloq. Fila) + Var(Bloq Col) + Var (Error)

La variabilidad total es cuantificada por la suma de cuadrado total:

Y2
   Y
t t t b
SC Total   SC Y    Yi  jk  Y 
2
2
 i  jk 
j 1 k 1 i 1 j 1 t2
Y 2
Aquí es el término de corrección (TC).
t2

La suma de cuadrados de tratamientos es dado por:

t Y i2
SC Tratamientos     TC
i 1 t

La suma de cuadrados de bloques fila es dado por:

t Y2 j 
SC  Bloques Fila     TC
j 1 t

115
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

La suma de cuadrados de bloques columna es dado por:

t Y2k
SC  Bloques Columna     TC
j 1 t

La suma de cuadrados del error es dado por:

SC(Error) = SC(Total) – SC(Trat.) – SC(Bloques Fila) – SC(Bloques Columna)


El cual puede ser representado en el siguiente cuadro:

Fuente de Grados de Suma de Cuadrados Medios Fcal


Variación Libertad Cuadrados
Tratamientos t-1 SC(Trat) SC(Trat)/(t-1) CM(Trat)/CM(Error)
Bloques Fila t-1 SC(Bloq. Fila) SC(Bloq Fila)/(t-1)
Bloque Col t-1 SC(Bloq. Col) SC(Bloq Col)/(t-1)
Error (t-2)(t-1) SC(Error) SC(Error)/(t-2)(t-1)
Total t2-1 SC(Total)

Posibles Resultados
Fuente de Variación Sig. Sig. Sig. Sig. Sig. Sig. Sig. Sig
Tratamientos * n.s. * * n.s. n.s. * n.s.
Bloques Fila * * * n.s * n.s n.s. n.s.
Bloques Columna * * n.s. * n.s * n.s. n.s.

El cuadro anterior muestra los posibles resultados que se podrían obtener en el Análisis
de Varianza de un D.C.L.

 Los dos primeros resultados significan que se justifica el uso del D.C.L, dado que existen
diferencias significativas entre los bloques.
 Los cuatro siguientes resultados significan que no se justifica el uso del D.C.L., dado que
no existen diferencias significativas entre uno de los bloques (fila o columna). Eso no
implica que el experimento este mal hecho sino que no se escogió el diseño adecuado
(el factor de bloqueo correcto). De acuerdo a estos resultados se debería recomendar
para un próximo experimento futuro de similares características el uso de un D.B.C.A. Lo
que si estaría mal es analizar el experimento como un DBCA dado que la aleatorización
de las unidades experimentales fue hecha como un DCL.
 En los dos últimos resultados significan que no se justifica el uso del D. C.L, dado que
no existen diferencias significativas entre los bloques fila y columna (analizados
independientemente). Eso no implica que el experimento este mal hecho sino que no se
escogió el diseño adecuado (el factor de bloqueo de fila y columna correcto). De acuerdo
a estos resultados se debería recomendar en experimento futuro de similares
características el uso de un D.C.A. Estaría mal analizar el experimento como un DCA
dado que la aleatorización de las unidades experimentales fue hecha como un DCL.

116
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Hipótesis

Para el Modelo I (Efectos fijos) las hipótesis pueden basarse en:

a) Los efectos de los tratamientos:

H0:  i   0 i  1, , t
H1:  i   0 para al menos algún i

b) Las medias de los tratamientos

H0: i   i  1, , t
H1: i   para al menos algún i

Para el Modelo II (efectos aleatorios) las hipótesis serán planeadas en términos de la


variancia de los tratamientos.

H0:  2  0 i  1, , t
H1:  2  0 para al menos algún i

En cualquiera de los casos, la hipótesis nula significa que los tratamientos no afectan a
la variable respuesta, o que con cualquiera de los tratamientos se obtienen los mismos
resultados.

Estadístico de Prueba

CMTrat
F ~ FGLTrat ,GLError 
CMError

Regla de Decisión
La hipótesis nula ( H 0 ) se rechaza con un nivel de significación  si:


Fcal  F1 ,GLtrat ,GLError  Ftab  Fcrit  F1 ,GLTrat ,GLError  

5. Pruebas de Comparación de Medias de Tratamientos

Aquí se presentarán algunas de las pruebas que también fueron desarrolladas en el DCA
y DBCA, los supuestos y características de cada prueba son las mismas. A continuación
se presentan las desviaciones estándar a utilizar en cada una de las pruebas:

2CME
Prueba t y DLS: Sd 
t

CME t 2
Prueba de Contrastes Ortogonales S L   Ci
t i 1

117
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

CME
Prueba de Tukey: Sd 
t

2CME
Prueba de Dunnett: Sd 
t

Ejemplo de Aplicación
Para comparar el rendimiento de cuatro variedades de trigo (A, B, C y D) se llevó a cabo
un experimento conducido en D.C.L. en parcelas con diferentes concentraciones de
fósforo y diferentes tipos de riego. Los resultados experimentales se presentan
expresados en Kg. por parcela.

CONCENTRACIÓN TIPOS DE RIEGO


Total
FOSFORO 1 2 3 4
1 10.5 ( C ) 07.7 ( D ) 12.0 ( B ) 13.2 ( A ) 43.4
2 11.1 ( B ) 12.0 ( A ) 10.3 ( C ) 07.5 ( D ) 40.9
3 05.8 ( D ) 12.2 ( C ) 11.2 ( A ) 13.7 ( B ) 42.9
4 11.6 ( A ) 12.3 ( B ) 05.9 ( D ) 10.2 ( C ) 40.0
Total 39.0 44.2 39.4 44.6 167.2

4 4

Y  1837.64
2
( i ) jk
i 1 j 1

a. Realice el análisis descriptivo respectivo.


b. Defina el modelo aditivo lineal con cada uno de sus componentes según el enunciado
del problema
c. A un nivel de significación del 5%, ¿existe alguna variedad que tiene diferente
rendimiento a las demás?

Solución:

a. Realice el análisis descriptivo respectivo.

 Análisis Descriptivo
Antes de realizar el Análisis de Variancia es recomendable elaborar gráficos descriptivos
y obtener algunas medidas descriptivas

Descriptive Statistics: Rendimiento

Variable Variedad N Mean StDev


Rendimiento 1 4 12.000 0.864
2 4 12.275 1.078
3 4 10.800 0.942
4 4 6.725 1.014

118
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

 Para las variedades (tratamientos)

Gráfica de caja de Rendimiento


14

13

12

Rendimiento 11

10

5
1 2 3 4
Variedad

 Para la concentración de fósforo (bloque fila)

Gráfica de caja de Rendimiento


14

13

12

11
Rendimiento

10

5
1 2 3 4
Concentración

 Para el tipo de riego (bloque columna)

Gráfica de caja de Rendimiento


14

13

12

11
Rendimiento

10

5
1 2 3 4
Riego

119
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

b. Defina el modelo aditivo lineal con cada uno de sus componentes según el enunciado del
problema

 Modelo Aditivo Lineal


Y(i)jk =  + (i) + j + k + (i)jk i,j,k = 1,2,3,.........,t

Donde:

Y(i)jk : Rendimiento de trigo (en Kg/parcela) correspondiente a la i-esima variedad, a la


cual se le aplico la j-esima concentración de fósforo y el k-esimo tipo de riego.
 : Efecto del rendimiento medio de trigo.
(i) : Efecto de la i-esima variedad de trigo.
j : Efecto de la j-esima concentración de fósforo.
k : Efecto del k-esimo tipo de riego.
(i)jk : Efecto del error experimental correspondiente a la i-esima variedad, a la cual se
le aplico la j-esima concentración de fósforo y el k-esimo tipo de riego.

c. A un nivel de significación del 5%, ¿existe alguna variedad que tiene diferente
rendimiento a las demás? Realice la prueba estadística más adecuada asumiendo los
supuestos necesarios.

 Análisis de Varianza
El análisis de varianza nos permitirá probar si existen diferencias en los tiempos
promedios de aprendizaje del uso de la prótesis.

Cálculos previos

167.22
TC   1747.24
42

SC Total   10.52   10.22   TC = 90.4

La suma de cuadrados de tratamientos es dado por:

482  49.12  43.22  26.92


SC Tratamientos    TC  78.925
4

La suma de cuadrados de bloques fila es dado por:

43.42  40.92  42.92  402


SC  Bloque Fila    TC  1.955
4

La suma de cuadrados de bloques columna es dado por:

392  44.22  39.42  44.62


SC  Bloque Columna    TC  6.8
4

120
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

La suma de cuadrados del error es dado por:

SC(Error) = 90.4 - 78.925 - 1.955 - 6.8=2.72

Fuente de Grados de Suma de Cuadrados Fcal


Variación Libertad Cuadrados Medios
Variedad 3 78.925 26.3083 58.03
Fósforo 3 1.955 0.6517
Riego 3 6.800 2.2667
Error 6 2.72 0.4533
Total 15 90.4

Hipótesis

H0: i   i  1, ,4
H1: i   para al menos algún i
  0.05
CM Trat 
Prueba Estadística. Fcal  ~ FGLtrat ,GLError 
CM  Error 

Desarrollo de la Prueba. Fcal  58.03

Criterio de Decisión
0.5
Como
Fcal  58.03  F 0.95,3,6  4.76
0.4
Entonces se rechaza H0 y se
0.3 acepta H1 .
0.2

0.1

0.05
0.0
0 4.76
X

Conclusión.
Con un nivel de significación del 0.05, se rechaza Ho. Por lo tanto, existe evidencia
estadística para afirmar que al menos uno de las variedades de trigo difiere del resto al
analizar el rendimiento medio en Kg/parcela.

Reporte de Minitab

Fuente GL SC MC Valor F Valor p


Fosforo 3 1.9550 0.6517 1.44 0.322 ns
Riego 3 6.8000 2.2667 5.00 0.045 *
Variedad 3 78.9250 26.3083 58.03 0.000 *
Error 6 2.7200 0.4533
Total 15 90.4000

121
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Nota:
Dado que solo existen diferencias significativas entre los bloques columna-tipo de riego
no se justifica el DCL. Se recomienda en un próximo experimento utilizar un DBCA.

d. Si antes de la ejecución del experimento se planeó comparar las variedades de trigo “A”
y “B”, realice la prueba de D.L.S. Use  = 0.01

Prueba DLS

H 0 :  A  B
H1 :  A   B

  0.01
2  0.4533
DLS  t 0.995,6  3.71 0.474   1.759
4

Como 12.0  12.275  0.275  DLS no se rechaza H 0 .


Conclusión
A un nivel de significación de 0.01 no existe suficiente evidencia estadística para
rechazar H 0 .
Por lo tanto, no se puede afirmar que el rendimiento medio de la variedad A es diferente
al rendimiento medio de la variedad B.

Reporte en Minitab

Comparaciones por parejas de Fisher: Variedad

Pruebas individuales de Fisher para diferencias de las medias


Diferencia
de Variedad Diferencia EE de IC individual
niveles de medias diferencia de 95% Valor T Valor p
2 - 1 0.275 0.476 (-0.890, 1.440) 0.58 0.585
3 - 1 -1.200 0.476 (-2.365, -0.035) -2.52 0.045
4 - 1 -5.275 0.476 (-6.440, -4.110) -11.08 0.000
3 - 2 -1.475 0.476 (-2.640, -0.310) -3.10 0.021
4 - 2 -5.550 0.476 (-6.715, -4.385) -11.66 0.000
4 - 3 -4.075 0.476 (-5.240, -2.910) -8.56 0.000

Agrupar información utilizando el método LSD de Fisher y una confianza de 95%


Variedad N Media Agrupación
2 4 12.275 A
1 4 12.000 A
3 4 10.800 B
4 4 6.725 C
Las medias que no comparten una letra son significativamente diferentes.

122
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

e. Con fines aplicativos solo se realizará la prueba de Tukey para comparar las variedades
de trigo “C” y “D”. Use  = 0.01

Prueba de Tukey

H 0 : C   D
H1 : C   D

  0.01
CME 0.4533
ALS (T )  AES (T )  7.03  2.36
t 4

Como 10.8  6.725  4.075  ALS (T ) se rechaza H 0 y se acepta H1 .

Conclusión
A un nivel de significación de 0.01 existe suficiente evidencia estadística para rechazar
H 0 y aceptar H1

Por lo tanto, se puede afirmar que el rendimiento medio de la variedad C es diferente al


rendimiento medio de la variedad D.

Reporte en Minitab

Comparaciones por parejas de Tukey: Respuesta = Rendimiento, Término = Variedad

Agrupar información utilizando el método de Tukey y una confianza de 95%

Variedad N Media Agrupación


2 4 12.275 A
1 4 12.000 A
3 4 10.800 A
4 4 6.725 B

Las medias que no comparten una letra son significativamente diferentes.

Pruebas simultáneas de Tukey para diferencias de las medias

Diferencia
de Variedad Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado
2 - 1 0.275 0.476 (-1.375; 1.925) 0.58 0.935
3 - 1 -1.200 0.476 (-2.850; 0.450) -2.52 0.153
4 - 1 -5.275 0.476 (-6.925; -3.625) -11.08 0.000
3 - 2 -1.475 0.476 (-3.125; 0.175) -3.10 0.077
4 - 2 -5.550 0.476 (-7.200; -3.900) -11.66 0.000
4 - 3 -4.075 0.476 (-5.725; -2.425) -8.56 0.001

123
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

f. Realice la prueba de Dunnett, considerando que la variedad de trigo B es el testigo.


Use  = 0.01

Prueba de Dunnett

Considerando que la variedad B es el tratamiento con índice 2, se obtienen los siguientes


resultados:

H 0 : T  i
H1 : T  i

  0.01
2CME 2(0.4533)
ALS ( Dn)  t ( Dn)  4.51  2.14
t 4

Comparación yT  y i ALS(dn) Sig

2- 1 0.275 2.14 Ns
2–3 1.475 2.14 Ns
2–4 5.55 2.14 *

Conclusión
A un nivel de significación de 0.01, se puede afirmar que el rendimiento medio de la
variedad B (testigo) es diferente al rendimiento medio de la variedad D. Respecto a las
otras comparaciones, no se puede afirmar que el rendimiento medio de la variedad B
(testigo) es diferente al rendimiento medio de las variedad A, y tampoco hay diferencias
con la variedad C.

Comparaciones múltiples de Dunnet con un control: Respuesta = Rendimiento, Término = Variedad


Agrupar información utilizando el método de Dunnett y una confianza de 95%
Variedad N Media Agrupación
2 (Control) 4 12.275 A
1 4 12.000 A
3 4 10.800 A
4 4 6.725

Las medias no etiquetadas con la letra A son significativamente diferentes de la


media del
nivel de control.

Pruebas simultáneas de Dunnett para la media de nivel – Media de control


Diferencia
de Variedad Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado
1 - 2 -0.275 0.476 (-1.751; 1.201) -0.58 0.889
3 - 2 -1.475 0.476 (-2.951; 0.001) -3.10 0.050
4 - 2 -5.550 0.476 (-7.026; -4.074) -11.66 0.000

124
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

INVESTIGACIONES QUE UTILIZARON ESTE DISEÑO

BOCANEGRA, D. 1; ROCHINOTTI, D. (2012) Efecto de la suplementación con germen de


maíz sobre el consumo y la digestibilidad de heno en bovinos estabulados. Sitio Argentino de
Producción Animal. Descargado de:http://www.produccion-
animal.com.ar/informacion_tecnica/suplementacion/110-Bocanegra-vol3811.pdf

Ejercicios Propuestos

Para las siguientes preguntas, de ser necesario use un nivel de significación del 5%:

1) Se quiere probar si existen diferencias entre 4 tipos de almacenaje de ciruelas


(combinación de temperaturas y aditivos de consumación), donde se usó una doble
estratificación del material experimental teniendo en cuenta 4 diferentes tamaños de
las cajas de almacenamiento y 4 diferentes densidades (N° de ciruelas/área). Luego
del experimento se observó el porcentaje de peso total en estado de descomposición
obteniéndose los siguientes resultados:

DENSIDADES Total
TAMAÑO
1 2 3 4
1 4 (I) 3 (II) 2 (III) 5 (IV) 20
2 5 (II) 5 (I) 4 (IV) 6 (III) 21
3 3 (IV) 6 (III) 6 (I) 10 (II) 25
4 2 (III) 4 (IV) 6 (II) 9 (I) 21
Total 15 24 18 30 87

a) Presente el modelo aditivo lineal y describa cada uno de sus componentes de


acuerdo al caso.
b) Asumiendo el cumplimiento de supuestos, pruebe si al menos un tipo de
almacenaje es distinto a los demás al analizar el porcentaje promedio de peso
total en estado de descomposición.
c) Una hipótesis de investigación indica que el porcentaje promedio de peso total en
estado de descomposición obtenido del tipo de almacenaje I es superior al
obtenido por el tipo de almacenaje III en más de 5%. Realice la prueba estadística
más adecuada.
d) Una hipótesis de investigación indica que el porcentaje promedio de peso total al
aplicar el tipo de almacenaje I es mayor que al aplicar los tipos de almacenaje II,
III y IV, en forma conjunta. Realice la prueba estadística más adecuada.

Salidas Minitab:

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Almacenaje 3 16.000 5.333 4.92 0.047
Densidades 3 36.000 12.000 11.08 0.007
Tamaño 3 15.500 5.167 4.77 0.050
Error 6 6.500 1.083
Total 15 74.000

125
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Estadísticos descriptivos: Porcentaje

Variable Almacenaje Media Desv.Est. Suma


Porcentaje 1 6.00 2.16 24.00
2 6.00 2.94 24.00
3 4.00 2.31 16.00
4 4.000 0.816 16.000

2) En un estudio se quiere comparar 5 variedades de quinua en relación a su producción


(en toneladas por hectárea). Para ello se aplicó un doble control local: pendientes del
terreno y niveles de riego.
Algunos resultados obtenidos con el programa Minitab 17 se muestran a
continuación:
Estadísticos descriptivos: Producción

Variedad Media Varianza Pendiente Media Varianza Riego Media Varianza


A 1.873 1.031 1 0.764 0.056 1 1.938 1.172
B 1.515 0.733 2 1.408 0.418 2 1.862 1.057
C 2.386 0.957 3 1.739 0.217 3 1.983 1.031
D 1.645 1.292 4 3.271 0.124 4 1.996 1.540
E 2.272 1.194 5 2.509 0.366 5 1.912 1.119

a) Asumiendo el cumplimiento de supuestos, complete la tabla siguiente y


verifique si la producción media de quinua es distinta en al menos una variedad.
Realice la prueba estadística más adecuada.

FV GL SC CM Fcal
Pendiente
Riego 0.0148
Variedad 2.9063
Error
Total 23.7322

b) ¿Se justifica el uso de doble bloqueo? Sustente su respuesta


c) Suponga que se toma como control la variedad B, realice la prueba estadística
más adecuada para comparar la variedad control con el resto. Plante las hipótesis,
realice el procedimiento y de sus conclusiones.

3) Un ingeniero pesquero investigó el efecto de 4 clases de palangres (A, B, C y D)


sobre la producción de pesca (en Kg.). Para obtener una medida adecuada de la
habilidad de captura en la pesca, la jornada de trabajo de 12 horas se dividió en cuatro
períodos de tres horas. Además se seleccionaron cuatro pescadores para realizar el
estudio. Los resultados se presentan a continuación:

Turno de pesca Total


Pescador
1 2 3 4
1 10 (C) 14 (D) 7 (A) 8 (B) 39
2 7 (B) 18 (C) 11 (D) 8 (A) 44
3 5 (A) 10 (B) 11 (C) 9 (D) 35
4 10 (D) 10 (A) 12 (B) 14 (C) 46
Total 32 52 41 39 164

126
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Se sabe que se cumple el supuesto de normalidad y homogeneidad de variancias:

a) Verifique si al menos una clase de palangre es distinta a las demás al analizar la


producción media de pesca. Realice la prueba estadística más adecuada
b) Se planeó probar si la clase de palangre A es más eficiente que la clase C. Realice
la prueba estadística más adecuada.
c) Si se considera al palangre A como el tratamiento control, realice la prueba
estadística más adecuada para comparar la producción media obtenida con el
palangre A con la obtenida por el resto de palangres.

Salidas Minitab:

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Palangres 3 72.50 24.167 13.81 0.004
Turno 3 51.50 17.167 9.81 0.010
Pescador 3 18.50 6.167 3.52 0.089
Error 6 10.50 1.750
Total 15 153.00

Estadísticos descriptivos: Rendimiento

Variable Palangres Media Desv.Est. Suma


Producción A 7.50 2.08 30.00
B 9.25 2.22 37.00
C 13.25 3.59 53.00
D 11.00 2.16 44.00

Comparaciones múltiples de Dunnet con un control:


Respuesta = Produccion, Término = Palangre

Agrupar información utilizando el método de Dunnett y una confianza de 95%

Palangre N Media Agrupación


1 (Control) 4 7.50 A
3 4 13.25
4 4 11.00
2 4 9.25 A

Las medias no etiquetadas con la letra A son significativamente diferentes de


la media del nivel de control.

Pruebas simultáneas de Dunnett para la media de nivel – Media de control

Diferencia
de Palangre Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado
2 - 1 1.750 0.935 (-1.149, 4.649) 1.87 0.240
3 - 1 5.750 0.935 ( 2.851, 8.649) 6.15 0.002
4 - 1 3.500 0.935 ( 0.601, 6.399) 3.74 0.023

Nivel de confianza individual = 97.89%

127
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

4) En un estudio de tres variedades de garbanzo se determinó que la densidad de las


semillas en la siembra es una fuente de variabilidad al igual que la profundidad de
siembra. Se aplicó un diseño cuadrado latino, encontrándose los siguientes
resultados:

Profundidad de Densidad de Rendimiento


Variedad
siembra (cm.) semillas (Kg/Ha) (Tn/Ha)
[1-2> 10 Kg/ha V1 0.7
[2-3> 10 Kg/ha V2 1.87
[3-4] 10 Kg/ha V3 0.84
[1-2> 12 Kg/ha V2 1.99
[2-3> 12 Kg/ha V3 0.65
[3-4] 12 Kg/ha V1 1.1
[1-2> 15 Kg/ha V3 0.37
[2-3> 15 Kg/ha V1 0.5
[3-4] 15 Kg/ha V2 1.89

a) Presente el modelo aditivo lineal e interprete cada uno de sus componentes en


términos del enunciado.
b) Asumiendo el cumplimiento de supuestos, verifique si hay diferencias
significativas en las variedades al analizar el rendimiento medio de garbanzo.
Realice la prueba estadística más adecuada.
c) Se planeó probar si el rendimiento medio de garbanzo obtenido con la variedad
V3 difiere del rendimiento medio obtenido de la variedad V1. Realice una prueba
estadística adecuada.
d) Realice una prueba estadística que permita comparar los rendimientos medios
obtenidos con todas las variedades de garbanzo usadas en el estudio.
e) Se planeó probar si el rendimiento medio de la variedad V2 es superior al
rendimiento medio de la variedad V3. Realice la prueba estadística más
adecuada.

Salidas del programa Minitab 17:

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Variedad 2 3.02536 1.51268 1496.05 0.001
Profundidad de siembra 2 0.13896 0.06948 68.71 0.014
Densidad de semillas 2 0.16576 0.08288 81.97 0.012
Error 2 0.00202 0.00101
Total 8 3.33209

Comparaciones por parejas de Fisher: Variedad


Pruebas individuales de Fisher para diferencias de las medias
Diferencia
de Variedad Diferencia EE de IC individual de
niveles de medias diferencia 95% Valor T Valor p
V2 - V1 1.1500 0.0260 (1.0383, 1.2617) 44.29 0.001
V3 - V1 -0.1467 0.0260 (-0.2584, -0.0350) -5.65 0.030
V3 - V2 -1.2967 0.0260 (-1.4084, -1.1850) -49.94 0.000

128
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Comparaciones por parejas de Tukey: Variedad


Agrupar información utilizando el método de Tukey y una confianza de 95%

Variedad N Media Agrupación


V2 3 1.91667 A
V1 3 0.76667 B
V3 3 0.62000 B
Las medias que no comparten una letra son significativamente diferentes.

Pruebas simultáneas de Tukey para diferencias de las medias

Diferencia
de Variedad Diferencia EE de IC simultáneo de Valor p
niveles de medias diferencia 95% Valor T ajustado
V2 - V1 1.1500 0.0260 (0.9971, 1.3029) 44.29 0.001
V3 - V1 -0.1467 0.0260 (-0.2996, 0.0063) -5.65 0.054
V3 - V2 -1.2967 0.0260 (-1.4496, -1.1437) -49.94 0.001

Estadísticos descriptivos: Rendimiento (Tn/Ha)

Variable Variedad Media Desv.Est. Suma


Rendimiento (Tn/Ha) V1 0.767 0.306 2.300
V2 1.9167 0.0643 5.7500
V3 0.620 0.236 1.860

Referencias

R.G.D. Steel, & Torrie, J.H.(1985). Bioestadística Principios y Procedimientos. McGraw


Hill, ed Bogotá, Colombia.

Montgomery, D. C. (2005). Diseño y análisis de experimentos (2nd. Ed). México: Limusa


Wiey.

Kuehl, R. O., (2001). Diseño de experimentos: principios estadísticos para el diseño y


análisis de investigaciones. (2nd Ed). International Thomson Editores, S.A. de C.V.,
Mexico, DF.

Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of
data analysis. Australia: Duxbury/Thomson Learning

129
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Capítulo VI

PRUEBAS NO PARAMÉTRICAS RELACIONADAS A DISEÑOS


EXPERIMENTALES

OBJETIVOS

• Reconocer los usos de las pruebas no paramétricas según la naturaleza o escala


de la variable en estudio.
• Realizar las pruebas estadísticas con el procedimiento adecuado para los casos
de aplicación.
• Realizar adecuadamente las pruebas de comparación en cada método no
paramétrico.

Introducción

Uno de los problemas más difíciles para un estudiante y para el investigador


experimentado, es decidir cuál de las pruebas estadísticas es la más adecuada para
analizar un conjunto de datos. La selección de la prueba estadística necesaria, depende
de varios factores, una de ellos es saber con qué escala se están midiendo los datos que
se analizarán, pues no se puede aplicar la misma prueba estadística para el caso en que
la variable de interés sea el peso de un producto, que cuando lo es las posibles marcas
de dicho producto, es importante conocer las diferentes escalas con las que se pueden
medir los datos que se manejan; así como el tipo de variables con la que se va a trabajar.
Las pruebas estadísticas con las que se encuentran más familiarizados los
investigadores y a las que se dedica la mayor parte de los libros de texto son las referidas
a la estadística paramétrica. Estas pruebas estadísticas, se aplican principalmente a
datos de tipo cuantitativo y requieren el cumplimiento de supuestos que deben ser
verificados antes de la realización de la prueba.
En la mayor parte de estas pruebas uno de los supuestos se refiere a la normalidad de
la población de la cual fue extraída la muestra. Si no se cumple este supuesto, sobre
todo en las pruebas en las cuales la muestra es de un tamaño menor de 30, la conclusión
a la que se llegue podría estar equivocada. En estos casos y cuando los datos que se
manejan no son cuantitativos, se podría aplicar una prueba estadística correspondiente
a la estadística no paramétrica.

1. Pruebas No Paramétricas

La estadística no paramétrica es la parte de la estadística que se ocupa de aquellos


procedimientos donde no se prioriza la naturaleza de la distribución de la población
(principalmente el supuesto de normalidad) como requisito para poder realizar inferencia.
Por esta razón, también a estas técnicas se les conoce como pruebas de libre
distribución. Además del problema de los supuestos, algunos experimentos o estudios
que se deseen realizar producen respuestas que no es posible evaluar con la escala de
razón (la mayoría de variables cuantitativas son medidas mediante esta escala). Por
ejemplo, algunos datos solamente se encuentran en una escala ordinal como cuando se

130
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

evalúan las habilidades de los vendedores, o el atractivo de cinco modelos de casas, o


la preferencia por sabor de una determinada marca de yogurt. En general aspectos como
la habilidad o preferencias de un alimento o producto, solamente los podemos ordenar.
Resultados de este tipo se presentan frecuentemente en estudios de mercado y en otros
del campo de las ciencias sociales.
Las pruebas que se desarrollarán en este capítulo son aquellas que sirven como métodos
de análisis alternativo a los diseños completamente al azar y diseño de bloques
completos al azar.

2. Cuadro comparativo de la Pruebas Paramétricas con las No Paramétricas

Mediante este cuadro se pretende brindar un resumen que ayude al fácil uso de las
pruebas no paramétricas.

Utilidad Prueba Paramétrica Prueba No Paramétrica


Prueba Z para una Prueba de Signos de una
muestra muestra
Evaluación de una media
Prueba T para una Prueba de Wilcoxon de
muestra una muestra
Prueba de Z para dos Prueba de la Mediana
muestras para dos muestras
Evaluación de la diferencia
independientes independientes
de dos medias
Prueba de T para dos Prueba de Mann Whitney
independientes
muestras
independientes
Prueba de Z para dos Prueba de Signos para
Evaluación de la diferencia
muestras pareadas dos muestras pareadas
de dos medias
Prueba de T para dos Prueba de Wilcoxon para
dependientes
muestras pareadas dos muestras pareadas
Prueba de Kruskal-Wallis
Comparación de más de 2 Anva -Diseño
Prueba de la Mediana
medias sin ninguna Completamente al Azar
para más de dos
restricción (D.C.A.)
muestras independientes
Comparación de más de 2 Anva - Diseño de
medias con una restricción Bloques
Prueba de Friedman
Completamente al Azar
(D.B.C.A.)

3. Ventajas y Desventajas de las Pruebas No Paramétricas

Ventajas:

 Permiten que la prueba de hipótesis no constituya afirmaciones acerca de valores de los


parámetros poblacionales.
 Pueden utilizarse cuando se desconoce la distribución de la población muestreada.
 Pueden utilizarse cuando los datos están referidos a las escalas nominal u ordinal.
 En algunas pruebas se utiliza solo la frecuencia de las observaciones.
 Son utilizadas cuando las muestras (n) son pequeñas (por lo general n<30).

131
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Desventajas:

 El uso de procedimientos no paramétricos con datos que pueden manejarse con un


procedimiento paramétrico conduce a una pérdida de información.
 La aplicación de algunas de las pruebas no paramétricas manualmente (sin el uso de un
programa estadístico) puede ser laborioso para muestras grandes.

4. Pruebas No Paramétricas relacionadas a Diseños Experimentales

4.1 Prueba de Kruskal-Wallis

a) Aspectos Generales

Esta prueba es el equivalente no paramétrico del diseño completamente al azar de un


factor de análisis de variancia.
Es decir esta prueba puede ser utilizada cuando no se cumplen los supuestos de que las
poblaciones de las cuales se extraen las muestras no están distribuidas normalmente
con variancias iguales, o cuando los datos constan solo de rangos.
Es una prueba que se utiliza para probar si las medianas de K distribuciones son Iguales.
Si las distribuciones son simétricas, la prueba se puede extender a la igualdad de medias.

b) Supuestos:

 Las muestras a ser evaluadas son aleatorias y mutuamente excluyentes.


 La variable respuesta esta medida en una escala al menos ordinal.
 Los tamaños de muestras deben ser mayores o iguales a 5.

c) Procedimiento para el Desarrollo de la Prueba

a) Las n1, n2,…nk observaciones de los k grupos se combinan en una sola serie de tamaño
n y se disponen en orden de magnitud desde la más pequeña hasta la más grande.
Cuando dos o más observaciones tienen el mismo valor, a cada una de ellas se le asigna
la media de los rangos con los cuales está relacionado.
b) Los rangos asignados a las observaciones en cada uno de los k grupos se suman por
separado para dar k sumas de rangos:
ni
Ri   R  X ij 
j 1

c) Calcular el siguiente estadístico de prueba:

1  k Ri2 n  n  1 
2

H  2    ~  (k-1)
2

S  i 1 ni 4 

Donde:

1  k ni 2 n  n  1 
2

S 
2
 R  X ij   
n  1  i 1 j 1 4 

132
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

n  n  1
2
2
Si no hay empates S se simplifica a , entonces H se simplifica a:
4


  12   k Ri  
2

H       3(n  1)~ (k-1)
2

  n(n  1)   i 1 ni  
 
Donde:

n: Tamaño total de la muestra (𝑛 = ∑𝑘𝑖=1 𝑛𝑖 )


Rj: Suma de los rangos de la j-ésima muestra o grupo de tratamiento.
nj: Número de observaciones de la j-ésima muestra.
k: Número de tratamientos o grupos.

Criterio de Decisión
El valor crítico o valor tabular se define como tab
2
 21 ,k 1 . Si H  21 ,k 1 se rechaza
Ho

d) Comparaciones Múltiples
Si la hipótesis nula en la prueba general de Kruskal-Wallis es rechazada, se puede usar
el siguiente procedimiento para determinar cuál de los pares de tratamientos tienden a
ser diferentes. Así, para ver si existe diferencia entre los tratamientos i y j a un nivel de
significación  se compara:
Ri R j

ni n j

 S 2  n  1  H   1 1 
Con ALS ( K  W )  t  
    
1 , n  k 
 2   nk  ni n j  

𝑅 𝑅
De tal forma que, si |𝑛𝑖 − 𝑛𝑗| > 𝐴𝐿𝑆(𝐾 − 𝑊) entonces se Rho, y existe diferencia entre
𝑖 𝑗
los tratamientos i y j a un nivel de significación 

Ejemplo de Aplicación 1
Se analizaron muestras de cuatro marcas diferentes de margarina de dieta o de
imitación, para determinar el nivel de ácidos grasos poliinsaturados fisiológicamente
activos (PAPFUA, en porcentajes). La prueba de Anderson Darling da un valor calculado
es 1.145 y un p-valor 0.004; la prueba de Bartlett da un valor calculado de 17.614 y un
p-valor de 0.001. Asumiendo que hay independencia entre y dentro de tratamientos y
que las cuatro poblaciones tienen distribuciones de probabilidad idénticas:

A 14.1 14.3 14.1 14.2 14.0


Marca B 12.8 12.9 12.7 12.8 12.6 12.7
C 12.5 13.1 14.2 12.8 13.4
D 13.1 13.5 13.4 13.2

133
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

1. Con un nivel de significación de 0.01 pruebe si las marcas de margarina difieren en el


porcentaje de PAPFUA. Mencione sus conclusiones.
Según la prueba de Anderson Darling y la de Bartlett no se cumplen los supuestos de
errores normales y de homogeneidad de variancias entonces la prueba que se debe
utilizar es la de Kruskal- Wallis en lugar del Análisis de Varianza en DCA. Pero asumiendo
que las distribuciones son simétricas:

1. Planteamiento de Hipótesis

Ho: Las marcas de margarina no difieren en el porcentaje medio de PAPFUA.


H1: El porcentaje medio de PAPFUA difiere en al menos dos de estas marcas.

2. Nivel de significación: α=0.05

3. Cálculo del estadístico de Prueba

Los rangos de los datos se presentan en la siguiente tabla:

R  X ij  Ri

Marca A 16.5 20 16.5 18.5 15 86.5


B 6 8 3.5 6 2 3.5 29.0
C 1 9.5 18.5 6 12.5 47.5
D 9.5 14 12.5 11 47.0

1  n  n  1  1  20  21 
2 2

  R  X ij  
2
S 
2
  2865.5    34.76316
n  1  ij 4  20  1 
  4 

1  k Ri2 n  n  1 
2

H  2    ~   k 1
2

S  i 1 ni 4 

 20  21 
2
1
H  2640.11667    12.51660 ~ (3)
2

34.76316  4 

4. Criterios de decisión

Como H   2  0.99,3  11.345 se rechaza Ho

5. Conclusión

A un nivel de significación del 5% se rechaza Ho. Luego se puede afirmar que el


verdadero porcentaje medio de PAPFUA difiere en al menos una de estas marcas.

134
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Reporte Minitab:

Prueba de Kruskal-Wallis: Porcentaje vs. Marca

Prueba de Kruskal-Wallis en Porcentaje

Clasificación
Marca N Mediana del promedio Z
1 5 14.10 17.3 2.97
2 6 12.75 4.8 -2.80
3 5 13.10 9.5 -0.44
4 4 13.30 11.8 0.47
General 20 10.5

H = 12.43 GL = 3 P = 0.006
H = 12.52 GL = 3 P = 0.006 (ajustados para los vínculos)

* NOTA * Una o más muestras pequeñas

2. ¿Se justifican las pruebas de comparación? Si es así hágalas con un nivel de


significación de 0.01.

Como la prueba de Kruskal- Wallis resultó significativa entonces se justifican las


pruebas de comparación.

P1) Planteamiento de hipótesis

H0: El porcentaje medio de PAPFUA obtenido con la margarina i y j no difieren.


H1: El porcentaje medio de PAPFUA obtenido con la margarina i y j difieren.
Para todo i, j= A, B, C, D
donde i ≠ j
P2) Nivel de significación: α=0.05

P3) Cálculos y Criterio de decisión

 S 2  n  1  H   1 1   34.76316  20  1  12.52   1 1  
ALS ( K  W )  t        t 0.995,16     

 1 ,n k 
 2   nk  ni n j    20  4  ni n j  

Número de Ri R j ALS  K  W 
Comparaciones repeticiones  Significación
ni n j
AyB 5y6 12.4667 6.6385 **
AyC 5y5 7.8000 6.9337 **
AyD 5y4 5.5500 7.3543 ns
ByC 6y5 4.6667 6.6385 ns
ByD 6y4 6.9167 7.0766 ns
CyD 5y4 2.2500 7.3543 ns

Gráfico de líneas

B C D A

135
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

P4) Conclusión

A un nivel de significación del 5% se puede afirmar que al analizar el porcentaje medio


de PAPFUA:
 Existen diferencias significativas entre la margarina A con las margarinas B y C
pero no con la margarina D.
 No existen diferencias significativas entre la margarina B con las margarinas C y
D, ni entre la margarina C con la margarina D.

Ejemplo de Aplicación 2

Quince alumnos en un curso técnico son aleatoriamente asignados a tres tipos diferentes
de métodos de instrucción, todos los cuales persiguen el desarrollo de un nivel específico
de habilidad en diseño asistido por computadora. Para analizar la efectividad de los
métodos se contabilizó el número de diseños desarrollados por cada alumno en la
temporada de primavera, la información obtenida según el método de instrucción al cual
asistió, se presenta a continuación:

Método A1 Método A2 Método A3


86 90 82
79 76 68
81 88 63
70 82 71
84 89 61

a. Pruebe si al menos uno de los métodos produce un número promedio de diseños


desarrollado distinto. Use un nivel de significación de 0.05.

Solución:

La variable de interés es el número de diseños desarrollados en la temporada de primavera,


la cual no es una variable cuantitativa continua. Por lo tanto, la prueba estadística más
adecuada para verificar la hipótesis es Kruskal-Wallis

Los rangos correspondientes a los datos son:

Método A1 Método A2 Método A3


12.0 15.0 9.5
7.0 6.0 3.0
8.0 13.0 2.0
4.0 9.5 5.0
11.0 14.0 1.0
R1=42 R2=57.5 R3=20.5

136
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

H0: El número promedio de diseños desarrollados bajo los métodos de instrucción en


estudio son los mismos.
H1: El número promedio de diseños desarrollados bajo los métodos de instrucción en
estudio no son los mismos.

  0.05
1  k Ri2 n  n  1 
2

Prueba Estadística. H  2    ~  (k-1)


2

S  i 1 ni 4 

Donde:
1  k ni 2 n  n  1 
2

S 
2
 R  X ij   
n  1  i 1 j 1 4 

Desarrollo de la Prueba

1  2 15 15  1 
2

S 
2

15  1 

 12   1  2
   1239.5  960  19.9643

4 

1   422  57.52  20.52  15 15  12 


H     6.917 ~  (2)
2

19.9643  5 4 

Criterio de Decisión

Como 20.95,2  5.99  6.917 se rechaza


0.5

H0
0.4

0.3

0.2

0.1

0.05
0.0
0 5.99
X

Conclusión:
A un nivel de significación de 0.05, existe suficiente evidencia estadística para afirmar
que el número promedio de diseños bajo los métodos de instrucción no son los mismos.

137
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Reporte Minitab:

Prueba de Kruskal-Wallis: Número vs. Método

Prueba de Kruskal-Wallis en Número

Clasificación
Método N Mediana del promedio Z
1 5 81.00 8.4 0.24
2 5 88.00 11.5 2.14
3 5 68.00 4.1 -2.39
General 15 8.0

H = 6.91 GL = 2 P = 0.032
H = 6.92 GL = 2 P = 0.031 (ajustados para los vínculos)

b. Según el resultado obtenido en a) ¿Es posible realizar la prueba de comparaciones


múltiples? Si su respuesta es afirmativa, realícela.

Solución

Como la cantidad promedio de diseños desarrollados no son los mismos bajo al menos
uno de los métodos de instrucción entonces se pueden realizar las pruebas de
comparación.

H0: El número promedio de diseños desarrollados bajo el método de instrucción A 1 y A2 no


difieren.
H1: El número promedio de diseños desarrollados bajo el método de instrucción A 1 y A2
difieren.

H0: El número promedio de diseños desarrollados bajo el método de instrucción A1 y A3 no


difieren.
H1: El número promedio de diseños desarrollados bajo el método de instrucción A 1 y A3
difieren.

H0: El número promedio de diseños desarrollados bajo el método de instrucción A 2 y A3 no


difieren.
H1: El número promedio de diseños desarrollados bajo el método de instrucción A 2 y A3
difieren.

  0.05
 S 2  n  1  H   1 1 
ALS ( K  W )  t  
    
1 , n  k 
 2   nk  ni n j  

19.9643 15  1  6.917   1 1  


ALS ( K  W )  t 0.975,153       2.18  2.17   4.7306
 15  3  5 5 

138
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ri R j
Comparaciones  ALS(K-W) Sig
ni n j
A1 vs A2 42 57.5
  3.3 4.7306 n.s.
5 5
A1 vs A3 42 20.5
  3.9 4.7306 n.s
5 5
A2 vs A3 57.5 20.5
  7.2 4.7306 *
5 5

Gráfico de líneas
A3 A1 A2
______

Conclusión

A un nivel de significación de 0.05 se puede afirmar que al evaluar la cantidad promedio


de diseños desarrollados, existe diferencia significativa entre el método A2 con el A3.
Pero no existen diferencias significativas entre el método A1 con los métodos A2 y A3.

Ejemplo de Aplicación 3
Un Ing. Agrónomo realizó un experimento para comparar 3 variedades de papa. Los
resultados en Tn/Ha se presentan a continuación:

Variedad A Variedad B Variedad C


2.3 2.1 3.6
4.1 2.6 4.1
3.2 2.4 3.2
3.8 2.5 3.3
1.4 2.2 3.9

A un nivel de significación de 0.05, diga Ud. con que variedad se obtiene el mayor
rendimiento promedio.

139
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Prueba de igualdad de varianzas: Rendimiento vs. Variedad


Prueba de Bartlett
Valor p 0.009
1

Variedad
2

0 1 2 3 4
Intervalos de confianza de Bonferroni de 95% para Desv.Est.

Solución
Como la variable es de tipo cuantitativa continua, se podría aplicar el Análisis de Varianza
en DCA, pero antes de hacerlo debemos verificar el cumplimiento de los supuestos
(normalidad de errores y homogeneidad de varianzas).

Normalidad de errores
H0: Los errores se distribuyen normalmente
H1: Los errores no se distribuyen normalmente
  0.05
Prueba de Anderson Darling: p-valor = 0.516
Conclusión
A un nivel de significación de 0.05, no existe evidencia estadística para rechazar H 0.
Por lo tanto no se puede afirmar que los errores no se distribuyan normalmente.

Homogeneidad de varianzas
H0: 12   22   32   2
H1: Al menos un  i2 es diferente i  1, 2,3
  0.05
Prueba de Bartlett: Pvalor = 0.009
Conclusión
A un nivel de significación de 0.05, existe evidencia estadística para afirmar que las
variancias de los tratamientos sean heterogéneas.

Como no se cumple el supuesto de homogeneidad de varianzas no se puede realizar el


Análisis de Varianza, por lo que se debe utilizar una prueba alternativa, que, en este
caso, es la prueba de Kruskal-Wallis.

Continúe el desarrollo del ejercicio usando el siguiente reporte Minitab

140
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Reporte Minitab

Prueba de Kruskal-Wallis: Rendimiento vs. Variedad

Prueba de Kruskal-Wallis en Rendimiento

Clasificación
Variedad N Mediana del promedio Z
1 5 3.200 8.0 0.00
2 5 2.400 4.6 -2.08
3 5 3.600 11.4 2.08
General 15 8.0

H = 5.78 GL = 2 P = 0.056
H = 5.80 GL = 2 P = 0.055 (ajustados para los vínculos)

4.2 Prueba de Friedman

a) Aspectos Generales

La prueba de Friedman es el equivalente no paramétrico de un análisis de dos vías o


Diseño de Bloques Completo al Azar (DBCA).
Esta prueba es apropiada siempre que los datos se midan, al menos, en una escala
ordinal y puedan disponerse significativamente en una clasificación de dos criterios,
como se hace en un experimento en bloques completos al azar.
Esta prueba es muy utilizada en experimentos donde se consideran jueces (bloques)
para que evalúen diferentes productos. Por ejemplo en Industrias Alimentarias muy
frecuentemente se desea analizar el sabor de un producto mediante un calificativo
medido en una escala del 1 al 5.

b) Supuestos

 Los b bloques son mutuamente independientes, es decir los resultados de un bloque no


influyen en los resultados de los otros bloques.
 La escala de medida es al menos ordinal, de modo que las observaciones pueden ser
ordenadas dentro de cada bloque.

c) Procedimiento para el Desarrollo de la Prueba

- Para cada bloque, los k grupos son ordenadas en un rango de 1 a k.


- Los rangos asignados a las observaciones en cada uno de los k grupos se suman por
separado para dar k sumas de rangos.
- Aplicar el estadístico de prueba que se basa en estos rangos y es el siguiente:

 b 2 k  k  1 
2

 k  1 bB  
 4 
S ~ 2k-1
bk  k  1
2

A
4
Donde:
A    R  X ij  
k b
1 k 2
 Ri
2
B
i 1 j 1 b i 1

141
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

- Comparar este valor calculado con el valor 2 tabulado con k-1 grados de libertad
y 1-

Si S  21 ,k 1 se rechaza H0. tab
2

 21 ,k 1

d) Comparaciones Múltiples

Si la hipótesis nula en la prueba general de Friedman es rechazada, entonces se puede


realizar la prueba de comparaciones múltiples de Friedman para comparar los
tratamientos por pares. Se rechazará la hipótesis nula y se dirá que los tratamientos i y
j difieren significativamente si se cumple que:

2b  A  B 
Ri  R j  ALS ( Fr )  t  
1 , b1 k 1 
 2 
 b  1 k  1

Ejemplo de Aplicación 1
Se está realizando un experimento para analizar el sabor de una nueva marca de
gaseosa sabor cola antes de que se lance al mercado. Las marcas de gaseosas colas
en comparación fueron dadas a 5 jueces especializados y se estableció una escala de
valores de (1-5) donde 1 es el de peor sabor y 5 el de mejor sabor
Los resultados del experimento se muestran a continuación:

Marcas de gaseosas colas


Jueces
Cola 1 Cola 2 Cola 3 Nueva Cola
1 5 2 3 2
2 4 1 3 4
3 5 2 2 3
4 5 1 3 2
5 5 2 3 3

a. Pruebe si no existe igual preferencia por las gaseosas. Use =0.05.

Solución

Si se realiza el ordenamiento dentro de cada bloque se tendrá el siguiente cuadro:

Marcas de gaseosas colas


Jueces
Cola 1 Cola 2 Cola 3 Nueva Cola
1 4 1.5 3 1.5
2 3.5 1 2 3.5
3 4 1.5 1.5 3
4 4 1 3 2
5 4 1 2.5 2.5
Total R1=19.5 R2=6 R3=12 R4=12.5

142
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

P1) Planteamiento de hipótesis

H0: Las gaseosas de sabor cola en estudio tienen igual preferencia.


H1: Las gaseosas de sabor cola en estudio no tienen igual preferencia.

P2) Nivel de significación:   0.05

P3) Cálculo del estadístico de prueba

 b2k  k  1 
2

 k  1 bB  
 4 
Estadístico de prueba: S  ~  (2k 1)
bk  k  1
2

A
4
Donde:
A    R  X ij  
k b
1 k
B   Ri2
2

i 1 j 1 b i 1

Desarrollo de la prueba
19.52  62  122  12.52
A  42   2.52  148 B  143.3
5
 524  4  1 
2

 4  1 5 143.3  
 4 
S  11.93 ~  (3)
2

5  4  4  1
2

148 
4

Criterio de Decisión:

0.25

0.20

0.15
Como 20.95,3  7.81  11.93
0.10
se rechaza H0
0.05

0.05
0.00
0 7.81
X

Conclusión:
A un nivel de significación de 0.05 se rechaza Ho. Luego se puede afirmar que las
gaseosas de sabor cola en estudio no tienen igual preferencia.

Reporte Minitab:

Prueba de Friedman: Puntaje vs. Marcas bloqueado por Jueces

S = 10.98 GL = 3 P = 0.012
S = 11.93 GL = 3 P = 0.008 (ajustados para los vínculos)

143
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Mediana Suma de
Marcas N Est. clasificaciones
1 5 5.000 19.5
2 5 2.000 6.0
3 5 3.000 12.0
4 5 3.000 12.5

Mediana principal = 3.250

b. Realice las pruebas de comparaciones múltiples.

P1) Planteamiento de hipótesis

H0: El sabor de la gaseosa cola 1 es similar al de la cola 2.


H1: El sabor de la gaseosa cola 1 no es similar al de la cola 2.

H0: El sabor de la gaseosa cola 1 es similar al de la cola 3.


H1: El sabor de la gaseosa cola 1 no es similar al de la cola 3.

H0: El sabor de la gaseosa cola 1 es similar al de la cola 4.


H1: El sabor de la gaseosa cola 1 no es similar al de la cola 4.
H0: El sabor de la gaseosa cola 2 es similar al de la cola 3.
H1: El sabor de la gaseosa cola 2 no es similar al de la cola 3.

H0: El sabor de la gaseosa cola 2 es similar al de la cola 4.


H1: El sabor de la gaseosa cola 2 no es similar al de la cola 4.

H0: El sabor de la gaseosa cola 3 es similar al de la cola 4.


H1: El sabor de la gaseosa cola 3 no es similar al de la cola 4.

P2) Nivel de significación   0.05

P3) Cálculos y Criterios de decisión

2b  A  B  2  5148  143.3
ALS ( Fr )  t  t 0.975,51 41  2.18 1.97 
 2
 
1 , b 1 k 1 

 b  1 k  1  5  1 4  1

𝐴𝐿𝑆(𝐹𝑟) = 4.3143443

Comparaciones Ri  R j ALS(Fr) Sig


1 vs 2 19.5  6  13.5 4.3143 *
1 vs 3 19.5  12  7.5 4.3143 *
1 vs 4 19.5  12.5  7 4.3143 *
2 vs 3 6  12  6 4.3143 *
2 vs 4 6  12.5  5.5 4.3143 *
3 vs 4 12  12.5  0.5 4.3143 n.s

144
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Gráfico de líneas:

Cola 2 Cola 3 Cola Nueva (4) Cola 1

P4) Conclusión

A un nivel de significación de 0.05 se puede afirmar que, al evaluar la preferencia de las


gaseosas, existen diferencias significativas entre el sabor de cola 1 con los sabores de
cola 2, 3 y 4; también entre el sabor de cola 2 con los sabores de cola 3 y 4. Pero no
existe diferencia significativa entre el sabor de cola 3 con el de cola 4.
Finalmente se puede afirmar que la gaseosa de mayor preferencia en cuanto al sabor es
la cola 1.

Ejemplo de Aplicación 2
Se realizó una prueba de degustación en la cual 6 clientes de un supermercado probaron
4 marcas diferentes de queso Mozarella vendidas en el establecimiento. Se le pidió a
cada cliente dar un calificativo dentro de una escala de 0 a 10 a cada queso, donde 10
representa una calificación excelente. Los resultados obtenidos fueron:

Marcas de queso
Cliente
Q1 Q2 Q3 Q4
1 5 6.5 7.2 4.8
2 6 5 6 7
3 8.2 7.6 5.9 3.5
4 7.9 7.1 7.6 7.4
5 5.6 6.5 6.5 7
6 4.5 7.2 6.8 6.5

a. Identifique unidad experimental, factor, niveles y variable respuesta.

U. Experimental: una muestra de queso


Factor: Marcas de queso
Factor bloqueo: clientes
Niveles: Quesos (Q1, Q2, Q3, Q4) y clientes (1, 2, 3, 4, 5, 6)
Variable respuesta: Calificación en la degustación de la marca.

b. Realice la(s) prueba(s) más adecuada(s) para determinar cuál o cuáles de los 4 tipos de
queso es el mejor.

Hipótesis

H0: Los tipos de queso tienen la misma calificación


H1: Los tipos de queso no tienen la misma calificación

  0.05

145
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Reporte Minitab:

Prueba de Friedman: Calificación vs. Marca bloqueado por Cliente

S = 0.55 GL = 3 P = 0.908
S = 0.57 GL = 3 P = 0.903 (ajustados para los vínculos)

Mediana Suma de
Marca N Est. clasificaciones
1 6 6.2031 14.5
2 6 6.4781 14.5
3 6 6.6906 17.0
4 6 6.4406 14.0

Mediana principal = 6.4531

Conclusión
A un nivel de significación del 5% no evidencia estadística para rechazar Ho. Luego no
se puede afirmar que la calificación en las 4 marcas de queso no es la misma. Como la
prueba de Friedman resultó no significativa no se puede determinar cuál es la mejor
marca de queso ya que tienen la misma calificación.

Referencias de tesis- pruebas no paramétricas

Facultad Titulo Año Autor


Industrias Estudio tècnico de la elaboraciòn de helado de Lucero Marlene Zamora
Alimentarias yogurt (frozen yogurt") 1998 Rodrìguez

Ejercicios Propuestos

Para las siguientes preguntas, de ser necesario use un nivel de significación del 5%:

1. Los Una de las enfermedades más importantes de la fresa es el moho gris o


podredumbre de la fruta, causado por el hongo Botrytis cinerea, el cual es capaz de
crecer y reproducirse en tejidos dañados, senescentes y muertos del cultivo de la
fresa. Un investigador desea prevenir el ataque de este hongo en los cultivos de fresa,
y para ello, experimenta con tres tratamientos (T1: fumigación en cámara; T2:
generador de fase rápida; T3: generador de fase lenta). En el estudio el investigador
utiliza como unidades experimentales cajas de fresa de exportación (de similares
características) y evalúa la pudrición con una escala de nivel de daño con cuatro
categorías: 0=sano, 1=leve, 2=moderado, 3=severo.
Algunos resultados de la investigación se presentan en las siguientes salidas en
Minitab:

146
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Prueba de Kruskal-Wallis:

Prueba de Kruskal-Wallis en Escala

Clasificación
Trat N Mediana del promedio Z
1 5 2.000000000 12.4 2.69
2 5 1.000000000 8.0 0.00
3 5 0.000000000 3.6 -2.69
General 15 8.0

H = 9.68 GL = 2 P = 0.008
H = 10.53 GL = 2 P = 0.005 (ajustados para los vínculos)

  R  X 
k r 2
ij  1217.5
i 1 j 1

a) Realice la prueba estadística más adecuada para probar si con los tres
tratamientos se obtiene el mismo nivel de pudrición.
b) Realice la prueba de comparación correspondiente

2. Un Ing. de Industrias Alimentarias quiere lanzar al mercado el refresco sabor “Naranja


manzana”; sin embargo, en el mercado ya existe 2 sabores parecidos.
Para analizar la apreciación en cuanto al sabor, se le brinda a 4 jueces cada uno de
los sabores de refresco a analizar los cuales son calificados como: 1: Muy Bueno, 2:
Bueno, 3: Regular y 4: Malo. La tabla presentada a continuación muestra los
resultados:

JUECES Naranja Naranja Naranja


Manzana Pera Piña
1 1 3 4
2 2 2 4
3 2 2 3
4 1 1 3

Salidas de Minitab:
Prueba de Friedman: Calificación vs. Sabores bloqueado por Jueces

S = 6.13 GL = 2 P = 0.047
S = 7.54 GL = 2 P = 0.023 (ajustados para los vínculos)

Mediana Suma de
Sabores N Est. clasificaciones
NM 4 1.917 5.5
NP 4 2.083 6.5
NPI 4 3.750 12.0

  R  X 
k b 2
ij  54.5
i 1 j 1

a. Realice la prueba estadística más adecuada para probar si los tres sabores en
estudio no tienen la misma preferencia.

147
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

b. ¿Se justifica el uso de la prueba de comparaciones? Sustente su respuesta. De


ser afirmativa realícela.

3. Un Ing. de Industrias Alimentarias desea probar sí su nuevo sabor de helado: "Sandia"


va a tener acogida. Para despejar sus dudas compara este nuevo sabor con otros tres
ya existentes y se los da a degustar a 5 jueces, obteniendo los siguientes resultados:

SABORES
Jueces
Sandia Fresa Vainilla Chocolate
1 3 1 2 1
2 5 2 1 3
3 4 4 1 1
4 4 3 2 3
5 5 2 2 2

Donde el sabor es clasificado como:


1: Muy bueno, 2: Bueno, 3: Regular, 4: Malo y 5: Muy malo.

Prueba de Friedman: Puntaje vs. Sabor bloqueado por Juez

S = 8.40 GL = 3 P = 0.038
S = 10.00 GL = 3 P = 0.019 (ajustados para los vínculos)

Mediana Suma de
Sabor N Est. clasificaciones
Chocolate 5 2.250 10.5
Fresa 5 2.500 11.5
Sandia 5 4.500 19.5
Vainilla 5 1.750 8.5

Mediana principal = 2.750

  R  X 
k b 2
ij  146
i 1 j 1

a) Es necesario realizar la verificación de supuestos? ¿Por qué? De ser su respuesta


afirmativa evalúe el(los) supuesto(s) correspondiente(s).
b) ¿Se puede afirmar que existen diferencias entre los sabores de helado al evaluar
las calificaciones? Realice la prueba estadística más adecuada.
c) Realice la prueba estadística más adecuada para comparar las calificaciones
obtenidas con todos los sabores de helado en estudio.

4. Se estudió el efecto de dos medicamentos en el tiempo de reacción ante cierto


estímulo en tres muestras de ratas experimentales. La muestra III sirvió como control,
mientras que a las ratas de la muestra I se les aplicó el medicamento A y a los de la
muestra II se les aplicó el medicamento B antes de la aplicación del estímulo. En la
tabla siguiente se encuentran anotados los tiempos de reacción en minutos de las 13
ratas.

148
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Medicamento A Medicamento B Control


17 8 2
20 7 5
40 9 4
31 8 3
10

Algunos resultados obtenidos con el programa Minitab 17:

AD=0.793 Q=17.91
Valor p= 0.029 Valor p= 0.000

 R  X ij   818.5
k r


2

i 1 j 1
 
Prueba de Kruskal-Wallis: Tiempo vs. Medicamento

Prueba de Kruskal-Wallis en Tiempo

Clasificación
Medicamento N Mediana del promedio Z
A 5 20.000 11.0 2.93
B 4 8.000 6.5 -0.31
Control 4 3.500 2.5 -2.78
General 13 7.0

H = 10.68 GL = 2 P = 0.005
H = 10.71 GL = 2 P = 0.005 (ajustados para los vínculos)

a) Es necesario realizar la verificación de supuestos? ¿Por qué?


b) Realice la prueba estadística más adecuada para determinar cuál es el
medicamento que tiene el mayor tiempo de reacción.

5. En la última feria de la Molina se presentó en concurso una nueva bebida preparada


en laboratorios del INDDA a base de maca; así como otras 2 preparadas en otros
lugares. Se pidió a 5 jueces que las clasificaran las tres bebidas en orden de su
preferencia en cuanto al sabor. Un rango de 1 indica la primera preferencia. Los
resultados son presentados en el cuadro siguiente:

Bebidas
Jueces Súper Maca Maca
Maca Plus UNALM
1 2 3 1
2 2 3 2
3 1 2 1
4 3 2 1
5 1 3 2

Salidas en Minitab:

149
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Prueba de Friedman: Calificación_1 vs. Bebidas bloqueado por Jueces_2

S = 5.20 GL = 2 P = 0.074
S = 5.78 GL = 2 P = 0.056 (ajustados para los vínculos)

Mediana Suma de
Bebidas N Est. clasificaciones
MP 5 3.0000 14.0
MU 5 2.0000 7.0
SM 5 2.0000 9.0

Mediana principal = 2.3333

  R  X 
k b 2
ij  69
i 1 j 1

a) ¿Existen diferencias en las preferencias de las tres bebidas? Realice la prueba


más adecuada. Use =0.05.
b) Realice la prueba estadística más adecuada para determinar cuál de las tres
bebidas es la más preferida.

Referencias

R.G.D. Steel, & Torrie, J.H.(1985). Bioestadística Principios y Procedimientos. McGraw


Hill, ed Bogotá, Colombia.

Porras, J. (2017). Pruebas No Paramétricas Usando R. Lima. UNALM.

Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of
data analysis. Australia: Duxbury/Thomson Learning

150
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Capítulo VII

EXPERIMENTO FACTORIAL

OBJETIVOS

 Conducir un diseño experimental con dos o más factores en forma simultánea.


 Medir los efectos: simples, principales e interacción.
 Probar la hipótesis de interacción entre los factores.
 Probar las hipótesis de efectos principales y simples
 Aplicar pruebas de comparaciones específicas de tratamientos.

1. Introducción

En los diseños experimentales simples (DCA, DBCA y DCL) los tratamientos son los
niveles de un factor en estudio, sin embargo, existen situaciones experimentales donde
se requiere estudiar en forma simultánea dos o más factores, debido a la posible
interacción entre los factores y donde los tratamientos se forman por la combinación de
los niveles de los factores en estudio. La técnica estadística que permite resolver este
problema es el Arreglo Factorial o Experimento Factorial, el cual no es un diseño
experimental propiamente dicho, sino más bien, una metodología que debe conducirse
en diseño experimental simple. En este capítulo se muestra la metodología de un
experimento factorial con dos factores conducido en los diseños experimentales simples:
DCA y DBCA.

Los arreglos factoriales utilizados en experimentos proporcionan análisis más eficientes,


porque permiten el estudio de los efectos principales, efectos de interacción de los
factores y efectos simples.

2. Ventajas y desventajas de los diseños factoriales

Ventajas

 Obtener información sobre varios factores en forma simultánea. Todas las unidades
experimentales se utilizan para la evaluación de los efectos.

 El incremento de grados de libertad para el error experimental contribuye a disminuir


la variancia del error experimental y aumentar la precisión del experimento.

 Se amplía la base de la inferencia en relación a un factor, debido a que el estudio se


realiza en las diferentes condiciones representadas por los niveles de los factores.

151
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Desventajas

 Se requiere un mayor número de unidades experimentales que en los experimentos


de un solo factor y por consiguiente un mayor costo y trabajo en la ejecución del
experimento.

 Como se consideran todas las combinaciones de los niveles de los factores, en


algunos casos se tendrán combinaciones que no son de interés para el investigador.

 El análisis estadístico es más complicado que con los experimentos de un solo factor
y la interpretación de los resultados se hace más difícil a medida que aumenta el
número de factores y niveles por factor en el experimento.

3. Tipos de efectos de los factores

Los tres tipos de efectos de mayor interés en un experimento factorial son: los efectos
simples, los efectos principales y los efectos de interacción. Estos efectos se miden con
el cuadro de promedios obtenido a partir del cuadro de totales el cual es elaborado con
los datos originales. Con el siguiente ejemplo se explicará el procedimiento de medición
de cada uno de ellos.

Ejemplo de aplicación 1:

Un ingeniero en Industrias Alimentarias está interesado en determinar los efectos de la


temperatura y la humedad en el almacenamiento de manzanas. De una producción de
manzanas de características muy homogéneas se formaron 4 grupos de 5 unidades
experimentales cada uno, donde cada unidad experimental estuvo formada por 200
manzanas, la variable respuesta que se consideró fue el número de manzanas
malogradas por unidad experimental, después del almacenamiento. El ingeniero tiene
interés en los siguientes niveles del factor temperatura (A): a1  50F , a2  70F y del
factor humedad (B): b1  10%, b2  50% . A continuación se dan los promedios de
manzanas malogradas:

Factor Humedad (B)


Factor Temperatura (A) b1  10% b2  50% Medias del factor A
a1  50F 8 5 6.5
a2  70F 11 7 9.0
Medias del factor B 9.5 6.0

Efectos simples

Los efectos simples de un factor son las medidas de cambio en los niveles de un factor
manteniendo constante uno de los niveles del otro factor. El efecto simple de la

152
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

temperatura dentro de b1  10% ( L1  A  b1  ) será igual a L1  ES  A  b1   11  8  3 y mide la


diferencia en el número promedio de manzanas malogradas al pasar de una temperatura
a otra y utilizando la humedad de 10% (el número promedio de manzanas malogradas
fue mayor a una temperatura de 70°F). De igual manera se miden los efectos simples
restantes:

L2  ES  A  b2   7  5  2
L3  ES  B  a1   5  8  3
L4  ES  B  a2   7  11  4

Efectos principales

Son las medidas de cambio en los niveles de un factor, en promedio sobre los niveles de
otro factor. El efecto principal de la temperatura sobre el número de manzanas
malogradas es la diferencia entre las medias marginales de la temperatura:
L5  EP  A  B   9  6.5  2.5 . Cuando se promedian sobre ambas humedades la
diferencia del número promedio de manzanas malogradas a las temperaturas de 70 °F
y 50°F es de 2.5, indicando esto que hay más manzanas malogradas a 70°F. De manera
similar:

L6  EP  B  A  6  9.5  3.5

Efectos de interacción

Está dado por la variación entre los efectos simples de un factor a diferentes niveles del
otro factor. Se obtiene por las diferencias entre los efectos simples de un factor a
diferentes niveles del otro factor. La diferencia: L7  EI  AB   L2  L1  2  3  1 , mide la
interacción entre los factores temperatura y humedad cuando afectan el número de
manzana malogradas. La diferencia entre las temperaturas de 70°F y 50°F fue de 1
manzana malograda más con una humedad de 50% que con 10%. De igual manera:
L8  EI  AB   L4  L3  4   3  1 .

Gráfica del efecto de interacción

La gráfica del efecto de interacción permite visualizar la posible interacción entre los
factores; esto se explica porque es elaborado con datos muestrales y su valor
interpretativo tiene alcance sólo para la muestra. Si en la gráfica las líneas guardan
paralelismo es posible que no haya interacción, pero si estas tienden a cruzarse,
entonces es posible que si haya interacción.

153
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

4. Pruebas de hipótesis

En los experimentos factoriales la principal hipótesis a probar es sobre la interacción de


los factores en estudio. Se debe recordar que el investigador aplica esta metodología
cuando en un estudio sospecha que los factores a considerar interaccionan. En caso la
prueba de hipótesis de la interacción resulte significativa ( = 0.05) o altamente
significativa (( = 0.01) se pasa al análisis de los efectos simples. En el caso que la
prueba de hipótesis de la interacción resulte no significativa solo se podrá extraer
información de los efectos principal.

La prueba de hipótesis de los efectos principales se debe realizar con mucho cuidado,
tal como se menciona en la siguiente referencia bibliográfica:

Para concluir, los efectos principales, sea que haya interacción o no, se definen en
términos de los promedios marginales. La interpretación de los mismos ante la presencia
de una interacción significativa puede o no ser de utilidad, dependiendo de los objetivos
del ensayo. Luego, se realizan las siguientes consideraciones finales (Cox 1958): 1) si
aun presentándose una interacción significativa, la tendencia general de un factor es la
misma para todos los niveles del otro factor, o bien el promedio marginal de los niveles
de un factor tuviera un significado biológico directo, el efecto principal podría ser un
indicador útil para explicar el fenómeno en cuestión; 2) en los casos en que el promedio
marginal tuviera un sentido artificial, dando poca información sobre lo que sucede con
un factor, la interpretación de los efectos principales no es adecuada, debiéndose
continuar el análisis con las pruebas de hipótesis que correspondan a cada situación en
particular (Willems y Raffaele, 2001).

154
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Modelo I (efectos fijos):

Para el efecto principal de A:

H 0 :  i  0 , i
H1 :  i  0 , para al menos algún i

Para el efecto principal de B:

H 0 :  j  0 , j
H1 :  j  0 , para al menos algún j

Para el efecto de la interacción AB:

H 0 :  ij  0 , i, j


H1 :  ij  0 , para al menos algún i, j

Modelo II (efectos al azar):

Para el efecto principal de A:

H 0 :  2  0
H1 :  2  0

Para el efecto principal de B:

H 0 :  2  0
H1 :  2  0

Para el efecto de la interacción AB:

H 0 :  
2
0
H1 :  
2
0

5. Estadísticos de prueba:

CM  A
Para el efecto principal de A: Fc  ~ F gl  A ,gl  Error  
CM  Error 

155
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

CM  B 
Para el efecto principal de B: Fc  ~ F gl  B  ,gl  Error  
CM  Error 

CM  AB 
Para el efecto de la interacción AB: Fc  ~ F gl  AB  ,gl  Error  
CM  Error 

6. Metodología del Experimento Factorial

Etapa 1:

Se realiza la prueba de hipótesis de interacción.

Etapa 2:

Se realiza el análisis de los efectos simples, siempre y cuando la prueba de hipótesis de


la interacción resulte significativa. Caso contrario, se realiza el análisis de efectos
principales.

7. Experimento factorial p  q con dos factores en DCA

Ejemplo de aplicación 2:

El departamento de nutrición humana y alimentos de una reconocida universidad realizó


un estudio sobre la estabilidad de la vitamina C en el concentrado del jugo de naranja
congelado reconstituido, que se almacena en un refrigerador durante un periodo de hasta
una semana. Se probaron dos marcas de concentrados de jugo de naranja congelado
reconstituido con tres períodos distintos, los cuales se refieren al número de días desde
que se mezcló el jugo hasta que se probó (0 días, 3 días y 7 días). Se registraron los
resultados, en miligramos de ácido ascórbico por litro. Se decidió usar un Diseño
Completamente al Azar (DCA) con 4 repeticiones para cada uno de los tratamientos.

Periodo (días)
b1 (0) b2 (3) b3 (7)
54.6 49.4 42.7
Marca a1 51.8 42.8 40.4
56.2 49.2 48.8
48.5 53.2 47.6
Marca
56.0 48.8 55.2
Marca a2 49.6 44.0 48.0
48.0 44.0 50.0
48.4 42.4 49.2

156
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Modelo Aditivo Lineal

El modelo aditivo lineal de un arreglo factorial con 2 factores conducido en un DCA es:

Yijk     i   j   ij   ijk ; i  1, , p  p  2 ; j  1, , q  q  3 ; k  1, , rij  rij  r  4


ij

Yijk  Cantidad de ácido ascórbico obtenida con la i-ésima marca de concentrado de


jugo y el j-ésimo período en la k-ésima repetición.
  Efecto de la cantidad de ácido ascórbico media general.
i  Efecto de la i-ésima marca.
 j  Efecto del j-ésimo periodo.
 ij  Efecto de la interacción entre la i-ésima marca y el j-ésimo periodo.
ij  Efecto de la media de la combinación (marca-período) ij.
 ijk  Efecto del error experimental obtenida con la i-ésima marca de concentrado de
jugo y el j-ésimo período en la k-ésima repetición.

Estimación de efectos

La estimación de los efectos de las componentes del modelo se obtiene por el método
de mínimos cuadrados. La suma de cuadrados del error (SCE) es:

p q rij p q rij

Q    ijk2   Yijk     i   j   ij 


2

i 1 j 1 k 1 i 1 j 1 k 1
 

Minimizando la SCE y teniendo en cuenta las siguientes restricciones:

p q p q

i  0,   j  0,   ij  0,


i 1 j 1 i 1
  
j 1
ij
0

Se obtienen los siguientes resultados:

ˆ  Y...
ˆi  Yi..  Y...
ˆ j  Y. j .  Y...
ˆ ˆij  Yij .  Yi..  Y. j .  Y...

ˆ ij  Yij .
ˆijk  Yijk  Yij .

157
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Tabla de Totales
Yij .
b1 b2 b3 Yi..
a1 211.1 194.6 179.5 585.20
a2 202.0 179.2 202.4 583.6
Y. j . 413.1 373.8 381.9 Y...  1168.8

Tabla de Promedios
Yij .
Yi..
b1 b2 b3
a1 52.775 48.650 44.875 48.767
a2 50.500 44.800 50.600 48.633
Y. j . 51.6375 46.725 47.7375 Y...  48.7

Y... 1168.8
La media estimada. ˆ  Y...    48.7
pqr 2  3  4

Los efectos estimados de los niveles del factor A:

ˆ1  Y1..  Y...  48.767  48.7  0.067


ˆ 2  Y2..  Y...  48.633  48.7  0.067

Los efectos estimados de los niveles del factor B:

ˆ1  Y.1.  Y...  51.6375  48.7  2.9375


ˆ2  Y.2.  Y...  46.725  48.7  1.975
ˆ3  Y.3.  Y...  47.7375  48.7  0.9625
ˆ ˆ  Y  Y  Y  Y  50.5  48.633  51.6375  48.7  1.0705
 21 21. 2.. .1. ...

La media estimada del tratamiento ij=23

Y23. 202.4
ˆ 23  Y23.    50.6
r 4

Efecto estimado de la interacción entre el nivel 2 del factor A y el nivel 1 del factor B

ˆ ˆ21  Y21.  Y2..  Y.1.  Y...  50.5  48.633  51.6375  48.7  1.0705


158
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

El efecto estimado del error 134

ˆ134  Y134  Y13.  47.6  44.875  2.725

Gráfico de interacción

Interpretación:

En el gráfico de marca versus período se puede observar que las rectas


correspondientes a los períodos de 0 días (período 1) y 3 días (período 2) de
almacenamiento tienen pendientes similares pero diferentes a la pendiente de la recta
correspondiente al período de 7 días (período 3). La intersección entre la recta del
período 3 con las rectas de los períodos 1 y 2 evidencian una sospecha sobre una posible
interacción entre la marca del jugo de naranja y el período de almacenamiento.

Análisis de Variancia

La fuente de variabilidad total se descompone de la siguiente manera:

Variabilidad (Total) = Variabilidad (Tratamientos) + Variabilidad (Error)

Donde:

Variabilidad (Tratamientos) = Var (Factor A) + Var (Factor B) + Var (Interacción AB)


A continuación se plantean y realizan los cálculos de los diferentes elementos que forman
parte del ANVA. Para ello, se utilizan los datos del Ejemplo 2:

159
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

2
 p q r 
  Yijk  2 2
TC     Y...  1168.8  56920.56
i 1 j  k 

pqr pqr 2  3  4

SC  Total    Yijk  Y...    Yijk2  TC


p q r p q r
2

i 1 j  k  i 1 j  k 
p q r
SC  Total    Yijk2  TC  54.62  49.42   49.22  TC  445.86
i 1 j  k 

La variabilidad de tratamientos es equivalente a la variabilidad del efecto combinado de


los factores A y B y se calcula de la siguiente manera:

p q
Yij2.
SC  Combinado AB     TC 
i 1 j  r
211.12  194.62  179.52  2022  179.22  202.42
  TC  213.195
4

Se demuestra que:

SC  Combinado AB  SC  A  SC  B   SC  AB 

La suma de cuadrados de A, B y la interacción AB se calculan de la siguiente manera:

p
Yi..2 585.22  583.62
SC  A    TC   TC  0.1067
i 1 qr 3 4

q
Y. 2j . 413.12  373.82  381.92
SC  B     TC   TC  107.6475
j 1 pr 2 4

SC  AB   SC  Combinado AB   SC  A  SC  B 
 213.195  0.1067  107.6475  105.4408

La suma de cuadrados del error se calcula de la siguiente manera:

SC  Error   SC  Total   SC  Combinado AB  445.86  213.195  232.665

160
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Cuadro ANVA

F.V. GL SC CM Fc
A p-1=1 0.1067 0.1067 0.0083
B q-1=2 107.6475 53.8238 4.1641
AB (p-1)(q-1) = 2 105.4408 52.7204 4.0787 (*)
Error Exp. pq(r-1) = 18 232.665 12.9258
Total pqr-1 = 23 445.86

El coeficiente de variabilidad para este experimento es:

CME 12.9258
cv   100  7.3824%
Y... 48.7

Reporte del programa Minitab 17:

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Marca 1 0.107 0.1067 0.01 0.929
Periodo 2 107.648 53.8238 4.16 0.033
Marca*Periodo 2 105.441 52.7204 4.08 0.035
Error 18 232.665 12.9258
Total 23 445.860

Prueba de hipótesis de la interacción AB

1. Planteamiento de hipótesis

H 0 :  ij  0 , i  1, 2 ; j  1, 2,3


H1 :  ij  0 , para al menos algún i, j

2. Nivel de significación   0.05

3. Estadístico de prueba

CM  AB 
Para el efecto de la interacción AB: Fc   4.0787 ~ F  2,18 .
CM  Error 

4. Criterio de Decisión

Como Fc  4.0787 es mayor a F  0.95,2,18  3.55 entonces se rechaza H0

161
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

5. Conclusión

A un nivel de significación del 5% existe evidencia estadística para rechazar H 0.


Luego se puede afirmar que existe interacción entre la marca de concentrado de
jugo de naranja y el período de almacenamiento.

Análisis de Efectos Simples

1. Para el efecto simple de A en el nivel j de B

Hipótesis
H 0 : 1 j .  2 j .    pj .
H1 : Al menos un ij . es diferente.

Sumas de cuadrados
Yij2. Y. 2j .
 
p
SC Ab j   
i 1 r pr

2. Para el efecto simple de B en el nivel i de A

Hipótesis
H 0 : i1.  i 2.   iq.
H1 : Al menos un ij . es diferente.

Sumas de cuadrados
q
Yij2.
Yi..2
SC  Bai    
j 1 r qr

Pruebas de hipótesis para los efectos simples

1. Planteamiento de hipótesis

A en b1 : H 0 : 11.  21. A en b2 : H 0 : 12.  22. A en b3 : H 0 : 13.  23.


H1 : 11.  21. H1 : 11.  22. H1 : 13.  23.

B en a1 : H 0 : 11.  12.  13. B en a2 : H 0 : 21.  22.  23.


H1 : Al menos un 1 j . es  j  1, 2,3 H1 : Al menos un 2 j . es  j  1,2,3

2. Nivel de significación   0.05

162
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

3. Estadísticos de Prueba y Criterios de Decisión

Cálculos
p
Yi1.2 Y.1.2 211.12  2022 413.12
SC  Ab1        10.35125
i 1 r pr 4 2 4

p
Yi 2.2 Y.2.2 194.62  179.22 373.82
SC  Ab2        29.645
i 1 r pr 4 2 4

p
Yi 3.2 Y.3.2 179.52  202.42 381.92
SC  Ab3        65.55125
i 1 r pr 4 2 4

q
Y12j. Y1..2 211.12  194.62  179.52 585.22
SC  Ba1        124.90167
j 1 r qr 4 3 4

q
Y22j . Y2..2 2022  179.22  202.42 583.62
SC  Ba2        88.18667
j 1 r qr 4 3 4

Cuadro ANVA de efectos simples

F.V GL SC CM Fc Ftab
Ab1 p-1=1 10.35125 10.35125 0.8008 (NS) F  0.95,1,18  4.41
Ab2 p-1=1 29.64500 29.64500 2.2935 (NS) F  0.95,1,18  4.41
Ab3 p-1=1 65.55125 65.55125 5.0713 (*) F  0.95,1,18  4.41
Ba1 q-1=2 124.90167 62.45084 4.8315 (*) F  0.95, 2,18  3.55
Ba2 q-1=2 88.18667 44.09334 3.4113 (NS) F  0.95, 2,18  3.55
Error Exp. pq(r-1)=18 232.665 12.9258

4. Conclusión

A un nivel de significación del 5% se puede afirmar que:

 No existen diferencias significativas entre las marcas de concentrado de jugo de


naranja tanto a los 0 como a los 3 días de almacenamiento, pero que sí existe
diferencia significativa entre las marcas a los 7 días, respecto al contenido medio
de ácido ascórbico.

 Al utilizar la marca 1 de concentrado de jugo de naranja, al menos uno de los


períodos de almacenamiento presenta diferencias significativas con los demás,

163
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

pero al utilizar la marca 2 no se presentaron diferencias significativas entre los


períodos de almacenamiento, respecto al contenido medio de ácido ascórbico.

8. Pruebas de comparación de medias en un experimento factorial DCA

Pruebas de comparación de medias de efectos principales

Las desviaciones estándar son las siguientes:

Prueba Factor A Factor B


2CME 2CME
t y DLS Sd  Sd 
qr pr
CME CME
Tukey Sd  Sd 
qr pr

Pruebas de comparación de medias de efectos simples

Las desviaciones estándar son las siguientes:

Prueba Factor A en b j Factor B en ai


2CME 2CME
t y DLS Sd  r
Sd 
r
CME CME
Tukey Sd  Sd 
r r

Prueba de Comparación de Tukey

En el Ejemplo 2, resultaron significativas las pruebas de los efectos simples Ab3 y Ba1 .
Como el factor A tiene sólo dos niveles no es necesario realizar las pruebas de Tukey
para el efecto simple Ab3 , pero sí para Ba1 .

Realice la prueba de comparaciones múltiples de Tukey para el efecto simple Ba1 . Use
  0.05

1. Planteamiento de hipótesis

H 0 : 11.  12. H 0 : 11.  13. H 0 : 12.  13.


H1 : 11.  12. H1 : 11.  13. H1 : 12.  13.

2. Nivel de significación   0.05

3. Cálculos y Criterios de decisión

164
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

El valor tabular con un nivel de significación de 5%, p = 3 tratamientos y 18


grados de libertad del error experimental es AES(T) = 3.61. La amplitud límite
significativa de Tukey será igual a:

CME 12.9258
ALS T   AES T   3.61  6.4894
r 4

En la siguiente tabla se presentan las tres comparaciones:

Niveles de B con la marca 1 Y1i.  Y1 j. Significancia


1 vs 2 4.125 N.S
1 vs 3 7.900 *
2 vs 3 3.775 N.S

4. Conclusión

A un nivel de significación del 5% se puede afirmar que al analizar el contenido medio


de ácido ascórbico en el concentrado de jugo de naranja de la marca 1, existe
diferencia significativa entre un período de almacenamiento de 0 días con uno de 7
días, pero no existen diferencias significativas entre un período de almacenamiento
de 3 días con los períodos de 0 días y 7 días.

Prueba de Comparación t

Verifique si hay evidencias estadísticas para afirmar que con el periodo de 0 días se
obtiene un promedio de ácido ascórbico que excede en más de 2.5 miligramos por litro
al promedio que se obtiene durante el periodo de 7 días considerando la marca 1 en el
concentrado de jugo de naranja. Use   0.05

1. Planteamiento de hipótesis

H 0 : 11.  13.  2.5


H1 : 11.  13.  2.5

2. Nivel de significación   0.05

3. Estadístico de Prueba

Y11.  Y13.  k 52.775  44.875  2.5


tc  ~ t18  tc   2.1241
2CME 2 12.9258
r 4

4. Criterio de decisión

Como tc  2.1241 es mayor a t(0.95,18) = 1.734 entonces se rechaza H0

165
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

5. Conclusión

A un nivel de significación del 5% existe evidencia estadística para rechazar H 0.


Luego se puede afirmar que con el periodo de 0 días se obtiene un promedio de
ácido ascórbico que excede en más de 2.5 mg por litro al que se obtiene durante
el periodo de 7 días, considerando la marca 1 en el concentrado de jugo de
naranja.

9. Experimento factorial p  q con dos factores en DBCA

Ejemplo de Aplicación 3:

En un experimento se deseaba determinar el efecto de cuatro variedades de lechuga (


a1 , a2 , a3 y a4 ) y de dos tipos de siembra ( b1 y b2 ) sobre el rendimiento de lechugas (en
Kg/parcela). Para ello se estableció un experimento factorial conducido en DBCA.

Los datos se presentan a continuación:

a1 a2 a3 a4
Bloques Y..k
b1 b2 b1 b2 b1 b2 b1 b2
I 158 152 144 154 154 150 140 145 1197
II 151 148 145 132 132 135 125 130 1098
III 163 156 142 154 160 162 150 138 1225
IV 154 163 152 155 151 140 140 139 1194
Yij . 626 619 583 595 597 587 555 552 4714

Modelo Aditivo Lineal

Presente el modelo aditivo lineal e interprete cada uno de sus componentes en términos
del problema.

Yijk    i   j   ij   k   ijk ; i  1, , p ; j  1, , q ; k  1, ,b .

En el problema p  4 , q  2 , b  4 .

Donde:
Yijk  rendimiento obtenido con la i-ésima variedad de lechuga y el j-ésimo tipo de
siembra en el k-ésimo bloque.
  Es el efecto del rendimiento medio general.
i  Es el efecto de la i-ésima variedad.

166
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

 j  Es el efecto del j-ésimo tipo de siembra


 ij  Es el efecto de la interacción de la i-ésima variedad y el j-ésimo tipo de siembra
 k = Es el efecto del k-ésimo bloque.
 ijk  Es el efecto del error experimental obtenido con la i-ésima variedad de lechuga y
el j-ésimo tipo de siembra en el k-ésimo bloque.

Estimación de los efectos

Halle los efectos estimados del rendimiento medio de lechuga, variedades, tipos de
siembra,  32 , bloques y  214 .

Estimación del rendimiento medio de lechuga

Y... 4714
ˆ  Y...    147.3125
pqb 4  2  4
 
Cuadro de Totales Yij . y promedios
a1 a2 a3 a4 Y. j .

b1 626 583 597 555 2361

b2 619 595 587 552 2353

Yi.. 1245 1178 1184 1107 4714

Yi.. 155.625 147.250 148.000 138.375 147.3125

Estimación de los niveles del factor A

1245
ˆ1  Y1..  Y...   147.3125  8.3125
8
1178
ˆ 2  Y2..  Y...   147.3125  0.0625
8
1184
ˆ3  Y3..  Y...   147.3125  0.6875
8
1107
ˆ 4  Y4..  Y...   147.3125  8.9375
8

La suma de los valores estimados da cero.

Estimación de los niveles del factor B

2361
ˆ1  Y.1.  Y...   147.3125  0.25
16
2353
ˆ2  Y.2.  Y...   147.3125  0.25
16
167
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

La suma da cero.

Estimación de la interacción del nivel 3 del factor A con el nivel 2 del factor B

587 1184 2353


ˆ ˆ32  Y32.  Y3..  Y.2.  Y... 
    147.3125  1
4 8 16

Estimación de los efectos de los bloques:

1197
 1  Y..1  Y...   147.3125  2.3125
8
1098
 2  Y..2  Y...   147.3125  10.0625
8
1225
 3  Y..3  Y...   147.3125  5.8125
8
1194
 4  Y..4  Y...   147.3125  1.9375
8

La suma da cero.

Estimación del error  214 .


583 1194 4714
ˆ214  Y214  Y21.  Y..4  Y...  152     4.3125
4 8 32

Gráfica de interacción

168
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Interpretación:

En el gráfico de siembra versus variedad se puede observar que las rectas


correspondientes a las variedades 1, 3 y 4 tienen pendiente similar y no se intersectan.
Sin embargo la pendiente correspondiente a la variedad 2 es distinta a las otras y su
recta se intersecta con la obtenida de la variedad 3. Esto no evidencia un cambio
predominante en el rendimiento medio de lechuga para las variedades al utilizar uno de
los tipos de siembra, lo que corrobora una sospecha sobre la ausencia de interacción
entre los factores en estudio: variedades de lechuga y tipo de siembra.

Análisis de Variancia

Realice el ANVA. Use   0.01.

p q
Y...2 b
47142
SC Total    Y   158  151  ...  139 
2 2
2 2
 3166.875
4 2 4
ijk
i 1 j 1 k 1 pqb

p q
Yij2. 6262 5522 47142
SC  Comb. AB     TC   ...    1233.375
i 1 j 1 b 4 4 4 2 4

p
Yi..2 12452 11072 47142
SC  A    TC      1195.625
i 1 qb 2 4 2 4 4 2 4

q
Y. 2j . 23612 23532 47142
SC  B     TC    2
j 1 pb 4 4 4 4 4 2 4

SC  AB   SC  Comb. AB   SC  A  SC  B   35.75

Y..2k b
11972 11942 47142
SC  Bloques     TC      1153.125
k 1 pq 4 2 4 2 4 2 4

SC  Error   SC Total   SC  Comb. AB   SC  Bloques   780.375

Cuadro ANVA

F.V GL SC CM Fc
Bloques b-1=3 1153.125 384.375 10.346 (**)
A p-1=3 1195.625 398.542 10.725 (**)
B q-1=1 2.000 2.000 0.054 (ns)
AB (p-1)(q-1) =3 35.75 11.917 0.321 (ns)
Error Exp. (pq-1)(b-1) = 21 780.375 37.161
Total pqb-1 = 31 3166.875

169
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

El coeficiente de variabilidad del experimento es:

CME 37.161
cv   100  4.138%
Y... 147.3125

Reporte del programa Minitab 17:

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Variedad 3 1195.63 398.542 10.72 0.000
Siembra 1 2.00 2.000 0.05 0.819
Variedad*Siembra 3 35.75 11.917 0.32 0.810
Bloque 3 1153.12 384.375 10.34 0.000
Error 21 780.37 37.161
Total 31 3166.88

Prueba de hipótesis de la interacción AB

1. Planteamiento de hipótesis

H 0 :  ij  0 , i  1, 2,3, 4 ; j  1, 2


H1 :  ij  0 , para al menos algún i, j

2. Nivel de significación   0.01

3. Estadístico de prueba

CM  AB 
Para el efecto de la interacción AB: Fc   0.32 ~ F 3, 21 .
CM  Error 

4. Criterio de Decisión

Como Fc  0.32 es menor a F  0.99,3, 21  4.87 entonces no se rechaza H0

5. Conclusión
A un nivel de significación del 5% no existe evidencia estadística para rechazar
H0. Luego no se puede afirmar que existe interacción entre la variedad de lechuga
y el tipo de siembra

170
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Pruebas de hipótesis para los efectos principales:

Efecto principal de A

1. Planteamiento de hipótesis

H 0 :  i  0 , i  1, 2,3, 4
H1 :  i  0 , para al menos algún i

2. Nivel de significación   0.01

3. Estadístico de prueba

CM  A
Para el efecto principal de A: Fc   10.72 ~ F 3,21 .
CM  Error 

4. Criterio de Decisión
Como Fc  10.72 es mayor a F  0.99,3, 21  4.87 entonces se rechaza H0

5. Conclusión
A un nivel de significación del 1% existe evidencia estadística para rechazar H0.
Luego se puede afirmar que al menos una de las variedades de lechuga obtiene
un rendimiento distinto a las demás

Efecto principal de B

1. Planteamiento de hipótesis

H 0 :  j  0 , j  1, 2
H1 :  j  0 , para al menos algún j

2. Nivel de significación   0.01

3. Estadístico de prueba

CM  B 
Para el efecto principal de B: Fc   0.05 ~ F 1, 21
CM  Error 

4. Criterio de Decisión
Como Fc  0.05 es menor a F  0.99,1,21  8.02 entonces no se rechaza H0

5. Conclusión

A un nivel de significación del 1% no existe evidencia estadística para rechazar


H0. Luego no se puede afirmar que con los dos tipos siembra se obtengan
rendimientos distintos.

171
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

10. Pruebas de comparación de medias en un experimento factorial DBCA

Pruebas de comparación de medias de efectos principales

Las desviaciones estándar son las siguientes:

Prueba Factor A Factor B


2CME 2CME
t y DLS Sd  Sd 
qb pb
CME CME
Tukey Sd  Sd 
qb pb

Pruebas de comparación de medias de efectos simples

Las desviaciones estándar son las siguientes:

Prueba Factor A en b j Factor B en ai


2CME 2CME
t y DLS Sd  b
Sd 
b
CME CME
Tukey Sd  Sd 
b b

Prueba de Comparación de Tukey

Use la prueba de Tukey para evaluar si existen diferencias significativas entre las
variedades de lechuga. Use   0.05

1. Planteamiento de hipótesis

H 0 : 1..  2.. H 0 : 1..  3.. H 0 : 1..   4..


H1 : 1..  2.. H1 : 1..  3.. H1 : 1..   4..
H 0 : 2..  3.. H 0 : 2..  4.. H 0 : 3..   4..
H1 : 2..  3.. H1 : 2..  4.. H1 : 3..   4..

2. Nivel de significación   0.05

3. Cálculos y Criterios de Decisión

Con   0.05 , p= 4 niveles del factor medicamento y GLE=21 : AES(T)=3.96

172
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

CME 37.161
ALS T   AES T    3.96  8.535
qb 2 4

Comparaciones Yi..  Y j.. Significancia


1y2 155.625  147.250  8.375 ns
1y3 155.625  148.000  7.625 ns
1y4 155.625  138.375  17.25 *
2y3 147.250  148.000  0.75 ns
2y4 147.250  138.375  8.875 *
3y4 148.000  138.375  9.625 *

4. Conclusión

A un nivel de significación del 1% no existe evidencia estadística para rechazar


H0. Luego se puede afirmar que al analizar el rendimiento medio de lechuga
existen diferencias significativas entre la variedad 4 con las variedades 1, 2 y 3,
pero no existen diferencias significativas entre la variedad 3 con las variedades 1
y 2, ni entre la variedad 1 con la variedad 2

Reporte del programa Minitab 17:

Comparaciones por parejas de Tukey: Variedad

Agrupar información utilizando el método de Tukey y una confianza de 95%

Variedad N Media Agrupación


a1 8 155.625 A
a3 8 148.000 A
a2 8 147.250 A
a4 8 138.375 B

Las medias que no comparten una letra son significativamente diferentes.

Pruebas simultáneas de Tukey para diferencias de las medias

Diferencia
de Variedad Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado

a2 - a1 -8.38 3.05 (-16.87, 0.12) -2.75 0.054


a3 - a1 -7.63 3.05 (-16.12, 0.87) -2.50 0.089
a4 - a1 -17.25 3.05 (-25.74, -8.76) -5.66 0.000
a3 - a2 0.75 3.05 (-7.74, 9.24) 0.25 0.995
a4 - a2 -8.88 3.05 (-17.37, -0.38) -2.91 0.039
a4 - a3 -9.63 3.05 (-18.12, -1.13) -3.16 0.023

Nivel de confianza individual = 98.89%

173
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Prueba de Comparación DLS

Utilice la prueba DLS para determinar si las variedades 1 y 3 difieren significativamente


al analizar el rendimiento medio de lechuga. Use   0.05

1. Planteamiento de hipótesis

H 0 : 1..  3..
H1 : 1..  3..

2. Nivel de significación   0.05

3. Cálculos y Criterios de Decisión

2CME 2  37.161
DLS  t 
 t0.975,21  6.3398
 2

1 ,GLE 

qb 24
2.08

Como 155.625  148  7.625  6.3398 entonces se rechaza H0.

4. Conclusión

A un nivel de significación del 5% existe evidencia estadística para rechazar H 0.


Luego se puede afirmar que existe diferencia significativa entre la variedad 1 y 3
al analizar el rendimiento medio de lechuga.

Referencias de tesis- Experimento factorial

Facultad Titulo Año Autor


Producción de camote Ipomosa butatas (L.Lam)
bajo condiciones de uso de aguas salidas, suelo
Agrìcola de areana y riego por goteo 1992 Emiliano Sifuentes Minaya
Influencia de la alimentaciòn con pastos
naturales y pastos cultivados en alpacas tuls Cecilia Claudia Turìn
Zootecnia huacaya de 6 y 18 meses de edad 2008 Canchaya
Efecto de la adición de suplementos enzimáticos
para dietas a base de soya, en el
Zootecnia comportamiento productivo de pollos de carne 1998 Antonio Kalinowski Herrera

174
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejercicios propuestos

1. Un ingeniero ambiental está interesado en evaluar la concentración de SO2 (en ppm)


proveniente de una fuente emisora industrial. Él aplicó un diseño experimental
conducido en DCA con 4 repeticiones. Para ello utilizó sensores que se colocaron al
azar a 3 distancias (A) viento abajo de la chimenea industrial (a1=500 m, a2=1000
m y a3=1500 m) y a dos alturas (B) diferentes (b1=100 m y b2=200 m).

Algunos resultados se muestran a continuación:

Y 2
ijk  39576.32

Cuadro de promedios

b1 b2 Total
a1 24.3 40.925 32.6125
a2 36.4 67.675 52.0375
a3 0.675 20.925 10.8
Total 20.4583 43.175 31.8167

Cuadro de totales

b1 b2 Total
a1 97.2 163.7 260.9
a2 145.6 270.7 416.3
a3 2.7 83.7 86.4
Total 245.5 518.1 763.6

Asumiendo el cumplimiento de supuestos responda las siguientes preguntas

a. Complete el siguiente cuadro ANVA y realice la prueba de hipótesis más


importante. Use   0.05 .

Fuente GL SC CM Fcal
Distancia 3404.9
Altura 1 3096.3
Distancia*Altura
Error 18
Total

b. ¿Se pueden considerar a la distancia y a la altura factores significativos al


analizar la concentración de SO2? Use lo obtenido en a), para realizar las
pruebas estadísticas más adecuadas a un   0.05
c. El ingeniero ambiental afirma que a una altura de 200 m. la concentración de
SO2 que capta el sensor es menor que cuando se usa una altura de 100 m. ¿Es

175
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

cierta la afirmación del ingeniero? Realice la prueba estadística más adecuada.


Use   0.05
d. Realice todas las comparaciones simultáneas de a pares posibles para el factor
distancia. Use la siguiente salida Minitab y un   0.05

Comparaciones por parejas de Tukey: Distancia

Pruebas simultáneas de Tukey para diferencias de las medias

Diferencia
de Distancia Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado
2 - 1 19.42 8.45 (-2.15, 41.00) 2.30 0.082
3 - 1 -21.81 8.45 (-43.39, -0.24) -2.58 0.047
3 - 2 -41.24 8.45 (-62.81, -19.66) -4.88 0.000

Nivel de confianza individual = 98.00%

2. Se realizó un experimento en piñas de variedad Hawaiana donde se evaluó el efecto


de tres dosis de nitrógeno y dos tipos de manejo en parcelas de 30 m 2 El interés fue
evaluar el porcentaje de grados brix.

A: Dosis de nitrógeno (a1=50, a2=80 y a3=100 kg. N/Ha.)


B: Manejos (b1=convencional y b2=orgánico)

Los datos registrados se presentan en la siguiente tabla:

a1 a2 a3
b1 b2 b1 b2 b1 b2
23.4 23.1 22.2 18.4 19.6 23.4
22.4 20.9 24.4 17.5 19 20.8
24.4 18.1 26.5 22.1 18 21.5
23.4 20.7 24.4 19.3 18.9 21.9

Luego de verificar los supuestos básicos se obtuvo el siguiente reporte en


Minitab 17:

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Manejo 1 14.73 14.727 6.53 0.020
Abono 2 13.25 6.625 2.94 0.079
Manejo*Abono 2 68.92 34.462 15.27 0.000
Error 18 40.62 2.257
Total 23 137.52

176
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

a. Presente el modelo aditivo lineal e interprete cada uno de sus componentes en


términos el enunciado.
b. Interprete el gráfico de interacción.
c. Pruebe si existe interacción entre el tipo de manejo y la dosis de nitrógeno. Use
  0.05
d. Use lo obtenido en c para realizar el análisis correspondiente. Use   0.05
e. ¿Se puede afirmar que cuando las piñas reciben una dosis de nitrógeno de 80
Kg, el porcentaje medio de grados brix con el manejo convencional es mayor que
el manejo orgánico en más de 2%? Use   0.05
f. Según especialistas se recomienda el manejo orgánico. Sugiera las condiciones
de abono nitrogenado bajo las cuales se maximiza el porcentaje de grados brix.
Realice la prueba estadística más adecuada con un   0.05 .

3. Un investigador realizó un experimento factorial para evaluar el rendimiento de arroz


obtenido con dos dosis de potasio (a1=9.5 kg/ha y a2=12 kg/ha) y tres dosis de
fertilizantes nitrogenados (b1=9 kg/ha, b2=12 kg/ha y b3=18 kg/ha). El experimento
se ejecutó en 4 diferentes tipos de suelo. Se sabe que se cumplieron los supuestos
necesarios. Los resultados en t/ha son los siguientes:

Dosis de potasio
9.5 kg/ha (a1) 12 kg/ha (a2)
Dosis de Fertilizante Dosis de Fertilizante
Nitrogenado Nitrogenado
Tipo de 9 kg/ha 12 kg/ha 18 kg/ha 9 kg/ha 12 kg/ha 18 kg/ha
suelo (b1) (b2) (b3) (b1) (b2) (b3)
1 2.0 2.7 2.7 2.1 2.9 3
2 2.0 2.5 2.4 2.2 2.7 3.2
3 2.7 2.4 2.9 2 3.2 3.5
4 2.1 2.9 2.7 2.4 3.2 3.3

177
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Cuadro de totales

b1 b2 b3 Total
a1 8.8 10.5 10.7 30
a2 8.7 12 13 33.7
Total 17.5 22.5 23.7 63.7

Cuadro de promedios

b1 b2 b3 Total
a1 2.2 2.625 2.675 2.5
a2 2.175 3 3.25 2.8083
Total 2.1875 2.8125 2.9625 2.6542

e. Presente el modelo aditivo lineal e interprete cada uno de sus componentes en


términos el enunciado.
f. Complete el siguiente cuadro ANVA y realice la prueba de hipótesis más
importante. Use   0.05 .

F.V G.L SC CM Fcal


Potasio (A) 1 0.5704
Nitrógeno (B) 2.7033
Nitrógeno*Potasio (AB)
Suelo 3 0.1215
Error
Total 23

g. Según el resultado obtenido en b, realice las pruebas de hipótesis de efectos


simples o principales para el factor dosis de potasio. Use   0.05 .
h. Suponga que el investigador afirma que al aplicar una dosis de fertilizante de
nitrógeno de 18 kg/ha, el rendimiento medio de arroz obtenido con una dosis de
12 Kg/ha de potasio es superior al obtenido con una dosis 9.5 Kg/ha. Use
  0.05 .

4. El gerente de una granja avícola desea evaluar la ganancia de peso en pollos,


obtenida de aplicar distintos tipos de alimentación (a1, a2, a3) y dosis de proteína
(b1, b2, b3) en sus raciones diarias. Para realizar dicho estudio se utilizaron pollos
de raza ROS 308 provenientes de una incubadora comercial. La crianza se realizó
en una caseta de ambiente natural y la aleatorización de las combinaciones del tipo
de alimentación y la dosis de proteína se realizó por piso donde se encontraban las
aves.

178
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Los datos registrados acerca de la ganancia de peso (en Kg.) de los pollos se
presentan en la siguiente tabla:

a1 a2 a3
Piso b1 b2 b3 b1 b2 b3 b1 b2 b3
1 2.2 2 2.6 2.1 2.3 2.9 2 2 2.5
2 2 1.9 2.9 2.3 2.5 2.8 2.2 1.9 2.6
3 2.1 2.4 2.8 2.2 2.7 3.2 2.2 2.3 2.7
Totales 6.3 6.3 8.3 6.6 7.5 8.9 6.4 6.2 7.8

Donde:

a1: Alimentación en 2 fases a2: Alimentación en 3 fases a3: Alimentación en 4 fases

b1: Dosis baja b2: Dosis media b3: Dosis alta

a. Asumiendo el cumplimiento de supuestos, use la siguiente salida de Minitab 17


para realizar la prueba de hipótesis más importante. Use   0.05
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Alimentacion 2 0.4230 0.21148 11.83 0.001
Proteina 2 2.1474 1.07370 60.08 0.000
Alimentacion*Proteina 4 0.1437 0.03593 2.01 0.141
Piso 2 0.2407 0.12037 6.74 0.008
Error 16 0.2859 0.01787
Total 26 3.2407

b. Suponga que el gerente desea saber si con al menos un tipo de alimentación se


obtienen resultados diferentes en la ganancia de peso de los pollos. Use lo
obtenido en a), para realizar la prueba estadística más adecuada a un   0.05
c. El gerente afirma que la mayor ganancia media de peso se obtiene al usar una
alimentación en 4 fases. ¿Es cierta su afirmación? Use la siguiente salida Minitab
para realizar la prueba estadística más adecuada y de sus conclusiones a un
  0.05

Comparaciones por parejas de Tukey: Respuesta = Ganancia,


Término = Alimentacion

Pruebas simultáneas de Tukey para diferencias de las medias

Diferencia de
Alimentacion Diferencia EE de IC simultáneo de Valor T Valor p
niveles de medias diferencia 95%

2 - 1 0.2333 0.0630 ( 0.0707, 0.3960) 3.70 0.005


3 - 1 -0.0556 0.0630 (-0.2182, 0.1071) -0.88 0.659
3 - 2 -0.2889 0.0630 (-0.4515, -0.1262) -4.58 0.001

179
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Referencias

R.G.D. Steel, & Torrie, J.H.(1985). Bioestadística Principios y Procedimientos. McGraw


Hill, ed Bogotá, Colombia.

Montgomery, D. C. (2005). Diseño y análisis de experimentos (2nd. Ed). México: Limusa


Wiey.

Kuehl, R. O., (2001). Diseño de experimentos: principios estadísticos para el diseño y


análisis de investigaciones. (2nd Ed). International Thomson Editores, S.A. de C.V.,
Mexico, DF.

Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of
data analysis. Australia: Duxbury/Thomson Learning

180
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Capítulo VIII

ANÁLISIS DE CORRELACIÓN
CORRELACIÓN DE VARIABLES CUANTITATIVAS

1. Coeficiente de Correlación de Pearson

El coeficiente de correlación de Pearson es una medida de la asociación existente entre


dos variables cuantitativas. Este coeficiente toma valores desde -1 hasta 1. Para
interpretar un coeficiente de correlación tenga en cuenta lo siguiente:

a) El valor de r es independiente de las unidades en que se midan x e y


b) r =1: significa una perfecta correlación positiva, es decir, todos los puntos caen
sobre una línea con pendiente positiva.
c) r = 0: significa no hay correlación. Es decir, las variables son independientes
d) r = -1: significa una perfecta correlación negativa, es decir, todos los puntos caen
sobre una línea con pendiente negativa.
e) r mide la fuerza de una relación lineal
f) Se usa cuando los datos están medidos en una escala de intervalo o de razón.

El coeficiente de correlación es la raíz cuadrada del coeficiente de determinación con el


signo de b1 (coeficiente de regresión).

Correlaciones:

Si r =0 nula
Si r > 0 y r < ± 0.10 Casi nula
Si r ≥ ± 0,10 y r < ± 0,20 Muy baja
Si r ≥ ± 0,20 y r < ± 0,40 Baja
Si r ≥ ± 0,40 y r < ± 0,60 Media
Si r ≥ ± 0,60 y r < ± 0,80 Alta
Si r ≥ ± 0,80 y r < ± 1 Muy alta
Si r =± 1 Perfecta

El coeficiente de correlación está dada por:

SP(XY)
𝑟=
√𝑆𝐶(𝑋)𝑆𝐶(𝑌)
Siendo:

SP(XY): suma de productos corregidos de X e Y.


SC(X): suma de cuadrados corregidos de X.
SC(Y): suma de cuadrados corregidos de Y.

181
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

𝑛
(∑ 𝑋𝑖 )( ∑𝑌𝑖 )
𝑆𝑃(𝑋𝑌) = ∑ 𝑋𝑖 𝑌𝑖 −
𝑛
𝑖=1

𝑛
2
(∑ 𝑋𝑖 ) 2
𝑆𝐶(𝑋) = ∑ 𝑋 𝑖 −
𝑛
𝑖=1
𝑛
2
(∑ 𝑌𝑖 ) 2
𝑆𝐶(𝑌) = ∑ 𝑌 𝑖 −
𝑛
𝑖=1

Prueba de hipótesis para el coeficiente de correlación de Pearson

Hipótesis:

H0: ρ = 0 (No existe correlación entre X e Y)


H1: ρ ≠ 0 (Si existe correlación entre X e Y)

Estadístico de prueba:

r
tc  ~ t( n 2)
(1  r ) / (n  2)
2

Regla de Decisión:

La hipótesis nula se rechaza con un nivel de significación α si:

t c  t  / 2,n2  o t c  t 1 / 2,n2 

Usando p-valor:

Si p-valor ≤ α , entonces se RHo y se acepta la H1.

Por lo tanto si existe correlación lineal (asociación) entre las variables X e Y

Ejemplo de aplicación 1
Un ingeniero pesquero está interesado en evaluar 12 ejemplares de trucha en un estudio
de índole acuícola, con la finalidad de verificar si existe una correlación entre la longitud
del cuerpo y su ancho.

Longitud 66 63 64 76 76 60 73 69 67 65 70 72
Ancho 6 7 6 7 4 3 4 5 4 5 9 7

Asumiendo de que las variables cumplen el supuesto de normalidad, responda las


siguientes preguntas:

182
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

a. Estime e interprete el coeficiente de correlación de Pearson para la longitud y el ancho


de las truchas.

Cálculos previos:
X: Longitud
Y: Ancho

∑x=821 ∑y=67 ∑x2=56461 ∑y2=407 ∑xy=4601

SP(XY) 17.0833
r   0.1746
SC ( X ) SC (Y ) 290.9167(32.9167)

Existe una muy baja correlación positiva entre la longitud y el ancho de las truchas.

b. Realice la prueba estadística más adecuada para verificar si existe correlación entre
la longitud y el ancho de las truchas. Use α=0.05

P1) Planteamiento de hipótesis

H0: ρ = 0 (No existe correlación entre X e Y)


H1: ρ ≠ 0 (Si existe correlación entre X e Y)

P2) Nivel de significación: α=0.05

P3) Estadístico de prueba y desarrollo

r 0.1746
tc    0.5607 ~ t(10)
(1  r ) / (n  2)
2
(1  0.17462 ) / (12  2)

P4) Criterios de decisión

Gráfica de distribución Como t(0.025,10)<tc<t(0.975,10)=2.228


T, df=10
entonces no se rechaza Ho.
0.4

0.3
Densidad

0.2

0.1

0.025 0.025
0.0
-2.228 0 2.228
X

P5) Conclusión
A un nivel de significación del 5% no se rechaza Ho. Luego no se puede afirmar que
exista correlación entre la longitud y el ancho de las truchas.

183
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Reporte Minitab

Correlación: Longitud, Ancho

Correlación de Pearson 0.175


Valor p 0.587

2. Coeficiente de Correlación de Spearman

El coeficiente de correlación de Spearman (1904) es un estimador no paramétrico de la


correlación entre dos variables medidas en una escala al menos ordinal. En la mayoría
de casos se utiliza cuando las variables del análisis son de tipo ordinal o cuando no
cumplen el supuesto de normalidad. La interpretación del valor de este coeficiente es
similar al de Pearson ya que también toma valores entre -1 y 1.

Suponga que se toma una muestra aleatoria bivariada de tamaño n:

(x1, y1), ..., (xn, yn).

Si las variables xi e yi se ordenan en sentido ascendente y se calcula la correlación


muestral de estos ordenamientos, el coeficiente resultante se llama coeficiente de
correlación de orden de Spearman. La formula para calcular este coeficiente es:
n
6 di2
rs  1  i 1

n  n  1
2

Donde:

di = son las diferencias entre los ordenamientos de los distintos n pares de datos.

Prueba de hipótesis de coeficiente de correlación de Spearman

Hipótesis:

H0: No existe correlación entre X e Y


H1: Si existe correlación entre X e Y

Estadístico de prueba:
n
6 di2
rs  1  i 1

n  n  1
2

Regla de Decisión:

Se rechaza Ho si rs < - rs,/2 r, o rs > rs,/2

184
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Nota:
Si n > 30, se puede calcular y utilizar la tabla de la distribución normal
.

Ejemplo de aplicación 2

Se sospecha que la abundancia de la especie de gramínea Poa bulbosa en los pastizales


depende en gran medida de la humedad que hay en el suelo. Para comprobar esta
hipótesis se realizó un muestreo con una cuadrícula de 20 cm de lado obteniéndose una
muestra al azar de 12 cuadriculas de pasto. En cada cuadrícula se midió la cobertura de
la especie y la humedad del suelo mediante un TDR. Ambas son variables cuantitativas
y no se ajustaron una distribución normal.
Realice la prueba estadística más adecuada utilizando un α=0.05

Pasos para hallar rs:

1. Clasificar por jerarquía los valores de X desde 1 hasta n (el número de pares de
valores de X e Y en la muestra).
2. Clasificar por jerarquía los valores de Y desde 1 hasta n.
3. Calcular di, para cada par de jerarquía de observaciones, restando la jerarquía de
Yi de la jerarquía de Xi.
4. Elevar al cuadrado cada di y calcular la suma de los valores elevados al cuadrado.
5. Calcular rs

Obs Cobertura(X) Humedad(Y) Rango (X) Rango (Y) di d i2


1 82 42 2 3 -1 1
2 98 46 6 4 2 4
3 87 39 5 2 3 9
4 40 37 1 1 0 0
5 116 65 10 8 2 4
6 113 88 9 11 -2 4
7 111 86 8 10 -2 4
8 83 56 3 6 -3 9
9 85 62 4 7 -3 9
10 126 92 12 12 0 0
11 106 54 7 5 2 4
12 117 81 11 9 2 4
Suma 52

185
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Solución:

P1) Planteamiento de hipótesis

H0: No existe correlación entre la cobertura de la especie y la humedad del suelo


H1: Existe correlación entre la cobertura de la especie y la humedad del suelo

P2) Nivel de significación: α=0.05

P3) Estadístico de prueba y desarrollo

Calculo de rs

6 x52
rs  1   0,818
12 x 122  1

P4) Criterio de decisión

rs,/2= 0,5804 (2 colas) Ver Tabla 1.

si n= 12 y para =0.05, la tabla de Spearman arroja el valor de rs,/2=0.5804

0.025 de área 0.025 de área

-0.5804 0.5804
Como rs =0.818 es mayor a rs,/2= 0.5804 , entonces se rechaza Ho.

P5) Conclusión

A un nivel de significación del 5% se rechaza Ho. Por lo tanto hay correlación entre la
cobertura de Poa bulbosa y la humedad del suelo.

186
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Tabla 1. Valores tabulares para la prueba de Spearman

n 0.2 0.1 0.05 0.02 0.01 0.002


4 0.8000 0.8000
5 0.7000 0.8000 0.9000 0.9000
6 0.6000 0.7714 0.8286 0.8857 0.9429
7 0.5357 0.6786 0.745 0.8571 0.8929 0.9641
8 0.5000 0.619 0.7143 0.8095 0.8571 0.9286
9 0.4667 0.5833 0.6833 0.7667 0.8167 0.9000
10 0.4424 0.5515 0.6364 0.7333 0.7818 0.8667
11 0.4182 0.5273 0.6091 0.7000 0.7455 0.8364
12 0.3986 0.4965 0.5804 0.6713 0.7273 0.8182
13 0.3791 0.478 0.5549 0.6429 0.6978 0.7912
14 0.3626 0.4593 0.5341 0.622 0.6747 0.767
15 0.3500 0.4429 0.5179 0.600 0.6536 0.7464
16 0.3382 0.4265 0.5000 0.5824 0.6324 0.7265
17 0.3260 0.4118 0.4853 0.5637 0.6152 0.7083
18 0.3148 0.3994 0.4716 0.548 0.5975 0.6904
19 0.307 0.3895 0.4579 0.5333 0.5825 0.6737
20 0.2977 0.3789 0.4451 0.5203 0.5684 0.6586
21 0.2909 0.3688 0.4351 0.5078 0.5545 0.6455
22 0.2829 0.3597 0.4241 0.4963 0.5426 0.6318
23 0.2767 0.3518 0.415 0.4852 0.5306 0.6186
24 0.2704 0.3435 0.4061 0.4748 0.5200 0.607
25 0.2646 0.3362 0.3977 0.4654 0.5100 0.5962
26 0.2588 0.3299 0.3894 0.4564 0.5002 0.5856
27 0.254 0.3236 0.3822 0.4481 0.4915 0.5757
28 0.249 0.3175 0.3749 0.4401 0.4828 0.566
29 0.2443 0.3113 0.3685 0.432 0.4744 0.5567
30 0.2400 0.3059 0.3620 0.4251 0.4665 0.5479

Ejemplo de aplicación 3

Un fabricante de microchips para computadoras contrató a siete técnicos en


computación. A los técnicos se les practicó un examen para medir sus conocimientos
básicos. Después de un año de servicio se les clasificó de acuerdo a su desempeño
laboral (de mayor a menor). Los puntajes del examen y las clasificaciones del
desempeño se presentan a continuación:

187
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Conocimientos Desempeño
Técnico
básicos laboral
J. SMITH 82 4
JONES 73 7
D. BOONE 60 6
M. LEWIS 80 3
G. CLARK 67 5
LINCOLN 94 1
G. WASHINTONG 89 2

a. Calcule el coeficiente de correlación de Spearman

Nota: Como la puntuación de desempeño laboral está ordenado de mayor a menor,


entonces la otra variable (conocimientos básicos) se ordena en forma inversa (al valor
mayor se da la puntuación de 1 y así sucesivamente).

Solución

TÉCNICO EXAMEN
X Y X-Y (X - Y)^2 = d2i
J. SMITH 82 3 4 -1 1
JONES 73 5 7 -2 4

D. BOONE 60 7 6
1 1
M. LEWIS 80 4 3 1 1

G. CLARK 67 6 5
1 1

A. LINCOLN 94 1 1
0 0

G. WASHINTONG 89 2 2
0 0
Suma 0 8

6 x8
rs  1   0,8571
7 x  72  1

Reporte Minitab:

Rho de Spearman: Conocimientos básicos, Desempeño laboral


Rho de Spearman 0.857
Valor p 0.014

188
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

EJERCICIOS PROPUESTOS

1. Los grillos hacen sus chirridos rozando rápidamente una de sus alas sobre la otra.
Mientras más rápido ellos mueven sus alas, más fuerte es el chirrido que ellos
producen, los científicos han notado que los grillos mueven sus alas más rápido
cuando hace calor que cuando hace frio. Por lo tanto, escuchando el tono de los
chirridos, es posible establecer la temperatura del aire.

A continuación, se presentan registros del tono (en vibraciones por segundo) de los
chirridos de grillos en 15 diferentes temperaturas:

Vibraciones por 20 16 20 18 17 16 15 17 15 16 15 17 16 17 14
segundo (X)
Temperatura 89 72 93 84 81 75 70 82 69 83 80 83 81 84 76
(Y)

Cálculos:
∑x=249 ∑y=1202 ∑x2=4175 ∑y2=96952 ∑xy=20087

Asuma que las variables en estudio cumplen con el supuesto de normalidad:

a. Estime e interprete el coeficiente de correlación más adecuado.


b. Pruebe la hipótesis para la existencia de correlación entre las vibraciones y la
temperatura. Use  = 0.05

Correlación: Vibraciones por segundo; Temperatura

Correlación de Pearson de Vibraciones por segundo y Temperatura = 0.825


Valor p = 0.000

2. Un Ingeniero Agrónomo está interesado en realizar un estudio con la finalidad de


relacionar el perímetro y peso de cabezas de ajo. Los datos de las mediciones de dan
a continuación:

X: Perímetro (cm) 12.4 12.4 12.7 9.8 12.3 10.1 11.8 11.4 9.4 11.5
Y: Peso (grs.) 32.3 29.4 30.8 15.6 29.8 16.9 28.1 23.3 14.1 25.4

x i  113.8 y i  245.7 x 2
i  1307.96 y 2
i  6449.77  xy  2868.19
Pruebas de Normalidad
Perímetro AD=0.549 Pvalor=0.117
Peso AD=0.522 Pvalor=0.137

a. Indique el coeficiente correlación entre el peso y perímetro ¿Positiva? ¿negativa?,


¿sin correlación? Comente.

189
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

b. ¿Es significativo el coeficiente encontrado? Realice la prueba correspondiente.


Usar  = 0.05

3. Siete frutos son calificados por dos jurados con una escala del 0 al 100. Evalúe si
existe relación en el criterio de calificación de los jurados, las calificaciones se
muestran en la siguiente tabla:

N° Fruto Jurado 1 Jurado 2


1 44 58
2 39 42
3 36 18
4 35 22
5 33 31
6 29 38
7 22 38

a. Estime e interprete el coeficiente de correlación adecuado.


b. Pruebe si existe relación entre las actitudes de los dos jurados. Use α=0.01

4. El agua de los ríos contiene pequeñas concentraciones de mercurio que se pueden ir


acumulando en los tejidos de los peces.
Se ha realizado un estudio en los ríos Wacamaw y Lumber en Carolina del Norte
(EE.UU.), analizando la cantidad de mercurio que contenían 171 ejemplares
capturados de una cierta especie de peces.

A continuación, se muestran algunos resultados:

Tabla 1. Medidas resumen para la Concentración de mercurio (X) y Longitud de los


peces (Y) según Lugar

Lugar n x y x 2
S y2  xy
Lumber 73 78.7 39.411 115.1352 69.156 3316.669
Wacamaw 98 125.09 40.388 226.3547 75.392 5545.807

Tabla 2. Correlación para las variables en el río Lumber


Correlación de
Pearson P-valor
0.554 0.000

Si en ambos lugares las pruebas de normalidad respectivas resultaron no significativas,


asumiendo una relación lineal entre las variables responda las siguientes preguntas:

a) Pruebe si existe correlación entre la concentración de mercurio y la longitud de los


peces en el río Wacamaw. Use α=0.05
b) ¿En cuál de los ríos la correlación entre la concentración y la longitud de los peces
es mayor? Justifique numéricamente su respuesta.

190
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

5. El cocodrilo cubano (Crocodilus rhombifer) construye sus nidos en playas tranquilas


de la costa de la isla de Cuba, donde los huevos permanecen enterrados en
incubación aproximadamente dos meses. En los últimos años se viene observando
que algunos nidos son destrozados por hembras que llegan tardíamente a las playas,
y los investigadores quieren averiguar cuál puede ser el origen de este
comportamiento. La hipótesis que contemplan es que el desarrollo turístico de la isla
ha disminuido el número de playas adecuadas para la nidificación, surgiendo
competencia entre las hembras por el espacio. De esta forma, las hembras tardías, al
no encontrar huecos disponibles en las playas, destrozarían los construidos por
hembras tempranas y ocuparían ese espacio. Los investigadores han realizado un
estudio en el que han obtenido los resultados que se muestran a continuación:

Longitud N° de nidos
Playa
de playa (m) destrozados
1 798.4 4
2 947.2 7
3 648.3 0
4 2645.6 9
5 467.4 0
6 1456.4 7
7 579.3 3
8 3234.6 15
9 3121.7 15
10 2603.5 10
11 835.5 5
12 846.8 4

Adaptación de Castro, P. (2005-2006). Prácticas de ecología I

Asuma que las variables no se ajustan a la distribución normal:

a. Estime e interprete el coeficiente de correlación más adecuado.


b. Pruebe si existe correlación entre las variables del estudio. Use α=0.05

Referencias

R.G.D. Steel, & Torrie, J.H.(1985). Bioestadística Principios y Procedimientos. McGraw


Hill, ed Bogotá, Colombia.

Porras, J. (2017). Pruebas No Paramétricas Usando R. Lima. UNALM.

Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of
data analysis. Australia: Duxbury/Thomson Learning.

191
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Capítulo IX
ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

Introducción

En 1889 en su libro “Herencia Natural”, Francis Galton se refirió a la “ley de la regresión


universal”. Él dijo que “cada peculiaridad en un hombre es compartida por sus parientes,
pero en promedio, en un grado menor”. A lo que él se refería era a que si un individuo
tenía alguna característica extrema (por ejemplo muy alto, muy bajo, muy gordo, etc)
entonces su descendencia tendería también hacia esos extremos, pero estos no serían
tan extremos como el padre.

En 1903, Karl Pearson, amigo de Galton, colectó más de 1000 registros de tallas de
padres e hijos y con esta información estimó la siguiente línea para explicar la talla del
hijo en función a la del padre (en pulgadas):

Talla del hijo = 33.73 + 0.516 talla del padre


(pulgadas) (pulgadas)

Si bien queda claro que padres altos suelen tener hijos altos y padres bajos hijos bajos,
Pearson notó una tendencia en los padres bajos a tener hijos bajos pero en promedio
no tan bajos como ellos (por ejemplo padres de 59 a 65 pulgadas tendían a tener hijos
de 64.5 a 67 pulgadas).

De igual manera observó que padres altos tendían a tener hijos altos pero en promedio
no tan altos como ellos (por ejemplo padres de 70 a 75 pulgadas tendían a tener hijos
de 70 a 72 pulgadas). Este es el concepto de “regresión a la media”, es decir, existe una
tendencia a que los valores extremos se muevan hacia el promedio de la población.

Este mismo fenómeno es observado frecuentemente en la práctica. Por ejemplo,


individuos con una presión arterial alta en un momento tenderán en forma natural a
disminuir su presión al cabo de un tiempo más que a aumentarla. Así, si un tratamiento
para disminuir su presión es aplicado solo a personas con presión alta, el efecto del
tratamiento se verá confundido con la disminución natural, haciendo difícil su detección.

1. Regresión Lineal Simple

La regresión lineal simple tiene como propósito predecir o estimar una variable, llamada
respuesta o dependiente, a partir de otra variable llamada predictora, explicativa o
independiente mediante la utilización de un modelo matemático. A la variable
dependiente, por convencionalismo, se le representa generalmente con la letra Y,
mientras que a la variable independiente se le representa generalmente con la letra X.

192
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejemplo de Aplicación 1.
Conforme los quesos maduran, ocurren varios procesos químicos que determinan el
sabor del producto final. En un estudio en queso cheddar, 10 muestras de queso fueron
analizadas en su composición química. Además, una medida subjetiva del sabor fue
obtenida combinando los puntajes asignados por varios sujetos que probaron el queso.
Los datos se dan a continuación:

Muestra 1 2 3 4 5 6 7 8 9 10
Sabor 12.3 47.9 37.3 21 0.7 40.9 18 15.2 16.8 0.7
AA 4.543 5.759 5.892 5.242 4.477 6.365 5.247 5.298 5.366 5.328

Las variables son:


Sabor: puntaje subjetivo del sabor, obtenido combinando los puntajes de varios sujetos.
AA 
: logaritmo natural de la concentración de ácido acético. AA  ln  Concent. Ácido Acético  
El objetivo de este estudio es evaluar el efecto de la variable AA (variable independiente
o predictora) en el sabor del queso (variable dependiente o respuesta).

Se pide, elaborar el gráfico de dispersión entre las variables Sabor y AA.

Gráfico N° 1. Logaritmo natural de la concentración de ácido acético


vs. Puntaje subjetivo del sabor

60

50

40
Sabor

30

20

10

0
4 4.5 5 5.5 6 6.5
AA

En este caso la variable respuesta “Y” sería el sabor y la variable predictora “X” es el
logaritmo de la concentración del ácido acético. El gráfico muestra una aparente
relación de dependencia entre ambas variables en el sentido de que a mayor
concentración de ácido acético, mayor será la calificación del sabor.

1.1 Modelo Estadístico

El modelo poblacional de regresión lineal simple es el siguiente:

Yi  0  1 X i   i

193
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Donde Yi es la variable dependiente; Xi es la variable independiente;  0 y 1 son


parámetros desconocidos (llamados intercepto y el coeficiente de regresión
respectivamente) y εi son los errores del modelo, los cuales se suponen son
independientes y normalmente distribuidos con media cero y variancia σ 2, esto es, ε
~ N (0, σ2 ). Otra definición relacionada con el modelo de regresión simple poblacional
es la ecuación de regresión poblacional:

Y / X  0  1 X i
i

Donde Y / X i
es el valor esperado obtenida de la ecuación regresión poblacional

1.2 Estimación del modelo y ecuación de regresión

Dada una muestra aleatoria de n observaciones bivariadas (X,Y), el modelo de


regresión estimado (o modelo de regresión muestral) es el siguiente:

Yi  b0  b1 X i  ei

En este caso b0 y b1 son los coeficientes de regresión estimados de los parámetros


0 y 1 respectivamente. El término ei se denomina como residual de la i-ésima
observación.

La ecuación de regresión estimada (o ecuación de regresión muestral) se define a


continuación:

Yˆi  b0  b1 X i i  1, 2,..., n

Respecto al residual se puede concluir que ei  Yi  Yˆi .

Los parámetros del modelo 0 y 1 son estimados por el método de Mínimos


Cuadrados Ordinarios (MCO). Este método permite obtener los valores estimados b0 y
b1 de modo que la suma de los errores al cuadrado sea mínima; es decir, de lo que se
trata es de calcular a y b de modo que se minimice la siguiente expresión:

n n 2


i 1
2
i   Yi   0  1 X i 
i 1

Los parámetros se convierten en valores estimados ( ˆ0  b0 y ˆ1  b1 ) en el proceso


de los MCO. La aplicación de este método da los siguientes resultados para la estimación
de los parámetros:

194
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

n n

SP  XY   X i  X Yi  Y  XY i i  nXY


b1  ˆ1   i 1
 i 1

SP  X  n n

 X X X
2
i i
2
 nX 2
i 1 i 1

b0  ˆ0  Y  b1 X

La interpretación de estos valores, desde una perspectiva matemática, es clara.

El intercepto b0 es el valor estimado de la variable Y cuando la variable X es cero y la


pendiente b1 es el cambio estimado en Y por cambio unitario en X.

Sin embargo, la interpretación de b0 tendrá sentido solo en el caso en que un valor de


X=0 sea posible y además, cuando valores cercanos a X = 0 hayan sido utilizados en la
estimación. Para ilustrar estas ideas vea el siguiente caso.

Supuestos del análisis de regresión lineal simple.

1) Se asume que la variable independiente X es fija (no aleatoria)


2) La variable dependiente Y es aleatoria
3) Para cada valor de X existe una distribución normal de la variable Y Yi ~ N  Y | X ,  2  i

4) El error tiene distribución normal con media 0 y varianza constante  el cual se 2

puede expresar de la siguiente forma:  i ~ N  0,  2  . Esta expresión indica que no


existe dependencia o correlación entre las observaciones y tampoco existe relación
de los valores de  i con los valores de X i (Homocedasticidad)

También se puede aplicar un procedimiento matricial:

Sistema de Ecuaciones Normales


(𝑋 ′ 𝑋) 𝑏 = (𝑋 ′ 𝑌) ⟹ 𝑏 = (𝑋 ′ 𝑋)−1 (𝑋′𝑌)
Donde ;
𝑛 𝑛
1 𝑥1 𝑦1 𝑛 ∑ 𝑥𝑖 ∑ 𝑦𝑖
1 𝑥2 𝑦2 𝑖=1 𝑖=1
𝑋=[ ] 𝑌=[⋮] 𝑋′𝑋 = 𝑛 𝑛 𝑋′𝑌 = 𝑛
⋮ ⋮
1 𝑥𝑛 𝑦𝑛 ∑ 𝑥𝑖 ∑ 𝑥𝑖2 ∑ 𝑥𝑖 𝑦𝑖
[ 𝑖=1 𝑖=1 ] [ 𝑖=1 ]
Para invertir la matriz (X’X) se puede seguir el siguiente procedimiento:

1) Primero hallar el determinante


𝑛

𝑛 ∑ 𝑥𝑖 𝑛 𝑛 2
| 𝑖=1
|
|𝑋′𝑋| = 𝑛 𝑛 = 𝑛 ∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )
| | 𝑖=1 𝑖=1
∑ 𝑥𝑖 ∑ 𝑥𝑖2
𝑖=1 𝑖=1

195
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

2) Invertir la matriz
𝑛 𝑛

∑ 𝑥𝑖2 − ∑ 𝑥𝑖
1 𝑖=1 𝑖=1
(𝑋′𝑋)−1 = 𝑛
|𝑋′𝑋|
− ∑ 𝑥𝑖 𝑛
[ 𝑖=1 ]

Luego, se procede a hallar los coeficientes del modelo


𝑛 𝑛 𝑛

∑ 𝑥𝑖2 − ∑ 𝑥𝑖 ∑ 𝑦𝑖 𝑦̅ − 𝑏1 𝑥̅
𝑏 1
𝑏 = [ 0 ] = (𝑋 ′ 𝑋)−1 (𝑋′𝑌) = 𝑖=1
𝑛
𝑖=1 𝑖=1
𝑛 = [ 𝑆𝑃(𝑥𝑦) ]
𝑏1 |𝑋′𝑋|
− ∑ 𝑥𝑖 𝑛 ∑ 𝑥𝑖 𝑦𝑖 𝑆𝐶(𝑥)
[ 𝑖=1 ] [ 𝑖=1 ]

Ejemplo de aplicación 2.

Se quiere analizar la influencia del diámetro (pulg) de los árboles sobre el volumen (pies
cúbicos). A continuación se presenta el gráfico N° 2, para la muestra completa de 20
árboles cuyos diámetros van desde 8.3 hasta 20.4 pulgadas. Interprete

Gráfico N° 2. Gráfico de dispersión del del Volumen (pies cúbicos) respecto al


Diámetro de un árbol (pulg.)

100

80
Volumen

60

40

20

0
0 10 20 30
Diámetro

La curva sólida muestra la relación entre ambas variables para los datos de los 20
árboles y la línea punteada corresponde a la ecuación estimada. Como se puede
apreciar, la línea recta es bastante buena para describir la relación entre el diámetro y el
volumen para árboles con diámetros de entre 16 y 18 pulgadas, pero su ajuste ya no es
tan bueno conforme los valores de X se alejan de dicho rango.

El modelo lineal simple podría ser aceptable para estimar el volumen de un árbol con un
diámetro de 25 o inclusive 14 pulgadas pero definitivamente no para uno de 10.

196
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

a. La ecuación de regresión estimada en este caso es:

Volumen = -111.98 + 9.39 Diámetro


(pies cúbicos) (pulg)

El intercepto estimado es -111.98, lo cual indicaría que a un diámetro de cero, el volumen


estimado es de -111.98 pies cúbicos. Obviamente esto no tiene ningún sentido ya que
un diámetro de cero es imposible (no habría árbol).

Aun suponiendo que un diámetro de cero fuera posible, la interpretación del valor
estimado de Y cuando X = 0 no sería válida ya que para la construcción del modelo se
emplearon datos de diámetros comprendidos entre 16 y 18 pulgadas.

Ejemplo de Aplicación 3.

Para el ejemplo anterior, se quiere estimar el puntaje subjetivo del sabor (Sabor),
obtenido combinando los puntajes de varios sujetos, en función del logaritmo natural
de la concentración de ácido acético (AA).

Muestra 1 2 3 4 5 6 7 8 9 10
Sabor(Y) 12.3 47.9 37.3 21 0.7 40.9 18 15.2 16.8 0.7
AA (X) 4.543 5.759 5.892 5.242 4.477 6.365 5.247 5.298 5.366 5.328

a. Determine la ecuación de regresión lineal estimada

Muestra Sabor(Y) AA (X) Y2 X2 XY


1 12.3 4.54 151.29 20.6116 55.842
2 47.9 5.76 2294.41 33.1776 275.904
3 37.3 5.89 1391.29 34.6921 219.697
4 21 5.24 441 27.4576 110.04
5 0.7 4.48 0.49 20.0704 3.136
6 40.9 6.37 1672.81 40.5769 260.533
7 18 5.25 324 27.5625 94.5
8 15.2 5.3 231.04 28.09 80.56
9 16.8 5.37 282.24 28.8369 90.216
10 0.7 5.33 0.49 28.4089 3.731
Total 210.8 53.533 6789.06 289.4845 1194.159

Y  21.08 X  5.353 X 2
i  289.4845 Y i
2
 6789.06  X Y  1194.159
i i

SP( XY ) 
X iYi  nXY
1194.159  10*(21.08)*(5.353)
b1   i n1   22.374889
289.4845  10*(5.353)2
X
SC ( X )
i
2
 nX 2
i 1

b0  Y  b1 X  21.08 – 22.374889*  5.353   98.69278

197
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

El modelo de regresión lineal estimado es:

𝑌̂= -98.69 + 22.37 X

Procedimiento matricial:

10 53.53 10 53.53
𝑋′𝑋 = [ ] 𝐷𝑒𝑡𝑒𝑟𝑚. = | | = 29.3841
53.53 289.4845 53.53 289.4845

(𝑋 ′ 𝑋)−1 = [
9.851739546 −1.82173352
] (𝑋 ′ 𝑌) = [ 210.8 ]
−1.82173352 0.34471347 1194.159

𝑏 9.851739546 −1.82173352 210.8 −98.692785


𝑏 = [ 0 ] = (𝑋 ′ 𝑋)−1 (𝑋′𝑌) = [ ][ ]=[ ]
𝑏1 −1.82173352 0.34471347 1194.159 22.374889

b. Analice el siguiente gráfico e interprete.

60
50
40 𝑌̂= -98.69 + 22.37 X
Sabor

30
20
10
0
4 4.5 5 5.5 6 6.5
AA

En este caso el intercepto, -98.69, correspondería al puntaje estimado del sabor de un


queso cuando el logaritmo natural de la concentración de ácido acético es igual a cero.
Dado que en la estimación de este modelo se utilizaron valores AA de 4.477 hasta 6.365,
esta interpretación no tiene validez. El coeficiente de regresión, 22.37 es siempre
interpretable y en este caso indica que por cada incremento unitario en el logaritmo
natural de la concentración de ácido acético, se estima un incremento en el puntaje del
sabor de 22.37 puntos.

1.3. Análisis de Variancia

Cuando se obtiene la ecuación de regresión, todavía no se puede afirmar


estadísticamente que exista una dependencia lineal de la variable Y respecto a la
variable X. Por lo tanto, es necesario proceder con una prueba hipótesis de la
pendiente de la ecuación de regresión  1  y esto se logra utilizando un procedimiento
matemático conocido como el Análisis de Varianza (ANVA). El ANVA permite evaluar si
existe dependencia lineal o no de la variable dependiente (Y) respecto a la variable
independiente (X).

198
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Hipótesis:
H 0 : 1  0  No existe dependencia lineal de Y respecto a X 
H1 : 1  0  Existe dependencia lineal de Y respecto a X 

Cuadro de Análisis de Variancia (cuadro ANVA):


El ANVA descompone los efectos de la variabilidad de la variable dependiente Y en dos
efectos: Efecto debido a la Regresión y Efecto debido al Residual. La variabilidad de
estos dos efectos son comparados mediante una prueba hipótesis con la distribución F
para evaluar cual variabilidad es más importante en el modelo de regresión: El efecto de
regresión o el efecto del residual o error. Si el efecto de Regresión en más importante,
se rechazaría la Hipótesis Nula, caso contrario no se rechazaría.

Fuentes de Gl SC CM Fc
variación
Regresión 1 b1 SP(XY) 𝑆𝐶(𝑅𝑒𝑔) 𝐶𝑀(𝑅𝑒𝑔)
𝑔𝑙(𝑅𝑒𝑔) 𝐶𝑀(𝐸𝑟𝑟𝑜𝑟)
Error n–2 SC(Y) – b SP(XY) 𝑆𝐶(𝐸𝑟𝑟𝑜𝑟)
𝑔𝑙(𝐸𝑟𝑟𝑜𝑟)
Total n-1 SC(Y) =SC(Total)

Estadístico de Prueba:

CM (Re g )
Fc  F(1,n 2)
CM ( Error )

Regla de Decisión:
La hipótesis nula se rechaza con un nivel de significación α si el F c resulta mayor que el
valor de tabla, F(1-α, 1, n – 2).

Ejemplo de aplicación 4.

Valide el modelo de regresión estimado en el ejemplo 3, siendo las variables Y = sabor


y X = AA a un nivel de significación del 5%

Solución
Cálculos:
n
SC Total   SC (Y )   Yi 2  nY 2  6789.06  10  21.08  2345.396
2

i 1

SC  Regresión   b1SP  XY   22.37 1194.159  10*(21.08)*(5.353)   1471.073


SC  Error   SC (Total )  SC  Regresión   2345.396  1471.073  874.323

Fuentes de gl SC CM Fc
variación
Regresión 1 1471.073 1471.073 13.46
Error 8 874.323 109.29
Total 9 2345.396

199
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Procedimiento matricial:

210.8
𝑆𝐶(𝑅𝑒𝑔) = 𝑏 ′ (𝑋 ′ 𝑌) − 𝑛𝑦̅ 2 = [−98.692785 22.374889] [ ] − 10(21.08)2
1194.159
= 1471.07293
𝑆𝐶(𝑇𝑜𝑡𝑎𝑙) = 𝑌 𝑌 − 𝑛𝑌̅ 2 = 6789.06 − 10(21.08)2 = 2345.396

𝑆𝐶(𝑅𝑒𝑠) = 𝑆𝐶(𝑇𝑜𝑡𝑎𝑙) − 𝑆𝐶(𝑅𝑒𝑔) = 2345.396 − 1471.07293 = 874.323069

Prueba Hipótesis

H 0 : 1  0
  0.05 Fc  13.46 ~ F1,8 Ftab  F 0.95,1,8  5.318
H1 : 1  0

El valor de tabla para un nivel de significación del 5% es F(0.95,1, 8) = 5.318. Como el valor
calculado es mayor al valor de tabla se rechaza H0. En conclusión, existe suficiente
evidencia estadística para afirmar que el sabor del queso depende linealmente de la
concentración de ácido acético.

1.4. Coeficiente de determinación

Mide el porcentaje de la variabilidad de la respuesta que es explicado por la variable


predictora. Su valor va de 0 a 1 y se calcula mediante la siguiente expresión:

SC ( Reg )
r² =
SC (Total )

Para el ejemplo tratado en esta sección se tiene:


1471.073
r² = 2345.396 = 0.627 ó 62.7%

El 63% de la variabilidad del sabor es explicado por la concentración de ácido acético.

Reporte Minitab

Análisis de regresión: Sabor (Y) vs. AA (X)

Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 1471.1 1471.1 13.46 0.006
x 1 1471.1 1471.1 13.46 0.006
Error 8 874.3 109.3
Total 9 2345.4

200
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Resumen del modelo


R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
10.4542 62.72% 58.06% 47.01%

Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante -98.7 32.8 -3.01 0.017
x 22.37 6.10 3.67 0.006 1.00

Ecuación de regresión
Sabor(Y) = -98.7 + 22.37 AA (X)

1.5. Estimación y predicción del valor de Y


El objetivo principal del análisis de regresión es construir un modelo que permita predecir
el valor de Y cuando la variable X toma un valor determinado. Una vez que se ha
determinado la validez del modelo de regresión lineal simple, la ecuación de pronóstico
estará dada por:
Yˆi  b0  b1 X i
̂ puede interpretarse de dos maneras;
El valor 𝒀
- como la predicción de un valor individual predicho de Y para un valor dado de
X, en el cual se utilizar un intervalo de predicción.
- como el valor medio estimado de Y para un valor dado de X. en el cual se utiliza
el intervalo de confianza.

Diferencia entre predicción de un valor individual y valor medio estimado.


Reiterando que la predicción como la estimación del valor medio pueden tomar la forma
de un intervalo, y al igual que en el caso puntual, el intervalo puede tomar dos formas
(aunque aquí no solo la interpretación será diferente, sino también el cálculo):
 Un intervalo de predicción para el valor individual de Y dado un valor de X,
 Un intervalo de confianza para el valor medio de Y dado un valor X.

Por ejemplo, si se ha construido un modelo para predecir la precipitación anual en función


a ciertos factores observables en el año anterior, uno podría estar más interesado en
predecir la precipitación del próximo año y evaluar cuanto podría esta variar (intervalo de
predicción) en lugar de estimar la precipitación media en años posteriores con las
características del actual período en estudio.

Por otro lado, si se está estudiando la relación entre el volumen de madera y el diámetro
del árbol, uno estaría más interesado (por cuestiones de manejo forestal) en el volumen
medio de madera de un árbol en particular con dicho diámetro. De hecho, el valor de
predicción para un valor individual tendrá mayor variabilidad que la media estimada.

201
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

El intervalo de predicción de 100 (1- α) % para un valor de Y dado X está dado por:

 1 ( x0  X )2 
IP(Y / X  x0 )  Yˆ  t  * CME 1   
(1 , n  2)
2  n SC ( X ) 

El intervalo de confianza de 100 (1- α) % para la media de Y dado X está dado por:

 1 ( x0  X )2 
IC (Y / X  x0 )  Yˆ  t  * CME   
(1 , n  2)
2 n SC ( X ) 

Ejemplo de aplicación 5.
Encontrar un intervalo de predicción de un valor individual y un intervalo de confianza
para el valor medio a un 95% para evaluar el sabor del queso cuando el logaritmo de
ácido acético es 5.2.

Solución:

x0  5.2 CME = 109.29


n
SC  X    X i 2  nX 2  289.4845  10*(5.353)2  2.938
i 1

t  t 0.05  t(0.975,8)  2.306


(1 , n  2) (1 ,10 2)
2 2

Intervalo de predicción de un valor individual a un 95%


 1 (5.2  5.353) 2 
IP(Y / X  5.2)  17.656   2.306  109.29 1      7.714, 43.031
 10 2.938 
Como los puntajes son positivos el intervalo de predicción sería  0, 43.031

Interpretación del intervalo de predicción


Con un nivel de predicción del 95%, se puede decir que el sabor del queso, cuando el
logaritmo natural de la concentración de ácido acético es de 5.2, está entre 0 y 43.031
unidades.

Intervalo de confianza del valor medio a un 95%

 1 (5.2  5.353)2 
IC (Y / X  5.2)  17.656   2.306  109.29      9.7347, 25.5773
 10 2.938 

Interpretación del intervalo del valor medio


Con un nivel de confianza del 95%, se puede decir que el sabor medio del queso, cuando
el logaritmo natural de la concentración de ácido acético es de 5.2, está contenido entre
9.7347 y 25.5773 unidades.

202
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

EJERCICIOS DESARROLLADOS

1) En un estudio, se recopilan datos para evaluar la relación que existe entre la publicidad
por radio y las ventas de un producto durante 10 semanas. Los tiempos de duración
en minutos de la publicidad por semana (X) y el número de artículos vendidos (Y). Se
presentan algunos resultados

 X  500 Y  1100 X 2
 28400 Y 2
 134660  XY  61800
a.- Calcule los coeficientes de la ecuación de regresión lineal estimada.

 x  y  500 * 1100


x y i i 
n
i i
61800 
10
ˆ1   2
 x i 2 28400 
500 2
x 2
i 
n 10
1100 500
ˆ0  y  ˆ1 x  ˆ0   2*  ˆ0  10
10 10

b.- Calcule e interprete los coeficientes de correlación y de determinación.

 x  y  500 *1100


x y 
i i
i

n
i
61800 
10
r   r  0.9978
 x  2
 y  2
28400 
500 2
* 134660 
1100 2
x 2
i 
n
i
* y 2
i 
n
i
10 10

Además el coeficiente de Determinación: R  r  (0.9978)  0.9956


2 2 2

2) Suponga que en un estudio sobre aceite de algodón se ha observado las variables:


Y = densidad de aceite de algodón (gramos / litro)
X = Temperatura (grados centígrados)

Y 910 915 867 908 902 875 889 894 878 869
X 30 25 100 35 40 80 60 50 75 90

Regression Analysis: Y versus X

Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 2809.35 2809.35 646.77 0.000
X 1 2809.35 2809.35 646.77 0.000
Error 8 34.75 4.34
Total 9 2844.10

203
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Model Summary

S R-sq R-sq(adj) R-sq(pred) Correlation: Y, X


2.08415 98.78% 98.63% 97.62%

Pearson correlation of Y
Coefficients and X = -0.994
Term Coef SE Coef T-Value P-Value VIF P-Value = 0.000
Constant 929.60 1.67 558.10 0.000
X -0.6650 0.0261 -25.43 0.000 1.00

Regression Equation

Y = 929.60 - 0.6650 X

a.- Calcule la ecuación de regresión estimada e Interprete el valor de cada uno de los
coeficientes de la ecuación de regresión.

  x   y  585*8907
x yi  516835 
i i
i
b1  ˆ1  n  10  0.665014
 x i 
2
5852
40575 
x 2
i 
n 10
8907 585
b0  ˆ0  y  ˆ1 x  ˆ0   0.665014 *  ˆ0  929.603319
10 10

Por lo tanto Yˆ  b0  b1 X  0.665014  929.603319 X

b.- Calcule e interprete el valor del coeficiente de determinación

 x  y  585 * 8907


x y  516835 
i i
i i
r n r 10 
 x  2
 y  2
40575 
585 2
* 7936309 
8907 2
x  y 
2 i 2 i
i * i 10 10
n n
r  0.9939

Además el coeficiente de Determinación R  r  (0.99939)  0.9988


2 2 2

R 2  99.8% , Indica que el 99.8% de la densidad de aceite de algodón está siendo


explicada por la temperatura.

c.- ¿Puede Ud. afirmar que la pendiente de la recta es significativamente distinta de cero,
con  = 0,05?

H o : 1  0
H1 :  1  0

Fuentes de Grados de Suma de Cuadrado


Fcalc
Variación Libertad Cuadrados Medio
Regresión 1 2809.35 2809.35
646.80
Error n -2 = 8 34.75 4.34
Total n–1=9 2844.10

204
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

 y  2
8907 2
SCTotal   y   7936309 -  2844.1
2 i
i
n 10

SC Re g  ˆ1 *  x i yi 
 x i  y i   0.665014 * 516835  585 * 8907  
  
 n  10
 2809.352597

SCE  SCTotal  SC Re g  2844.1  2809.352597  34.747403


CM Re g  SC Re g / 1  2809.352597 / 1  2809.352597 y
CME  SCE / 8  34.747403 / 8  4.343425
CM Re g 2809.352597
Fcalc    646.80 y
CME 4.343425
F1 ,1,8  F0.95,1,8  5.317

EJERCICIOS PROPUESTOS

En cada uno de los siguientes casos efectúe lo siguiente:


- Estime la línea de regresión lineal simple e interprete los coeficientes
- Efectúe el análisis de varianza
- Calcule e interprete el coeficiente de determinación y el de correlación.
- Realice la prueba de hipótesis para la existencia de correlación entre X e Y.
- Calcule el intervalo de predicción y de confianza para el valor individual y valor
medio de Y dado un valor de X (escogido aleatoriamente)

1. Se efectuó un experimento para evaluar el efecto del zinc en el peso de cacatúas.


En el experimento, a 7 grupos de cacatúas adultas se les dio diferentes dosis de
zinc y sus pérdidas de peso tras la primera semana fueron registradas. Los datos
de los pesos medios por grupo al final de la semana están expresados como
porcentajes sobre los pesos iniciales.

Ingesta de zinc 0 2 4 8 12 16 30
Peso medio % 100 92 95 90 98 85 67

Regression Analysis: y versus x


Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value Correlation: x, y
Regression 1 595.8 595.77 19.87 0.007
x 1 595.8 595.77 19.87 0.007 Pearson correlation of
Error 5 149.9 29.99 x and y = -0.894
Total 6 745.7 P-Value = 0.007
Model Summary
S R-sq R-sq(adj) R-sq(pred)
5.47614 79.89% 75.87% 45.87%

Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant 99.47 3.04 32.77 0.000
x -0.962 0.216 -4.46 0.007 1.00

Regression Equation
y = 99.47 - 0.962 x

205
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

2. Se desea investigar la relación entre el porcentaje de niños que han sido


inmunizados contra la difteria, tos ferina y tétano y la mortalidad infantil (tasa de
mortalidad por cada 1000 niños menores de 5 años). Los datos (información para
el 1999) correspondientes a una muestra aleatoria de 20 países son :
Nación Inmunización Mortalidad Nación Inmunización Mortalidad
Bolivia 40 165 Italia 85 11
Brasil 54 85 Japón 83 6
Canadá 85 9 México 65 51
China 95 43 Polonia 98 18
Egipto 81 94 Senegal 47 189
Etiopia 26 226 Turquía 74 90
Finlandia 90 7 Reino Unido 75 10
Francia 95 9 USA 97 12
Grecia 83 12 USRSS 79 35
India 83 145 Yugoslavia 91 27
Regression Analysis: Mortalidad(Y) versus Inmunización(X)

Analysis of Variance

Source DF Adj SS Adj MS F-Value P-Value


Regression 1 61392 61392 39.58 0.000
Error 18 27923 1551
Total 19 89315

Model Summary
S R-sq R-sq(adj)
39.3863 68.74% 67.00%

Coefficients
Term Coef SE Coef T-Value P-Value
Constant 278.3 35.5 7.85 0.000
Inmunización(X) -2.832 0.450 -6.29 0.000

Regression Equation
Mortalidad(Y) = 278.3 - 2.832 Inmunización(X)

3. Se hace un estudio para determinar la relación entre el tiempo de uso (en años)
de un grupo de máquinas de una fábrica y las eficiencias de las mismas (%). Los
datos se dan a continuación:
Tiempo de uso (X) 2 4 11 9 4 6 7 8
Eficiencia (Y) 90 65 25 40 80 60 35 50

Regression Analysis: Eficiencia (Y) versus Tiempo de uso (X)


Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 3084.6 3084.60 42.33 0.001
Error 6 437.3 72.88
Total 7 3521.9

Model Summary
S R-sq R-sq(adj)
8.53691 87.58% 85.51%

Coefficients
Term Coef SE Coef T-Value P-Value
Constant 100.64 7.55 13.33 0.000
Tiempo de uso (X) -7.06 1.09 -6.51 0.001
Regression Equation
Eficiencia (Y) = 100.64 - 7.06 Tiempo de uso (X)

206
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

4. Se tiene la siguiente información proporcionada por la Empresa MINPETEL durante


2010.

MESES ENERGÍA GENERADA (Mwh) (X) CONSUMO COMBUSTIBLE (m3) (Y)


Enero 70.65 23.18
Febrero 67.47 22.54
Marzo 57.74 20.04
Abril 68.45 23.94
Mayo 83.80 27.23
Junio 77.56 25.31
Julio 35.76 11.83
Agosto 94.88 30.42
Setiembre 110.13 35.35
Octubre 113.74 38.39
Noviembre 106.92 35.64
Diciembre 118.23 39.11

Regression Analysis: CONSUMO (m3) (Y) versus ENERGÍA (Mwh) (X)

Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 745.702 745.702 1391.75 0.000
Error 10 5.358 0.536
Total 11 751.060

Model Summary
S R-sq R-sq(adj)
0.731984 99.29% 99.22%

Coefficients
Term Coef SE Coef T-Value P-Value
Constant 0.661 0.756 0.87 0.402
ENERGÍA (Mwh) (X) 0.32332 0.00867 37.31 0.000

Regression Equation
CONSUMO (m3) (Y) = 0.661 + 0.32332 ENERGÍA (Mwh) (X)

Referencias

R.G.D. Steel, & Torrie, J.H.(1985). Bioestadística Principios y Procedimientos. McGraw


Hill, ed Bogotá, Colombia.

Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of
data analysis. Australia: Duxbury/Thomson Learning

207
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Capítulo X
ANALISIS DE REGRESION LINEAL MÚLTIPLE

OBJETIVOS

• Formular modelos de regresión lineal múltiple usando variables dentro del


contexto de su especialidad.
• Evaluar los supuestos del modelo de regresión lineal múltiple.
• Aplicar criterios para seleccionar y validar el mejor modelo de regresión lineal
múltiple.
• Realizar las estimaciones adecuadas de la variable de interés del campo de su
especialidad en base a los resultados obtenidos del análisis de regresión lineal
múltiple.

1. Introducción

El análisis de regresión lineal múltiple es una técnica cuyo propósito es predecir una
variable dependiente (Variable Y) mediante más de una variable independiente
(variables X). La diferencia con el análisis de regresión lineal simple es solamente el
número de variables independientes que participan en el modelo. El incluir mayor número
de variables independientes en el modelo supondría mayor precisión para la predicción
de la variable dependiente Y.

2. El modelo y ecuación de regresión lineal múltiple poblacional.

Modelo de regresión lineal múltiple poblacional:

Yi  0  1 X1,i  2 X 2,i  3 X 3,i  ......  k X k ,i   i

Ecuación de regresión lineal múltiple poblacional:

Y / X , X
1 2 ,... X k
 0  1 X1,i  2 X 2,i  3 X 3,i  ......  k X k ,i

Donde:
Yi : variable respuesta u observada.
𝛽0 : Coeficiente de intersección poblacional
𝛽1 , 𝛽2 , … , 𝛽𝑘 : Coeficientes de regresión parcial poblacional
X1,i , X 2,i ,..., X k ,i : son variables predictoras independientes de la i-ésima observación.
 i : error aleatorio de la i-ésima observación

3. El modelo y ecuación de regresión lineal múltiple estimada.

Modelo de regresión lineal múltiple estimada:

Yi  b0  b1 X1,i  b2 X 2,i  b3 X 3,i  ......  bk X k ,i  ei

208
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ecuación de regresión lineal múltiple estimada:

Yˆi  b0  b1 X1,i  b2 X 2,i  b3 X 3,i  ......  bk X k ,i

Yˆi : variable respuesta estimada.


𝑏0 : Coeficiente de intersección estimado
b0 , b1 , ..., bk : Coeficientes de regresión parcial estimados
ei : residual de la i-ésima observación

Hay que observar que ei  Yi  Yˆi

Sistema de Ecuaciones Normales en su forma matricial:

(𝑋 ′ 𝑋) 𝑏 = (𝑋 ′ 𝑌) ⟹ 𝑏 = (𝑋 ′ 𝑋)−1 (𝑋′𝑌)

1 𝑥1,1 𝑥2,1 𝑦1
1 𝑥1,2 𝑥2,2 𝑦2
𝑋= 𝑌=[⋮]
⋮ ⋮ ⋮
[1 𝑥1,𝑛 𝑥2,𝑛 ] 𝑦𝑛

𝑛 𝑛 𝑛

𝑛 ∑ 𝑥1,𝑖 ∑ 𝑥2,𝑖 ∑ 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛 𝑛
2
𝑋 ′ 𝑋 = ∑ 𝑥1,𝑖 ∑ 𝑥1,𝑖 ∑ 𝑥1,𝑖 𝑥2,𝑖 𝑋 ′ 𝑌 = ∑ 𝑥1,𝑖 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛 𝑛
2
∑ 𝑥2,𝑖 ∑ 𝑥1,𝑖 𝑥2,𝑖 ∑ 𝑥2,𝑖 ∑ 𝑥2,𝑖 𝑦𝑖
[ 𝑖=1 𝑖=1 𝑖=1 ] [ 𝑖=1 ]

Luego, de acuerdo a los procedimientos establecidos se invierte la matriz (X’X) para


hallar el vector b.

4. Supuestos

1) Las variables independientes de X son fijas (no aleatoria)


2) La variable dependiente Y es aleatoria
3) Para cada combinación de los valores de X existe una distribución normal
multivariante para la variable Y
4) El error tiene distribución normal con media 0 y varianza constante  2 el cual se
puede expresar de la siguiente forma:  i ~ N  0,  2  . Esta expresión indica que no
existe dependencia o correlación entre las observaciones y tampoco existe
relación de los valores de  i con los valores de Yˆi (Homocedasticidad)
5) No debe existir correlación o combinación lineal entre las variables indepedientes
de X (no debe haber efecto de Multicolinealidad)

209
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

5. Coeficiente de determinación múltiple (r2)

El coeficiente de determinación múltiple mide el porcentaje de la variabilidad de y que


se puede explicar mediante las variables de predicción.

Un valor de r2 cercano a uno significa que la ecuación es muy exacta porque explica
una gran porción de la variabilidad de Y. Se define como:

SC  Regresión 
r2 
SC Total 
6. Prueba de hipótesis

Debido que en la regresión múltiple se tienen que evaluar el efecto de varias variables
de X, es necesario hacer dos tipos de pruebas hipótesis: La Prueba Global (utilizando
el ANVA y la dsiitribución F) y la Prueba de efectos adicionales (utilizando la
distribución T de student)

Prueba Global
El objetivo de esta prueba hipótesis es la de probar si existe una dependencia lineal de
la variable dependiente Y con al menos una de las variables X. El cuadro ANVA es el
siguiente:

Fuente de Suma de Grados de Cuadrados F


variación Cuadrados Libertad Medios
Regresión SCReg k=p-1 CMReg Fcalc
Residual SCError n-k-1 CMError
Total SCTotal n-1

Donde k es el número de variables independientes, p es el número de parámetros


estimados en el modelo y n es el número de observaciones.

Prueba hipótesis de la Prueba Global

H 0 : 1   2  ...   k  0
H1 : Al menos un  j es distinto de cero

Nivel de significación: 

El estadístico de prueba es:

CM  Reg 
Fcalc  F k ,nk 1
CME
Además la estimación de , ˆ 2  S 2  CME  CMError

Criterio de Decisión. Ftab  F1 ,k ,nk 1

210
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Si Fcalc  F1 ,k ,nk 1 se rechaza Ho


Si Fcalc  F1 ,k ,nk 1 no se rechaza Ho

Conclusión.

Prueba de efectos adicionales


Si la conclusión de la prueba global es significativa, se procede con la prueba de
efectos adicionales cuyo propósito es la de evaluar cuál variable es la que es
significativa para el modelo de regresión.

Prueba hipótesis de efectos adicionales

H 0 : 1  0 H 0 : 2  0 H 0 : k  0
….
H1 : 1  0 H1 :  2  0 H1 :  k  0
Nivel de significación: 
bj
tc j  ~ t n k 1
sb j
Donde los resultados se obtienen de la siguiente tabla:

Predictor Coeficiente Coeficiente de EE Tcalc


Constante b0 sb0 tc0
X1 b1 sb1 tc1
X2 b2 sb2 tc2
… … … …
Xk bk sbk tck

Conclusiones

1. Predicción por intervalo


La predicción de los valores estimados de la variable dependiente Y puede ser
determinado mediante un valor medio o mediante un valor individual. Cuando se
trabaja con un paquete estadístico, pueden obtenerse intervalos de confianza así
como intervalos de predicción. El procedimiento matemático es algo complejo
aunque lo principal en este tema es saber interpretar los resultados.

La estimación puntual de la variable dependiente está dada por:


Yˆ0  b0  b1 x01  b2 x02  b3 x03  ......  bk x0 k

211
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Para el valor medio:

 
 yˆ0  t  S    ˆ
y  t S  Donde:
  yˆ0
1 ;n  k 1
y X 0 0    yˆ0 
1 ;n  k 1
  2   2  
S ŷ0  S 2 X'0 (X´X)-1 X0

Para el valor individual:

 
 yˆ0  t  S  y  ˆ
y  t S  Donde:
  yˆ0  y0
1 ;n  k 1
0 0    yˆ0  y0 
1 ;n  k 1
  2   2  

S yˆ0  y0  S 2 (1 + X'0 (X´X)-1 X0 )

Ejemplo de Aplicación 1

Se desea estudiar el efecto de la temperatura ambiente promedio diario en °F (X1), y la


cantidad de aislante utilizado en un desván medido en pulgadas de grosor (X2) sobre el
consumo mensual de petróleo, en galones, para calefacción de casas (Y). Para el efecto
se ha tomado una muestra aleatoria de 15 casas cuyos datos medidos se reportan en
las cuatro primeras columnas de la tabla.
a. Analice la matriz de correlaciones.
b. Determine la ecuación de regresión lineal múltiple estimada.
c. Interpretación de b1 y b2.
d. Calcule el consumo promedio mensual estimado de petróleo para calefacción cuando
la temperatura ambiente es de 50 °F y se usa un aislamiento en el desván de 10
pulgadas de grosor.
e. Calcule e interprete el coeficiente de determinación.
f. Realice el Análisis de Variancia. (Use α=0.05)
g. Evalúe el efecto lineal adicional de las variables Xi
h. Determine con que variable independiente hay mayor efecto lineal directo.
i. Seleccione el mejor conjunto de variables.
j. Estime al 95% de confianza el consumo mensual medio de petróleo cuando la
temperatura ambiente es 48 y la cantidad de aislamiento en el desván es 5.
k. Estime al 95% de confianza el consumo mensual individual de petróleo cuando la
temperatura ambiente es 48 y la cantidad de aislamiento en el desván es 5.

Los datos se muestran a continuación:

212
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Observación Y X1 x2
1 275.3 40 3
2 363.8 27 3
3 264.3 40 10
4 40.8 73 6
5 94.3 64 6
6 230.9 34 6
7 366.7 9 6
8 300.6 8 10
9 237.8 23 10
10 121.4 63 3
11 31.4 65 10
12 203.5 41 6
13 441.1 21 3
14 323 38 3
15 52.47 58 10

X1.X
Observación Y X1 X2 Y2 X12 X22 Y.X1 Y.X2 2
1 275.3 40 3 75790.09 1600 9 11012 825.9 120
2 363.8 27 3 132350.44 729 9 9822.6 1091.4 81
3 264.3 40 10 69854.49 1600 100 10572 2643 400
4 40.8 73 6 1664.64 5329 36 2978.4 244.8 438
5 94.3 64 6 8892.49 4096 36 6035.2 565.8 384
6 230.9 34 6 53314.81 1156 36 7850.6 1385.4 204
7 366.7 9 6 134468.89 81 36 3300.3 2200.2 54
8 300.6 8 10 90360.36 64 100 2404.8 3006 80
9 237.8 23 10 56548.84 529 100 5469.4 2378 230
10 121.4 63 3 14737.96 3969 9 7648.2 364.2 189
11 31.4 65 10 985.96 4225 100 2041 314 650
12 203.5 41 6 41412.25 1681 36 8343.5 1221 246
13 441.1 21 3 194569.21 441 9 9263.1 1323.3 63
14 323 38 3 104329 1444 9 12274 969 114
15 52.47 58 10 2753.1009 3364 100 3043.26 524.7 580
3347.3 982032.53 3030 102058.3 19056.
suma= 7 604 95 1 8 725 6 7 3833

15 604 95 3347.37
𝑋 ′ 𝑋 = [604 30308 3833] 𝑋 ′ 𝑌 = [102058.36] 𝑌 ′ 𝑌 = 982032.531
95 3833 725 19056.7

0.65746701 −0.0066605297 −0.0509373184


(𝑋′𝑋)−1 = [−0.0066605297 0.0001670437 −0.0000103838]
−0.0509373184 −0.0000103838 0.0081087536

213
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

𝑏0 550.33
𝑏 (𝑋 ′ −1 (𝑋 ′
𝑏 = [ 1] = 𝑋) . 𝑌) = [−5.4449]
𝑏2 −17.040

ANVA

𝑆𝐶(𝑅𝑒𝑔) = 𝑏 ′ (𝑋 ′ 𝑌) − 𝑛𝑦̅ 2
3347.37 3347.37 2
= [550.32542 −5.44493 −17.03972] [102058.36] − 15 ( )
19056.7 15
= 214729
3347.37 2
𝑆𝐶(𝑇𝑜𝑡𝑎𝑙) = 𝑌 ′ 𝑌 − 𝑛𝑌̅ 2 = 982032.531 − 15 ( 15 ) = 235040
𝑆𝐶(𝑅𝑒𝑠) = 𝑆𝐶(𝑇𝑜𝑡𝑎𝑙) − 𝑆𝐶(𝑅𝑒𝑔) = 235040.1 − 214728.9 = 20311

Matriz Variancia-Covariancia

𝑆𝐶(𝑅𝑒𝑠) 20311
𝐶𝑀𝐸 = = = 1693
𝐺𝐿(𝑅𝑒𝑠) 12

𝑆𝑏2 = 𝐶𝑀(𝑅𝑒𝑠) ∗ (𝑋 ′ 𝑋)−1


0.65746701 −0.0066605297 −0.0509373184
= 1693 ∗ [−0.0066605297 0.0001670437 −0.0000103838]
−0.0509373184 −0.0000103838 0.0081087536

1113.09165 8 −11.27627677 −86.23688009


= [−11.27627677 0.28280502 −0.01757977 ]
−86.23688009 −0.01757977 13.72811982

Reporte en Minitab:

Correlación: Y, X1, x2
Y X1
X1 -0.872
x2 -0.398 0.009
Análisis de regresión: Y vs. X1, x2

La ecuación de regresión es
Y = 550 - 5.44 X1 - 17.0 x2

Coef.
Predictor Coef de EE T P
Constante 550.33 33.36 16.50 0.000
X1 -5.4449 0.5317 -10.24 0.000
x2 -17.040 3.705 -4.60 0.001

S = 41.1412 R-cuad. = 91.4% R-cuad.(ajustado) = 89.9%

214
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Análisis de varianza
Fuente GL SC MC F P
Regresión 2 214729 107364 63.43 0.000
Error residual 12 20311 1693
Total 14 235040
Valores pronosticados para nuevas observaciones
Nueva Ajuste
Obs Ajuste SE IC de 95% PI de 95%
1 203.8 12.4 (176.7, 230.9) (110.1, 297.4)
Valores de predictores para nuevas observaciones
Nueva
Obs X1 x2
1 48.0 5.00

Solución:
a. Según la matriz de correlaciones, observamos que existe una alta correlación
negativa entre Y e X1 (-0.872) y una correlación moderada negativa entre Y e X2 (-
0.398), es casi cero entre X1 y X2 y es como debe de ser, no debe existir asociación
entre las variables independientes.

a. Ecuación de regresión lineal múltiple

Y = 550.325 – 5.445X1 – 17.04 X2

b. Cuando la temperatura ambiente promedio estimada diaria se incremente en 1 °F, el


consumo mensual promedio de petróleo para calefacción disminuirá en 5.445
galones, manteniendo constante la cantidad de aislamiento en el desván. (b 1)

Cuando la cantidad de aislamiento en el desván se incremente en 1 pulgada de


grosor, el consumo mensual promedio estimado de petróleo para calefacción
disminuirá en 17.04 galones, manteniendo constante la temperatura ambiente
promedio diario. (b2)

c. Si X1= 50 X2= 10

Y = 550.325 – 5.445(50) – 17.04 (10)=107.675 galones

d. R2= 0.91358

El 91.36% de la variabilidad del consumo mensual de petróleo, es explicado por las


variables X1 y X2 , por el modelo y solo el 8.64% se debe al error propio del muestreo
y a otras variables que no han sido consideradas en el modelo.
e. Análisis de Variancia

Ho: 1  2  0
H1: Existe al menos una βi diferente a cero

α = 0.05

El estadístico de prueba es:

215
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

CM Re g
Fcalc  ~ F(p-1, n-p)
CME
107364.458
Fcalc   63.43 ; F(2, 12 gl,0.95) = 3.88
1692.6013
Como Fc > Ft, entonces, se rechaza la Ho y se acepta la H1.
Conclusión: A un nivel de significación del 5%, podemos afirmar que al menos ya
sea temperatura o aislamiento se relacionan con el consumo de petróleo.

f.
Efecto Lineal Adicional

Ho: β1=0 H1: β1≠0 Ho: β2=0 H1: β2≠0

Nivel de significación: α = 0.05

Prueba estadística:
bj
tc j  ~ t12
sb j
−5.4449 −17.04
𝑡 = 0.5317316 = −10.24 𝑡 = 3.704712 = −4.5995

Criterio de decisión: t(12,0.975)=2.179

Si 2.179  tc j  2.179 no se rechaza Ho


Si tc j  2.179 ó tc j  2.179 se rechaza Ho

Conclusión (La conclusión se hace para cada hipótesis)

Para X1:
Con un nivel de significación del 5% se rechaza Ho. Por lo tanto la variable
temperatura (X1) si influye en el modelo de regresión.

Para X2:
Con un nivel de significación del 5% se rechaza Ho. Por lo tanto la variable cantidad
de aislamiento (X2) si influye en el modelo de regresión.

Efecto Lineal Directo

Ho: β1=0 H1: β1≠0 Ho: β2=0 H1: β2≠0

α = 0.05
CM Re g
Fcalc 
CME

216
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

ANALISIS DE VARIANCIA ANALISIS DE VARIANCIA

F de V GL SC CM F F de V GL SC CM F
Regresión 1 178922 178922 41.45 Regresión 1 37247 37247 2.45
Residual 13 56118 4317 Residual 13 197793 15215
Total 14 235040 Total 14 235040

F(1,13;0.95)=4.67

Conclusión: El efecto lineal directo con respecto a X1 es significativo y no así con


respecto a X2.

i. Selección de Variables.

Comentario: La idea de la resolución de esta pregunta es la de utilizar ambas pruebas


hipótesis para seleccionar un modelo óptimo sin variables no significativas. En el caso
de que en la prueba de efectos adicionales hubiese habido alguna variable no
significativa, se tendría que descartar esa variable y luego generar un nuevo modelo con
las variables restantes.

Paso 1 : ANVA con todas las variables independientes

Ho: 1  2  0
H1: Existe al menos una βi diferente a cero

α = 0.05

El estadístico de prueba es:


CM Re g
Fcalc  ~ F(2, 12)
CME
107364.458
Fcalc   63.43 ; F(2, 12 gl,0.95) = 3.88
1692.6013

Como Fc > Ft, entonces, se rechaza la Ho y se acepta la H1.

Paso 2: Análisis de efectos adicionales

Ho: β1=0 H1: β1≠0 Ho: β2=0 H1: β2≠0


α = 0.05
𝑏
𝑡 = 𝑆 1 ~𝑡(𝐺𝐿(𝐸𝐸))
𝑏1

−5.4449 −17.04
𝑡 = 0.5317316 = −10.24 𝑡 = 3.704712 = −4.5995

t(12,0.975)=2.179

En ambos casos se rechaza Ho. Por lo tanto las dos variables forman parte del modelo
y proceso de selección termina, por lo tanto, el modelo estimado es:

Y = 550.325 – 5.445X1 – 17.04 X2

217
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

j. Intervalo de Confianza del valor medio a un 95%


La estimación puntual es: Y = 550.325 – 5.445(48) – 17.04(5) = 203.8 Intervalo:

IC :(176.7, 230.9)

k. Intervalo de Predicción de un valor individual un 95%


La estimación puntual es: Y = 550.325 – 5.445(48) – 17.04(5) = 203.8
Intervalo:
IP: (110.1, 297.4)

Ejemplo de Aplicación 2

A continuación se dan los pesos de Y (Kg.), las alturas de X1 (cm) y la edad de X2 (años)
de 9 alumnos universitarios.

Peso (Y) 68 71 53 67 55 58 77 57 56
Altura(X1) 177 179 169 182 171 170 175 168 172
Edad (X2) 19 20 16 21 18 17 20 19 20

a) Analice la correlación de todas las variables independientes con la variable


dependiente.
b) Determine la ecuación de regresión lineal múltiple estimada.
c) Interpretación de b1 y b2
d) Realice el Análisis de Variancia. Use α=0.05 y de sus conclusiones.
e) ¿Qué porcentaje de la variabilidad total de los costos de distribución es explicado
por el modelo?
f) Estimar el peso de un alumno universitario de 18 años y 177 cms de altura.
g) Evalúe el efecto lineal adicional de los Xi

Reportes de Minitab:
Correlación: Peso (Y), Altura(X1), Edad (X2)
Peso (Y) Altura(X1)
Altura(X1) 0.742
0.022

Edad (X2) 0.644 0.729


0.061 0.026

Contenido de la celda: Correlación de Pearson


Valor p
Análisis de regresión: Peso (Y) vs. Altura(X1), Edad (X2)
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 2 328.07 164.04 4.03 0.078
Altura(X1) 1 90.51 90.51 2.22 0.186
Edad (X2) 1 13.12 13.12 0.32 0.591
Error 6 244.15 40.69
Total 8 572.22

Resumen del modelo


R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
6.37900 57.33% 43.11% 13.08%

218
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Coeficientes
EE del
Término Coef coef. Valor T Valor p VIF
Constante -135.4 93.7 -1.44 0.199
Altura(X1) 1.013 0.679 1.49 0.186 2.13
Edad (X2) 1.16 2.04 0.57 0.591 2.13

Solución:

a) Analizando las correlaciones.


Existe una alta correlación positiva (0.7419) entre el peso (Y) y altura (X1). Así también,
el Peso (Y) con la edad (X2), presentan una alta correlación positiva (0.644). Respecto a
la correlación entre la altura (X1) y la edad (X2) es de 0.729, lo que indica una correlación
relativamente alta. Estos resultados hacen sospechar la existencia de un efecto de
multicolinealidad entre variables independientes.

Considerando una prueba hipótesis para cada correlación entre la variables peso (Y) vs.
altura (X1) y peso (Y) vs. edad (X2), se tendría lo siguiente:

H 0 : Y , X1  0 H 0 : Y , X 2  0
H1 : Y , X1  0 H1 : Y , X 2  0
  0.05   0.05
rY , X1  0.742 rY , X 2  0.644
P  valor  0.022 P  valor  0.061

Conclusión: Con α =0.05 se rechaza Ho. Conclusión: Con α = 0.05 no se rechaza


Se puede afirmar que existe correlación Ho. No se puede afirmar que existe
del peso (Y) con la altura (X1) correlación del peso (Y) con la edad (X1)

b) Ecuación de regresión lineal múltiple estimada.

Y= -135.376 + 1.013 X1 + 1.157 X2

Donde: Y : peso (kg)


X1 : altura (cm)
X2 : edad (años)

c) b1: Cuando la estatura del alumno se incremente en 1 cm, su peso promedio se


incrementará en 1.013 Kgs, manteniendo constante la edad.
b2: Cuando la edad del alumno se incremente en 1 año, su peso promedio se
incrementará en 1.157 Kgs, manteniendo constante la estatura.

d) Análisis de Variancia. Use α=0.05 y de sus conclusiones.

Ho: 1  2  0
H1: Existe al menos una βi diferente a cero

α = 0.05
El estadístico de prueba es:

219
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

CM Re g
Fcalc  ~ F(p-1, n-p)
CME

Fc = 4.03 F(2, 6 gl,0.95) = 5.14

Como Fc < Ft, entonces, No se rechaza la Ho

Conclusión:

Con un nivel de significación del 5%, y con la información estadística recolectada


no podemos afirmar que al menos una variable ya sea la edad y/o altura se
relacionan linealmente con el peso.

e) Variabilidad total de los costos de distribución es explicado por el modelo.

El 57.33% de la variabilidad total de los costos de distribución es explicado por el


modelo.

f) Estimación del peso de un alumno universitario de 18 años y 177 cms de altura.

Reemplazando en la ecuación de regresión estimada:

Y = -135.376 + 1.013 (1.77) + 1.157 ( 18) = 64.751kg.

g) Evalúe el efecto lineal adicional de los X’s.

Efecto Lineal Adicional

Ho: β1=0 H1: β1≠0 Ho: β2=0 H1: β2≠0

α = 0.05
𝑏
𝑡 = 𝑆 1 ~𝑡(𝐺𝐿(𝐸𝐸))
𝑏1

1.0132127 1.1572851
𝑡= = 1.491407 𝑡= = 0.56782517
0.679867 32.08810102

t(6,0.975)=2.447

En ambos casos se acepta Ho.


Conclusión: En ambos casos el efecto lineal adicional resulta no significativo,
siendo la variable X1 la que muestra mayor efecto adicional.

INVESTIGACIONES QUE UTILIZARON ESTE ANÁLISIS


Diego Fernando Cardona Madariaga, Javier Leonardo González Rodríguez, Miller Rivera Lozano,
Edwin Hernán Cárdenas Vallejo. (2014) APLICACIÓN DE LA REGRESIÓN LINEAL ES UN PROBLEMA
DE NUTRICIÓN. Revista ingenio libre. Edición 13. Descargado de:
http://www.unilibre.edu.co/revistaingeniolibre/revista-12/ar3.pdf

220
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

EJERCICIOS PROPUESTOS

1. El gerente de una empresa inmobiliaria realiza un estudio de precios en una muestra


de 21 viviendas que posee la urbanización “El Sol”, donde existe un solo centro
comercial. Se consideran en el análisis las siguientes variables:

Y  Precio de la vivienda (en miles de dólares)

X 1  Área construida de la vivienda (en metros cuadrados)


X 2  Distancia al centro comercial (en metros) y
X 3  Antigüedad de la vivienda (en años)

Análisis de regresión: Precio vs. Area, Distancia, Antigüedad

Predictor Coef SECoef T


Constante 75.73 16.77 4.52
Área 0.2849 0.0332 8.58
Distancia 0.0092 0.0134 0.69
Antigüedad -3.377 1.4942 -2.26

a. Estime la ecuación de regresión lineal múltiple e interprete el coeficiente estimado


para la variable antiguedad
b. Determine si el modelo es significativo. Use α = 0.05

Fuente GL SC CM Fc
Regresión 17526
Error 3912
Total
c. Calcule e interprete el coeficiente de determinación.
d. Determine el mejor modelo.
e. Estime el precio de la vivienda, con un área construida de 90 metros cuadrados, que
tiene una distancia al centro comercial de 50 metros y con una antigüedad de 5 años.

2. Un ingeniero agrónomo está interesado en evaluar la influencia de ciertas variables


controlables sobre el rendimiento de maíz (t/ha.) en 10 parcelas representativas de
los valles de Chicama en La Libertad. Las variables controlables consideradas en el
estudio fueron:

X1: Densidad de plantas por hectárea


X2: Nitrógeno agregado (en Kg/ha.)
X3: Días entre la rotura y siembra

Los resultados obtenidos con el programa Minitab 17 se muestran a continuación:

221
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Análisis de regresión: Y vs. X1, X2, X3

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Regresión 3 4251.07 1417.02 75.22 0.000
Error 6 113.03 18.84
Total 9 4364.10

Resumen del modelo

R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
4.34038 97.41% 96.11% 94.19%

Coeficientes

EE del
Término Coef coef. Valor T Valor p FIV
Constante 62.08 7.22 8.60 0.000
X1 0.382 0.138 2.77 0.032 1.29
X2 0.2878 0.0220 13.05 0.000 1.54
X3 -0.0812 0.0641 -1.27 0.252 1.59

a. Halle e interprete el coeficiente de regresión asociado al nitrógeno agregado.


b. Suponga que se cuenta con la información de dos nuevas parcelas:

Parcela X1 X2 X3

A 37 40 15

B 80 50 70

¿Cuál de ellas obtendrá un menor rendimiento estimado de maíz? Justifique


numéricamente su respuesta.

c. Realice el análisis de varianza. Use α = 0.05


d. Analice los efectos lineales adicionales del modelo de regresión. Pruebe las hipótesis
correspondientes y de sus conclusiones. Luego utilice lo obtenido para responder la
siguiente pregunta ¿Cuál de las variables significativas tiene un mayor aporte en el
modelo? Justifique su respuesta. Use α = 0.05

3. El gerente de una empresa dedicada a la producción de incineradores de


desperdicios municipales está interesado en mejorar el diseño de los mismos. Para
la realización de un estudio contrató a un ingeniero ambiental.
El ingeniero ambiental le comentó al gerente que requiere información acerca del
contenido energético de los desperdicios (en Kcal/Kg) para evaluarlo en función del

222
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

porcentaje de plástico (X1), porcentaje de papel (X2), porcentaje de orgánicos (X3)


y porcentaje de humedad (X4), todos calculados en base al peso de los desperdicios.

Para el estudio se tomó muestra de treinta depósitos de desperdicios. Algunos


resultados se muestran a continuación:

Análisis de regresión: Y vs. X1, X2, X3, X4

Resumen del modelo

R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
87.1557 72.48% 68.07% 55.67%

Coeficientes

EE del
Término Coef coef. Valor T Valor p FIV
Constante 1470 465 3.16 0.004
X1 30.97 7.87 3.93 0.001 1.17
X2 9.94 6.41 1.55 0.134 1.79
X3 7.42 5.35 1.39 0.178 1.79
X4 -26.57 4.67 -5.69 0.000 1.13

Para el desarrollo de las siguientes preguntas considere el modelo usando todas


las variables explicativas y asuma el cumplimiento de supuestos necesarios.

a. Complete el cuadro ANVA, y luego pruebe si al menos una de las variables influye
linealmente sobre el contenido energético de los desperdicios. Use α=0.01

Fuente GL SC CM Fcal
Regresión
Error 7596
Total 689930

b. Halle e interprete el coeficiente de regresión estimados asociado al porcentaje de


humedad.
c. Calcule e interprete (1-r2)100%
d. El ingeniero ambiental afirma que el porcentaje de residuos de papel es
significativo, manteniendo constantes las demás variables, sobre el contenido
energético de los desperdicios. Realice la prueba estadística más adecuada. Use
α=0.01.

Referencias

R.G.D. Steel, & Torrie, J.H.(1985). Bioestadística Principios y Procedimientos. McGraw


Hill, ed Bogotá, Colombia.

Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of
data analysis. Australia: Duxbury/Thomson Learning

223
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Capítulo XI
ANALISIS DE COVARIANZA

Objetivos:

- Identificar la existencia de una variable cuantitativa independiente que afecta a la


variable respuesta en un experimento.
- Incluir la variable cuantitativa independiente en el análisis correspondiente a un
DCA o DBCA.

1. Introducción

En el análisis de un experimento se evalúa el efecto de los tratamientos en una variable


respuesta, cuantificando en el error experimental el efecto de otras variables no incluidas
en el estudio.

En muchos casos, como el mencionado anteriormente, el análisis de varianza es el


método estadístico adecuado para analizar los datos. Sin embargo, hay experimentos
donde la variable respuesta está relacionada con una o más variables independientes.
Kuehl (2001), denomina a estas variables independientes como concomitantes o
covariadas, ya que pueden medirse en cualquier momento durante el experimento y al
realizar el análisis de datos se puede evaluar su influencia sobre la variable respuesta.
Este autor comenta también que el uso de estas variables como información adicional
en el experimento es considerado una práctica de control local, teniendo como objetivo
reducir la estimación del error experimental.

La técnica del análisis de covarianza (ANCOVA) combina la metodología de la regresión


lineal con el análisis de varianza y evalúa la influencia de una covariable sobre la variable
respuesta. Está técnica permite también comparar los tratamientos en base a las medias
de la variable respuesta ajustada por la covariable.

En este capítulo se tratará al análisis de covarianza con una sola variable independiente
y se presentará el análisis para el Diseño completamente al azar y el Diseño de Bloques
Completos al Azar.

2. Ventajas y desventajas del análisis de covarianza

Ventajas

 Disminuye el error experimental, obteniendo el aumento en la precisión del


experimento.
 Es útil cuando la característica adicional que diferencia a las unidades
experimentales es cuantitativa y toma muchos valores. Es decir, cuando no es
práctico considerar a esta variable como un bloque en el experimento.
 Permite ajustar los promedios de los tratamientos, por la diferencia entre los
promedios de la variable independiente.

224
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Desventajas
 El cálculo manual (sin el uso de un programa estadístico) para realizar el análisis es
laborioso.
 Si existe interacción entre la covariable con el tratamiento y/o con el bloque, y entre
el tratamiento con el bloque, estas van incluidas en el error experimental.
 Presenta una elevada cantidad de supuestos.

3. Supuestos del análisis de covarianza

Cuando se utiliza el análisis de covarianza es necesario asumir ciertos requisitos que le


den validez al análisis. Estos supuestos son los siguientes:

 La variable X es fija, medida sin error y no es afectada por los tratamientos.


 Las variables X e Y deben tener varianzas homogéneas en los tratamientos.
 Las variables X e Y deben tener distribución normal.
 La regresión de Y explicada por X, debe ser lineal.
 Los errores deben distribuirse independientemente de forma normal con media cero
y con varianza constante σ2.

4. Análisis de covarianza en el diseño completamente al azar

Modelo aditivo lineal

Yij     i    X ij  X     ij i  1,2,..., t j  1,2,..., r

Donde:
Yij : es el valor observado de la variable respuesta obtenido del i- ésimo tratamiento en
la j-ésima repetición.
 : es el efecto de la media general.
 i : es el efecto del i-ésimo tratamiento.
 : es el coeficiente de regresión lineal del Y explicado por X.
X ij : es el valor observado de la variable independiente en el i-ésimo tratamiento y
la j-ésima repetición
X  : es el promedio de la variable independiente.
 ij : es el efecto del error experimental obtenido del i-ésimo tratamiento en la j-ésima
repetición.

Cuadro ANCOVA

F.V G.L S.C. Y S.P. S.C. aj. G.L aj. C.M. aj.
X2 XY Y2 Y2 -(XY)2/X2
Trat t -1 Txx Txy Tyy
SCE = Eyy – (Exy)2 SCEaj
Error n-t Exx Exy Eyy Exx n–t-1
GLEaj
Trat + Error SCT+E = SCyy - (SPxy)2
n – 1 SCxx SPxy SCyy SCxx
(Total)
DIFERENCIA PARA PRUEBAS DE CMTrataj
SCTrataj = SCT+E – SCE t-1
MEDIAS AJUSTADAS DE TRAT GLTrataj
225
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

A continuación, se muestra el procedimiento para construir el cuadro ANCOVA:

1. Calcule los grados de libertad de las fuentes de variación


2. Calcule las sumas de cuadrados total X e Y, y la suma de productos total
(Trat+Error)

t r t r
SC XX   X ij2  TC X SPXY   X ijYij  TC XY
i 1 j 1 i 1 j 1
t r
SCYY   Yij2  TCY
i 1 j 1

Donde:
 X  
2

TC XY 
 X  Y  Y 
2

TC X  TCY 
n n n

3. Calcule la suma de cuadrados en X e Y, y la suma de productos para cada una


de las fuentes de variación

Para tratamientos:

 X i 
t 2 t
X iYi
TXX    TC X TXY    TC XY
i 1 ni i 1 ni
Yi 
2
t
TYY    TCY
i 1 ni

Para el error (por diferencia):

EXX  SCXX  TXX EYY  SCYY  TYY EXY  SPXY  TXY

4. Calcule las sumas de cuadrados ajustadas

2 2
E XY SPXY
SCE  EYY  SCT  E  SCYY 
E XX SC XX

5. Calcule los cuadrados medios ajustados y sus grados de libertad

Pruebas de Hipótesis

a) Prueba de influencia de la covariable en el experimento

P1) Planteamiento de Hipótesis

Ho: β = 0 (la variable respuesta depende linealmente de la covariable)


H1: β ≠ 0 (la variable respuesta no depende linealmente de la covariable)

P2) Nivel de significación α

226
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

P3) Estadístico de Prueba

2
E XY
E XX
Fcal  ~ F(1,GLE aj )
CME aj

P4) Criterios de Decisión

Si Fcal>F(1-α,1,GLE aj) entonces se rechaza H0.

P5) Conclusión

b) Prueba de medias ajustadas

Si la variable respuesta depende linealmente de la covariable entonces las medias


simples deben corregirse por intervención de esta, y se denominarán medias
ajustadas.

La siguiente prueba de hipótesis verifica si el efecto de al menos uno de los


tratamientos influye sobre la media ajustada de la variable respuesta.

P1) Planteamiento de Hipótesis

H 0 : 1.aj  2.aj  ...  t .aj i  1,2,..., t


H1 : Al menos un i.aj es distinto a los demás

P2) Nivel de significación α

P3) Estadístico de Prueba

CMTrat aj
Fcal  ~ F(GLTrat aj ,GLE aj )
CME aj

P4) Criterios de Decisión

Si Fcal>F(1-α, GLTrat aj,GLE aj) entonces se rechaza H0.

P5) Conclusión

Las medias de tratamientos ajustadas

Las estimaciones de las medias de tratamientos se ajustan a un valor común de la


covariable, si la inclusión de esta en el modelo reduce significativamente el error
experimental. La siguiente formula se utiliza para obtener la estimación puntual de las
medias de tratamientos ajustadas por la media general de la covariable:

Yiaj  Yi  ˆ ( X i  X  ) i  1,2,..., t

227
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Donde ˆ es el coeficiente de regresión estimado y se obtiene con la siguiente expresión:


E
ˆ  XY
E XX

Pruebas de Comparación de Medias de Tratamientos

Para aplicar las pruebas de comparación de medias de tratamientos se debe de utilizar


las medias de los tratamientos ajustadas por la regresión.

Las desviaciones estándar para las pruebas se muestran en el siguiente cuadro:

Prueba de Comparación Desviación estándar

 1 1 ( X i  X j  )2 
t y DLS Sd  CMEaj    
r r EXX
 i j 
CMEaj  1 1 ( X i  X j  )2 
Tukey Sd     
2  ri rj EXX 
 1 1 ( X  X T  )2 
Dunett Sd  CMEaj    i 
 ri rT E XX 

Estas fórmulas se aplican si el diseño es un DCA con ri y rj repeticiones para el par de


tratamientos que se estén comparando (rT es el número de repeticiones para el
tratamiento testigo)

Ejemplo de Aplicación 1

Se utilizó un experimento para determinar si tres tipos de alimentos producen el mismo


peso en el ganado porcino (en kilogramos). Por ello se registró el peso inicial (en
kilogramos) de los cerdos antes del experimento.

Los datos obtenidos fueron:

Peso inicial (X) 3 4 7 8 9 8 10 10 11


Peso final (Y) 12.0 14.0 16.0 20.2 21.3 18.9 19.0 19.2 20.0
Dieta A A A B B B C C C
Estos datos se pueden presentar alternativamente en la siguiente tabla:

A B C
Repetición
X Y X Y X Y
1 3 12 8 20.2 10 19
2 4 14 9 21.3 10 19.2
3 7 16 8 18.9 11 20
Total 14 42 25 60.4 31 58.2

228
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

a) Presente el modelo aditivo lineal y describa cada uno de sus componentes de


acuerdo al caso.

Yij     i    X ij  X     ij i=1,2,3 j=1,2,3


Donde:

Yij : es el peso final (en kg.) obtenido con el i-ésimo tipo de alimento en el j-ésimo cerdo.
 : es el efecto de la media general del peso final.
 i : es el efecto del i-ésimo tipo de alimento.
 : es el coeficiente de regresión lineal del peso final de los cerdos explicado por el peso
inicial.
X ij : es el peso inicial (en kg.) correspondiente al i-ésimo tipo de alimento y al j-ésimo
cerdo.
X  : es el peso inicial promedio de los cerdos.
 ij : es el efecto del error experimental obtenido con el i-esimo tipo de alimento en el j-
ésimo cerdo.

b) Construya el cuadro ANCOVA.

Análisis de Covariancia

Cálculo de Términos de Corrección:

𝑥..2 𝑋.. 𝑌.. 𝑌..2


𝑇𝐶𝑥 = 𝑇𝐶𝑋𝑌 = 𝑇𝐶𝑌 =
𝑛 𝑛 𝑛

(3 + 4+. . . +11)2 (70)2 (70)(160.6)


𝑇𝐶𝑥 = = = 544.44 𝑇𝐶𝑋𝑌 = = 1249.11
9 9 9

(12.0 + 14.0+. . . +20.0)2


𝑇𝐶𝑌 = = 2865.82
9

Cálculo de Sumas de Cuadrados y Sumas de Productos Totales:


𝑡 𝑟

𝑆𝐶𝑋𝑋 = ∑ ∑ 𝑋𝑖𝑗 2 − 𝑇𝐶𝑋 = (32 + 42 +. . . +112 ) − 544.44 = 604 − 544.44 = 59.56


𝑖=1 𝑗=1

𝑡 𝑟

𝑆𝑃𝑋𝑌 = ∑ ∑ 𝑋𝑖𝑗 𝑌𝑖𝑗 − 𝑇𝐶𝑋𝑌 = (3)(12) + (4)(14) + ⋯ + (11)(20.0) − 1249.11


𝑖=1 𝑗=1
= 1310.5 − 1249.11 = 61.39

𝑡 𝑟

𝑆𝐶𝑌𝑌 = ∑ ∑ 𝑌𝑖𝑗 2 − 𝑇𝐶𝑋𝑌 = (122 + 142 +. . . +202 ) − 2865.82 = 78.76


𝑖=1 𝑗=1
229
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Cálculo de Sumas de Cuadrados y Sumas de Productos de Tratamientos:


𝑡
𝑡 2 𝑋𝑖. 𝑌𝑖.
𝑋𝑖. 𝑇𝑋𝑌 = ∑ − 𝑇𝐶𝑋𝑌 = 51.62
𝑇𝑋𝑋 = ∑ − 𝑇𝐶𝑋 = 49.56 𝑛𝑖
𝑛𝑖 𝑖=1
𝑖=1
𝑡
𝑌𝑖. 2
𝑇𝑌𝑌 = ∑ − 𝑇𝐶𝑌 = 67.32
𝑛𝑖
𝑖=1

Para el error (por diferencia):

𝐸𝑋𝑋 = 𝑆𝐶𝑋𝑋 − 𝑇𝑋𝑋 = 59.56 − 49.56 = 10

𝐸𝑋𝑌 = 𝑆𝑃𝑋𝑌 − 𝑇𝑋𝑌 = 61.39 − 51.62 = 9.77

𝐸𝑌𝑌 = 𝑆𝐶𝑌𝑌 − 𝑇𝑌𝑌 = 78.76 − 67.32 = 11.44

Cálculo de Sumas de Cuadrados Ajustadas:

𝐸𝑋𝑌 2 𝑆𝑃𝑋𝑌 2
𝑆𝐶𝐸 = 𝐸𝑌𝑌 − 𝑆𝐶𝑇+𝐸 = 𝑆𝐶𝑌𝑌 −
𝐸𝑋𝑋 𝑆𝐶𝑋𝑋

Cuadro ANCOVA

F.V G.L
S.C. Y S.P. S.C Ajust. G.L aj. C.M.aj.
X2 XY Y2 Y2 -(XY)2/X2
TRAT 2 49.56 51.62 67.32
EE 6 10.00 09.77 11.44 1.89 5 0.3789
TRAT + EE 8 59.56 61.39 78.76 15.49
DIFERENCIA PARA PRUEBAS DE
13.589 2 6.79
MEDIAS AJUSTADAS DE TRAT.

c) Pruebe si el peso inicial influye sobre el peso final. Use α=0.05.

P1) 𝐻0 : 𝛽 = 0
𝐻1 : 𝛽 ≠ 0

P2) 𝛼 = 0.05

𝐸𝑋𝑌 2 9.772
𝐸
= 10 = 25.19 ∼ 𝐹(1,𝑔𝑙 Eajust.)
P3) 𝑋𝑋
𝐹𝐶 =
𝐶𝑀𝐸𝑎𝑗 0.3789

𝐹𝐶 = 25.19 > 𝐹(0.95,1,5) = 6.61


230
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

P4)

P5) Conclusión: Con un nivel de significación del 5% se rechaza Ho. Luego podemos
afirmar que existe suficiente evidencia estadística para afirmar que el peso final de los
cerdos depende linealmente de su peso inicial.

d) Pruebe si al menos una de las dietas produce diferente peso promedio final.
Use α = 0.05

P1) 𝐻0 : 𝜇1.ajus = 𝜇2.ajus = 𝜇3.ajus para todo i=1,2,3.


𝐻1 : Al menos una 𝜇𝑖.ajus es diferente

P2) 𝛼 = 0.05

𝐶𝑀(trat ajust) 6.79


P3) 𝐹𝑐 = = 0.3789 = 17.92
𝐶𝑀𝐸𝑎𝑗𝑢𝑠

P4) 𝐶𝑜𝑚𝑜 𝐹𝑐 = 17.92> 𝐹(0.95,2,5) = 5.79

P5) Conclusión: A un nivel de significación del 5% se rechaza 𝐻𝑜 . Luego se puede


afirmar que al menos uno de los alimentos no produce el mismo peso final medio
ajustado por el peso inicial

e) Compare los tratamientos utilizando la prueba de Tukey. ¿Qué alimento


recomendaría? Use α = 0.05

P1) 𝐻0 : µi.aj = µj.aj ∀𝑖, 𝑗 = 𝐴, 𝐵, 𝐶


𝐻1 : µi.aj ≠ µj.aj Donde i≠j
P2) α = 0.05
P3 y P4) Cálculos y criterios de decisión

^ = 𝐸𝑋𝑌 = 9.77 = 0.977


𝛽
𝐸𝑋𝑋 10.0

𝑋1. = 4.67 𝑋2. = 8.33 𝑋3. = 10.33 𝑋.. = 7.78

𝑌1. = 14.0 𝑌2. = 20.13 𝑌3. = 19.4 𝑌.. = 17.84

Medias de tratamientos ajustadas


^ (𝑋 − 𝑋 )
𝑌𝑖.ajust = 𝑌𝑖. − 𝛽 𝑖. ..

𝑌1.ajust = 14 − 0.977(4.67 − 7.78) = 17.03

231
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

𝑌2.ajust = 20.13 − 0.977(8.33 − 7.78) = 19.59

𝑌3.ajust = 19.4 − 0.977(10.33 − 7.78) = 16.91

2
𝐶𝑀𝐸ajust 1 1 (𝑋 − 𝑋.𝑗 )
𝑆𝑑 = √ ∗ ( + + 𝑖. )
2 𝑟𝑖 𝑟𝑗 𝐸𝑋𝑋

𝐴𝐸𝑆(𝑇) = 4.60

0.3789 1 1 (4.67−8.33)2
A y B ----------- 𝐴𝐸𝑆(𝑇) ∗ √ ∗( + + )
2 3 3 10

0.3789 1 1 (4.67−10.33)2
A y C ----------- 𝐴𝐸𝑆(𝑇) ∗ √ ∗( + + )
2 3 3 10

0.3789 1 1 (8.33−10.33)2
B y C ----------- 𝐴𝐸𝑆(𝑇) ∗ √ ∗( + + )
2 3 3 10

Comparaciones |𝑌𝑖.ajust − 𝑌𝑗.ajust | Sd ALS (T) sig.

A–B 2.562 0.8563 2.836 n.s.


A–C 0.122 0.6175 3.939 n.s.
B-C 2.684 0.4495 2.068 *

Gráfico de líneas:

C A B

P5) Conclusión:
A un nivel de significación del 5% se puede afirmar que al analizar el peso final medio de
los cerdos ajustado por su peso inicial:
No existen diferencias significativas entre la dieta A con las dietas B y C. Pero si existe
diferencia significativa entre la dieta B y C.
La dieta a recomendar sería la B ya obtiene el mayor peso final medio,

232
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Reporte Minitab:

Modelo lineal general: Peso final vs. Peso inicial; Dietas

Método

Codificación de factores (-1; 0; +1)

Información del factor

Factor Tipo Niveles Valores


Dietas Fijo 3 1; 2; 3

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Peso inicial 1 9.5388 9.5388 25.00 0.004
Dietas 2 13.5757 6.7878 17.79 0.005
Error 5 1.9079 0.3816
Falta de ajuste 3 1.0429 0.3476 0.80 0.596
Error puro 2 0.8650 0.4325
Total 8 78.7622

Comparaciones por parejas de Tukey: Respuesta = Peso final, Término = Dietas

Agrupar información utilizando el método de Tukey y una confianza de 95%

Dietas N Media Agrupación


2 3 19.5907 A
1 3 17.0385 A B
3 3 16.9041 B

Las medias que no comparten una letra son significativamente diferentes.

Pruebas simultáneas de Tukey para diferencias de las medias

Diferencia
de Dietas Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado
2 - 1 2.552 0.876 (-0.297; 5.402) 2.91 0.073
3 - 1 -0.13 1.22 ( -4.09; 3.82) -0.11 0.993
3 - 2 -2.687 0.638 (-4.762; -0.612) -4.21 0.019

Nivel de confianza individual = 97.74%

Análisis de covarianza en el diseño de bloques completamente al azar.

Modelo Aditivo Lineal

El modelo aditivo lineal para un análisis de covarianza en un Diseño de Bloques


Completos al Azar es el siguiente:

_
Yij    ti   j   ( X ij  X .. )   ij i=1,…,t j=1,…b

233
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Donde:

𝑌𝑖𝑗 : es el valor observado de la variable respuesta en el i- ésimo tratamiento y j-ésimo


bloque.
𝜇 : es el efecto de la media general.
𝜏𝑖 : es el efecto del i-ésimo tratamiento.
𝛾𝑗 : es el efecto del j-ésimo bloque.
𝛽 : es el coeficiente de regresión lineal del Y explicado por X.
𝑋𝑖𝑗 : es el valor observado de la variable independiente en el i-ésimo tratamiento y j-
ésimo bloque.
_
X .. : es la media de la variable independiente.
𝜀𝑖𝑗 : es el efecto del error experimental en el i-ésimo tratamiento, j-ésimo bloque.

Cuadro ANCOVA

F.V G.L S.C. Y S.P. S.C Ajust. G.L aj. C.M.aj.


X XY Y
2 2
Y2 -(XY)2/X2
TOTAL rt-1 SCxx SPxy SCyy
BLOQ r-1 Bxx Bxy Byy
TRAT t - 1 Txx Txy Tyy
EE (t-1)(r-1) Exx Exy Eyy SCE = Eyy – (Exy)2 SCEaj
(t – 1)(r – 1) - 1
Exx GLEaj
TRAT + EE r( t – 1 ) TExx TExy TEyy SCT+E =TEyy - (TExy)2
TExx
DIFERENCIA PARA PRUEBAS DE
CMTrataj
MEDIAS AJUSTADAS DE TRAT SCTrataj = SCT+E- SCE t-1
GLTrataj

A continuación, se muestra el procedimiento para construir el cuadro ANCOVA:

1. Calcule los grados de libertad de las fuentes de variación


2. Calcule las sumas de cuadrados total X e Y, y la suma de productos total

t r t r
SC XX   X ij2  TC X SPXY   X ijYij  TC XY
i 1 j 1 i 1 j 1
t r
SCYY   Yij2  TCY
i 1 j 1

Donde:
X   X  Y  Y 
2 2

TC X   TC XY  TCY  
n n n

3. Calcule la suma de cuadrados en X e Y, y la suma de productos para cada una


de las fuentes de variación

Para bloques:

234
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

X 
2
b b X  jY j
BXX   BXY  
j
 TC X  TC XY
j 1 t j 1 t
X 
2
b
BYY  
j
 TCY
j 1 t

Para tratamientos:

 X i 
t 2 t
X iYi
TXX    TC X TXY    TC XY
i 1 b i 1 b
Yi 
t 2

TYY    TCY
i 1 b

Para el error (por diferencia):

EXX  SCXX  TXX  BXX EYY  SCYY  TYY  BYY

EXY  SPXY  TXY  BXY

4. Calcule las sumas de cuadrados ajustadas

2 2
E XY SPXY
SCE  EYY  SCT  E  SCYY 
E XX SC XX

5. Calcule los cuadrados medios ajustados y sus grados de libertad

Pruebas de Hipótesis

Las pruebas de hipótesis sobre la influencia de la covariable y las medias ajustadas son
las mismas que en el caso de un diseño completamente al azar.

Las medias de tratamientos ajustadas

De la misma manera como ocurre para un diseño completamente al azar, las medias de
los tratamientos deben ajustarse por la covariable si esta resultó significativa. La
expresión para calcular las medias de tratamientos ajustadas es la siguiente:

Yiaj  Yi  ˆ ( X i  X  ) i  1,2,..., t

Donde ˆ es el coeficiente de regresión estimado y se obtiene con la siguiente expresión:

E XY
ˆ 
E XX

Pruebas de Comparación de Medias de Tratamientos

235
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Para aplicar las pruebas de comparación de medias de tratamientos se debe de utilizar


las medias de los tratamientos ajustadas por la regresión.

Las desviaciones estándar para las pruebas se muestran en el siguiente cuadro:

Prueba de Comparación Desviación estándar

 1 1 ( X i  X j ) 2 
t y DLS Sd  CMEaj    
b b E XX 
CMEaj  1 1 ( X i  X j )2 
Tukey Sd     
2 b b E XX 
 1 1 ( X i  X T  ) 2 
Dunett Sd  CMEaj    
b b E XX 

Estas fórmulas se aplican si el diseño es un DBCA, las repeticiones (ri y rj) que aparecían
en las fórmulas para un DCA son reemplazadas por b, que es el número de bloques en
el experimento.

Ejemplo de aplicación 1

Se desarrolló un experimento cuyo objetivo era determinar si la exposición en agua


calentada artificialmente afectaba el crecimiento de las ostras. Cinco bolsas con diez
ostras, cada una fue aleatoriamente asignada a cinco temperaturas (T1, T2, T3, T4, T5);
cada bolsa constituía una unidad experimental. Se utilizaron cinco estanques, cada uno
calentado a una de las cinco temperaturas. Las ostras fueron limpiadas y pesadas al
comienzo y al final del experimento un mes después. El experimento se repitió cuatro
veces para lo cual fueron necesarios 4 meses. Cada repetición constituye un bloque. Los
pesos iniciales y finales se presentan en la siguiente tabla:

T1 T2 T3 T4 T5 TOTAL
Bloq.
X Y X Y X Y X Y X Y X Y
I 20.4 24.6 27.2 32.6 26.8 31.7 22.4 29.1 21.8 27.0 118.6 145.0
II 19.6 23.4 32.0 36.6 26.5 30.7 23.2 28.9 24.3 30.5 125.6 150.1
III 25.1 30.3 33.0 37.7 26.8 30.4 28.6 35.2 30.3 36.4 143.8 170.0
IV 18.1 21.8 26.8 31.0 28.6 33.8 24.4 30.2 29.3 35.0 127.2 151.8
Total 83.2 100.1 119.0 137.9 108.7 126.6 98.6 123.4 105.7 128.9 515.2 616.9
a) Presente el modelo aditivo lineal y describa cada uno de sus componentes en términos del
enunciado.

_
Yij    ti   j   ( X ij  X .. )   ij i=1,…,5 j=1,…,4

Donde:

𝑌𝑖𝑗 : es el peso final de una bolsa de ostras tratada con la i- ésima temperatura de agua
(tratamiento) en el j-ésimo mes (bloque).

236
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

𝜇 : es el efecto de la media general de los pesos.


𝜏𝑖 : es el efecto de la i-esima temperatura del agua.
𝛾𝑗 : es el efecto del j-esimo mes.
𝛽 : es el coeficiente de regresión lineal del peso final de las ostras explicado por el peso
inicial.
𝑋𝑖𝑗 : es el peso inicial de una bolsa de ostras tratada con la i-ésima temperatura de agua
(tratamiento) en el j-ésimo mes (bloque).
̅̅̅̅
𝑋•• : es el peso medio inicial de las bolsas de ostras.
𝜀𝑖𝑗 : es el efecto del error experimental obtenido con la i-esima temperatura de agua, en
el j-esimo mes.

b) Construya el cuadro ANCOVA

Cálculo de Sumas de Cuadrados y Sumas de Productos

Totales:
𝑡 𝑏
2
𝑆𝐶(𝑋) = ∑ ∑ 𝑋𝑖𝑗 − 𝑇𝐶𝑥
𝑖=1 𝑗=1
515.2²
= (20.4² + 19.6² + …+ 29.3²) – = 309.79
(5)(4)
𝑡 𝑏

𝑆𝑃(𝑋𝑌) = ∑ ∑ 𝑋𝑖𝑗 𝑌𝑖𝑗 − 𝑇𝐶𝑥𝑦


𝑖=1 𝑗=1
(515.2)(616.9)
= {(20.4)(24.6) + (19.6)(23.4) + ⋯ + (29.3)(35.0)} − (5)(4)
= 325.67
𝑡 𝑏
2
𝑆𝐶(𝑌) = ∑ ∑ 𝑋𝑖𝑗 − 𝑇𝐶𝑦
𝑖=1 𝑗=1
616.9²
=(24.6² + 23.4² + … + 35.0²) – (5)(4) = 358.67

Bloques
𝑏 2
𝑋•𝑗
𝐵𝑋𝑋 = ∑ − 𝑇𝐶𝑥
𝑡
𝑗=1

(118.62 + 125.62 + …+127.2² 515.2²


= − (5)(4)
= 68.37
5

b X . jY. j
BXY    TC XY
j 1 t

((118.6)(145.0) + (125.6)(150.1) + ⋯ + (127.2)(151.8)) (515.2)(616.9)


= − = 69.56
5 (5)(4)

𝑏
𝑌•𝑗2
𝐵𝑌𝑌 = ∑ − 𝑇𝐶𝑦
𝑡
𝑗=1

237
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

(145.02 + 150.12 + … + 151.82 ) 616.9²


− = 71.37
5 (5)(4)

Tratamientos

𝑡
𝑋𝑖•2
𝑇𝑋𝑋 = ∑ − 𝑇𝐶𝑥
𝑏
𝑖=1

(83.22 + 119.0²)+ …+105.7²) 515.2²


= − (5)(4)
= 176.79
4

𝑡
𝑋𝑖• 𝑌𝑖•
𝑇𝑋𝑌 = ∑ − 𝑇𝐶𝑋𝑌
𝑏
𝑖=1

((83.2)(100.1) + (119.0)(137.9) + ⋯ + (105.7)(128.9)) (515.2)(616.9)


= − = 181.61
4 (5)(4)
𝑡
𝑌𝑖•2
𝑇𝑌𝑌 = ∑ − 𝑇𝐶𝑌
𝑏
𝑖=1
(100.12 + 137.9²)+ …+128.9²) 616.9²
= − (5)(4)
= 198.41
4

Errores:

𝐸𝑋𝑋 = 𝑆𝐶(𝑋) − 𝐵𝑋𝑋 − 𝑇𝑋𝑋


= 309.79 – 68.37 – 176.79 = 64.63

𝐸𝑋𝑌 = 𝑆𝑃(𝑋𝑌) − 𝐵𝑋𝑌 − 𝑇𝑋𝑌


= 325.67 – 69.56 – 181.61 = 74.50

𝐸𝑌𝑌 = 𝑆𝐶(𝑌) − 𝐵𝑌𝑌 − 𝑇𝑌𝑌


= 358.67 – 71.37 – 198.41 = 88.89

Cuadro ANCOVA:

F.V G.L S.C. Y S.P. S.C Ajust. G.L aj. C.M.aj.


X2 XY Y2 Y2 -(XY)2/X2
TOTAL 19 309.79 325.67 358.67
BLOQ 3 68.37 69.56 71.37
TRAT 4 176.79 181.61 198.41
EE 12 64.63 74.50 88.89 3.0175 11 0.2743
TRAT + EE 16 241.42 256.11 287.30 15.6146
DIFERENCIA PARA PRUEBAS DE
12.5971 4 3.1493
MEDIAS AJUSTADAS DE TRAT

238
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

c) Pruebe si el efecto de la covariable es significativo

P1) Planteamiento de hipótesis

H0: β = 0 (El peso final de las ostras no depende linealmente del peso inicial)
H1: β = 0 (El peso final de las ostras sí depende linealmente del peso inicial)

P2) α=0.05
E2 xy 74.50²
Exx
P3) Fc = = 64.63
= 313.05 ~ F(1,11)
CME aj. 0.2743

P4) Como Fcal > F(0.95,1,11)=4.84 se rechaza Ho

P5) Conclusión:
El valor de tabla para un nivel de significación del 5% se rechaza Ho. Luego se puede
afirmar que existe suficiente evidencia estadística para aceptar que el peso final de las
ostras depende linealmente del peso inicial.

d) Pruebe si con al menos una temperatura se obtiene un peso medio final diferente
para las ostras

P1) Planteamiento de hipótesis

H0: μ1.aj = μ2.aj =…= μ5.aj para todo i=1,2,3,4,5


H1: Al menos un μi.aj es distinto a los demás

P2) α=0.05

𝐶𝑀(𝑇𝑟𝑎𝑡 𝑎𝑗.) 3.1493


P3) 𝐹𝑐 = = = 11.48 ~ 𝐹(4,11)
𝐶𝑀𝐸 𝑎𝑗. 0.2743

P4) Como Fcal=11.48> F(0.95,4,11)= 3.36 entonces se rechaza Ho.

Conclusión:

A un nivel de significación del 5% se rechaza Ho. Luego se puede afirmar que existe
suficiente evidencia estadística para aceptar que con al menos una temperatura se
obtiene un peso medio final diferente para las ostras.
Reporte Minitab

Modelo lineal general: Y vs. X, Trat, Bloq


Método
Codificación de factores (-1, 0, +1)
Información del factor
Factor Tipo Niveles Valores
Trat Fijo 5 1, 2, 3, 4, 5
Bloq Fijo 4 1, 2, 3, 4

Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
X 1 85.876 85.8755 313.05 0.000
Trat 4 12.597 3.1493 11.48 0.001
Bloq 3 1.205 0.4016 1.46 0.278
Error 11 3.017 0.2743
Total 19 358.669

239
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

e) Compare los tratamientos utilizando la prueba de Tukey. Use α = 0.05

P1)
H0: 𝜇 i aj. = 𝜇 j aj. ∀ 𝑖 𝑗 = 1,2, … 5, 𝑐𝑜𝑛 𝑖 ≠ 𝑗
H1:: 𝜇 i aj. ≠ 𝜇 j aj.

P2) α = 0.05

P3 y P4) Cálculos y criterios de decisión

El coeficiente de regresión estimado es:


𝐸𝑥𝑦 74.50
𝛽̂ = 𝐸 = 64.63 = 1.1527
𝑥𝑥

Las medias de las variables X e Y sin ajustar para cada tratamiento son:

𝑋̅ 1• = 20.8 𝑋̅ 2• = 29.75 𝑋̅ 3• = 27.175 𝑋̅ 4• = 24.65 𝑋̅ 5• = 26.425 𝑋̅ •• = 25.76


𝑌̅ 1• = 25.025 𝑌̅ 2• = 34.475 𝑌̅ 3• = 31.65 𝑌 4• = 30.85 𝑌̅ 5• = 32.225
̅

Las medias de Y ajustadas para cada tratamiento según la formula son:

𝑌̅ i• aj.= 𝑌̅ i• - 𝛽̂ (𝑋̅ i•-𝑋̅••)

𝑌̅ 1• aj = 30.74 𝑌̅ 2• aj = 29.88 𝑌̅ 3•aj. = 30.02 𝑌̅ 4• aj. = 32.13 𝑌̅ 5• aj. = 31.46

El valor de tabla con α = 5%, p = 5 tratamientos y 11 grados de libertad para el error


ajustado es AES(T) = 4.57. La amplitud limite significativa de Tukey está dada por la
siguiente fórmula:
𝐶𝑀𝐸 𝑎𝑗. 2 ̅̅̅̅
(𝑋 ̅̅̅̅̅
𝑖• −𝑋 𝑗• )²
𝐴𝐿𝑆(𝑇) = 𝐴𝐸𝑆(𝑇)√ [𝑏 + ]
2 𝐸𝑥𝑥

Donde b = 4, CME aj. = 0.2743 y Exx = 64.63

Comparaciones |𝑌̅ 𝑌̅ j• aj|


i• aj - sd ALS(T) Significancia
1y2 0.867 0.488 2.232 n.s.
1y3 0.724 0.393 1.789 n.s.
1y4 1.387 0.316 1.445 n.s.
1y5 0.716 0.368 1.684 n.s.
2y3 0.143 0.287 1.314 n.s.
2y4 2.254 0.352 1.608 *
2y5 1.583 0.303 1.386 *
3y4 2.111 0.287 1.310 *
3y5 1.440 0.264 1.207 *
4y5 0.671 0.274 1.254 n.s.

Gráfico de líneas:

T4 T5 T1 T3 T2

240
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

P5) Conclusión
A un nivel de significación del 5% se puede afirmar que al analizar el peso final medio
de las ostras ajustado por su peso inicial:

 No existen diferencias significativas entre la temperatura 1 con las


temperaturas 2, 3, 4 y 5.
 No existen diferencia significativa entre la temperatura 2 con la temperatura 3
pero sí con las temperaturas 4 y 5.
 Existe diferencias significativas entre la temperatura 3 con las temperaturas 4
y5
 No existe diferencia significativa entre la temperatura 4 y 5.

Reporte Minitab

Comparaciones por parejas de Tukey: Respuesta = Y, Término = Trat

Agrupar información utilizando el método de Tukey y una confianza de


95%

Trat N Media Agrupación


4 4 32.1295 A
5 4 31.4584 A
1 4 30.7425 A B
3 4 30.0189 B
2 4 29.8756 B

Las medias que no comparten una letra son significativamente


diferentes.

Pruebas simultáneas de Tukey para diferencias de las medias

Diferencia
de Trat Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado
2 - 1 -0.867 0.691 (-3.099, 1.365) -1.26 0.722
3 - 1 -0.724 0.556 (-2.522, 1.075) -1.30 0.697
4 - 1 1.387 0.447 (-0.058, 2.832) 3.10 0.062
5 - 1 0.716 0.521 (-0.968, 2.400) 1.37 0.655
3 - 2 0.143 0.407 (-1.171, 1.457) 0.35 0.996
4 - 2 2.254 0.498 ( 0.646, 3.862) 4.53 0.006
5 - 2 1.583 0.429 ( 0.196, 2.969) 3.69 0.024
4 - 3 2.111 0.405 ( 0.801, 3.420) 5.21 0.002
5 - 3 1.440 0.374 ( 0.232, 2.647) 3.85 0.018
5 - 4 -0.671 0.388 (-1.925, 0.583) -1.73 0.456

Nivel de confianza individual = 99.20%

241
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejemplo de Aplicación 2

Un científico de plantas realizó un experimento para estudiar los efectos del nivel de
irrigación por goteo en el crecimiento, cosecha y calidad del elote dulce. Se usaron tres
niveles de irrigación A, B y C y se condujo el experimento con un diseño de bloques
completo aleatorizado para controlar la variabilidad del campo. Una de las variables
respuesta medida fue la cantidad de elote dulces en la parcela (en t.) Como se optimizó
la humedad del suelo para establecer la mejor cosecha, los niveles de irrigación
impuestas, después de establecer la cosecha, no afectaron el número de plantas por
parcela. La cosecha de elotes dulces (Y = toneladas métricas por parcela de elotes
dulces y X = número de plantas por parcela), se muestran a continuación:

Nivel de irrigación
Totales
Bloque A B C
X Y X Y X Y X Y
1 45 1.5 54 1.9 43 1.1 142 4.5
2 58 3.1 57 1.8 60 1.8 175 6.7
3 61 3.8 55 2.9 71 3.7 187 10.4
4 59 3.3 56 2.3 48 1.8 163 7.4
Totales 223 11.7 222 8.9 222 8.4 667 29
Promedios 55.75 2.925 55.5 2.225 55.5 2.1

Además:

X 2
 37711 Y 2
 79.12  XY  1671.7  X  667 Y  29

a) Mencione el modelo aditivo lineal en términos del problema

i  1, 2,3
Yij     i   j   ( X ij  X .. )   ij
j  1, 2,3, 4
Yij = La cantidad de elotes dulces por parcela obtenida con el i-ésimo nivel de irrigación
en el j-ésimo bloque.

 = Efecto de la cantidad media de elotes dulces por parcela.


i = Efecto del i-ésimo nivel de irrigación.
 j = Efecto del j-ésimo bloque.
 = Coeficiente de regresión lineal de la cantidad de elotes dulces explicado por el
número de plantas por parcela
X ij = Número de plantas por parcela tratada con el i-ésimo nivel de irrigación en el
j -ésimo bloque.
X .. = Número promedio de plantas.

242
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

 ij = Efecto del error experimental obtenido al utilizar el i-ésimo nivel de irrigación en el j-


ésimo bloque.

b) Construya el cuadro ANCOVA y pruebe las hipótesis pertinentes. Use un nivel de


significación del 5%.

Hallando sumas de cuadrados:

Para totales
667 2
SCX  37711   636.92
12
(667)(29)
SCXY  1671.7   59.783
12
29 2
SCY  79.12   9.037
12

Para bloques

142 2  175 2  187 2  163 2 667 2


B XX    368.25
3 (4)(3)
(142)(4.5)  (175)(6.7)  (187)(10.4)  (163)(7.4) (667)(29)
B XY    42.25
3 (4)(3)
4.5 2  6.7 2  10.4 2  7.4 2 29 2
BYY    5.94
3 (4)(3)

Para tratamientos
2232  222 2  222 2 667 2
TXX    0.167
4 (3)(4)
(223)(11.7)  (222)(8.9)  (222)(8.4) (667)(29)
TXY    0.508
4 (3)(4)
11.7 2  8.9 2  8.4 2 29 2
TYY    1.582
4 (3)(4)

Cuadro del ANCOVA

S.C. Y S.P. S.C Ajust. G.L aj. C.M.aj.


F.V G.L
X2 XY Y2 Y2 -(XY)2/X2
Total 11 636.92 59.783 9.037
Bloques 3 368.25 42.25 5.94
Tratamiento 2 0.167 0.508 1.582
Error 6 268.503 17.025 1.515 0.4355 5 0.0871
Trat + Error 8 268.67 17.533 3.097 1.95
DIFERENCIA PARA PRUEBAS DE
1.5145 2 0.75725
MEDIAS AJUSTADAS DE TRAT

243
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

2
E XY
SCE  EYY 
E XX
SC Error ajustado:
17.0252
SCE  1.515   0.4355
268.503

SC (Trat+Error) ajustado:
17.5332
SCT  E  3.097   1.95
268.67

SC Tratamientos ajustados :

SCTrataj  1.95  0.4355  1.5145

Prueba de hipótesis para el Coeficiente de Regresión:

P1)
Ho :  = 0 (las toneladas métricas por parcela de elote dulce no depende linealmente
del número de plantas por parcela)
Ha :   0 (las toneladas métricas por parcela de elote dulce si depende linealmente del
número de plantas por parcela)

P2)  = 0.05

P3)
E xy2 17.0252
E xx
Fc   268.503  12.39387
CMEajustad o 0.0871

P4) Fcal > Ftabla  F (0.95,1,5)  3.61 Se rechaza Ho.

P5) Conclusión: A un nivel de significación del 5% se rechaza Ho. Luego se puede


afirmar que las toneladas métricas por parcela de elote dulce dependen linealmente del
número de plantas por parcela.

Prueba de hipótesis para los efectos de los tratamientos:

P1)
Ho : 1.aj= 2.aj = 3.aj
Ha : al menos un i.aj es  a los demás. para todo i=1,2,3

P2)  = 0.05

P3)
CM (trat ajustado ) 0.75725
Fc    8.694 ~ F( 2,5)
CME ajustado 0.0871

244
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

P4)

Como Fcal=8.694 > F( 0.95,2,5)  5.79 entonces se rechaza Ho.

P5) Conclusión: A un nivel de significación del 5% se rechaza Ho. Luego se puede


afirmar que al menos uno de los niveles de irrigación obtiene una cantidad promedio de
elote dulce, ajustado por el número de plantas, distinta a los demás.

Reporte Minitab:

Modelo lineal general: YY vs. XX, Tratt, Bloqq

Método

Codificación de factores (-1, 0, +1)

Información del factor

Factor Tipo Niveles Valores


Tratt Fijo 3 1, 2, 3
Bloqq Fijo 4 1, 2, 3, 4

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


XX 1 1.0795 1.07952 12.30 0.017
Tratt 2 1.5169 0.75847 8.64 0.024
Bloqq 3 1.4983 0.49943 5.69 0.046
Error 5 0.4388 0.08776
Total 11 9.0367

c) Pruebe si la cantidad promedio de toneladas por parcela de elote dulce al utilizar el


nivel de irrigación A es superior a la cantidad promedio de toneladas por parcela de elote
dulce al utilizar el nivel de irrigación B.

P1)
Ho : A=B
H1 : A>B

P2) α=0.05

P3)

Cálculos previos:

E xy 17.025
ˆ    0.0634
E xx 268.503

Y i ajustado  Y i.  ˆ ( X i.  X .. )

Y A ajustado  2.925  0.0634 (55.75  55.583)  2.914


Y B ajustado  2.225  0.0634 (55.5  55.583)  2.230

245
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

 1 1 ( X A  X B )2   1 1 (55.75  55.5) 2 
Sd  CMEajust      0.0871     0.2087
b b E xx  4 4 268.503 

Yi.aj  Y j.aj   0 2.914  2.230  0


tc    3.2774 ~ t( 5)
Sd 0.2087

P4) Como tcal=3.2774>t(0.95,5)=2.015 entonces se rechaza Ho.

P5) Conclusión: A un nivel de significación del 5% se rechaza Ho. Luego se puede


afirmar que la cantidad promedio de elote dulce ajustado por el número de plantas por
parcela al utilizar el nivel de irrigación A es superior a la obtenida al utilizar el nivel de
irrigación B

REFERENCIAS DE TESIS- ANCOVA

Facultad Titulo Año Autor


Comparativo de cuatro raciones para
Zootecnia cobayos en crecimiento 1971 Ismael Huacho Cuaila

INVESTIGACIONES QUE UTILIZARON ANCOVA

GACITUA, Santiago; OYARZUN, Ciro y VEAS, Rodrigo. Análisis multivariado de la morfometría y


merística del robalo Eleginops maclovinus (Cuvier, 1830). Rev. biol. mar. oceanogr. [online]. 2008,
vol.43, n.3 [citado 2016-03-08], pp. 491-500 . Disponible en:
<http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-
19572008000300008&lng=es&nrm=iso>. ISSN 0718-1957.

RODRIGUEZ LEYES, Eduardo A. et al. Estudio de estabilidad acelerada del ingrediente activo
D-004 en diferentes envases. Rev Cubana Plant Med [online]. 2009, vol.14, n.3 [citado 2016-
03-08], pp. 54-60 . Disponible en: <http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1028-
47962009000300008&lng=es&nrm=iso>. ISSN 1028-4796.

246
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejercicios Propuestos

1. Suponga que usted es un ingeniero zootecnista y trabaja en una de las más


importantes avícolas del país. Con el advenimiento de las fiestas de fin de año, se le ha
encargado averiguar la dieta proteica más adecuada para incrementar el peso de pavos
(16%, 18% o 20% en proteínas), además de ello, se sospecha que el peso inicial del
pavo (X) explica el peso final (Y) del mismo luego de 3 semanas. Los datos se muestran
en la siguiente tabla:

Dieta proteica
16% 18% 20%
Peso Peso Peso Peso Peso Peso
inicial final inicial final inicial final
1 9.1 10.9 9.5 11.7 6.8 7.2
2 10.7 12.2 7.5 9.7 6.5 6.8
3 11.0 12.6 7.7 9.6 8.4 9.1
4 8.9 10.8 8.1 10.1 6.0 6.3
5 9.5 11.3 9.8 11.7 8.4 9.5
6 8.9 10.6 7.3 9.0 5.9 6.3
SUMA 58.1 68.4 49.9 61.8 42.0 45.2

∑∑x2=1288.12 ∑∑y2=1776.66 ∑∑xy=1510.5

Considere   0.05 cuando sea necesario:


a) Presente el modelo aditivo lineal y defina sus componentes en términos del problema.
b) Verifique si existe relación lineal entre el peso inicial y final de los pavos.
c) ¿Al menos una de las dietas proteicas tiene un efecto distinto sobre el peso medio de
pavos?
d) Estime el peso medio de un pavo para cada dieta.
e) Compare el peso medio de los pavos cuando se usan las proteínas conforman el 18%
y el 20% de la dieta.
f) ¿Qué dieta(s) debería recomendar el ingeniero zootecnista?

2. Un ingeniero agrónomo llevó a cabo un experimento con la finalidad de estudiar el


porcentaje de azúcar de tres variedades de caña. El diseño que utilizo fue
completamente aleatorizado con cuatro repeticiones. Él sospecha que la variable en
estudio está influenciada por el porcentaje de fibra.

Los resultados al finalizar el experimento se presentan a continuación:

Tabla 1. Cuadro de Totales


V1 V2 V3 Total
X 13.2 16 12.8 42
Y 30.8 20.4 39.4 90.6

a) Complete el siguiente cuadro ANCOVA.

247
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Tabla 2. ANCOVA

S.C. Y S.P.
FV GL X2 Y2XY SCaj Glaj CMaj
Trat 1.52
Error
Trat+Error 3.02 -13.42 71.76
DIFERENCIA PARA PRUEBAS DE MEDIAS
AJUSTADAS DE TRAT

b) Realice las pruebas de hipótesis respectivas. Use α=0.05


c) El ingeniero agrónomo desea comparar las variedades 1 y 3, use la prueba DLS
para realizar dicha comparación y de sus conclusiones. Use α=0.05

3. Se tiene un experimento con 3 variedades de trigo y se desea averiguar en qué


variedad se tiene mayor peso de raíces (Y) en materia seca (en g). Se cree que el
número de plantas (X) influye sobre el tamaño de las raíces por lo cual se utilizara
el Análisis de Covariancia en este experimento, el mismo que se lleva a cabo
utilizando cinco macetas en invernadero. El diseño estadístico utilizando es el DCA.
Los datos no se encuentran disponibles, pero sí algunas sumas importantes. Utilice
  0.05 y las sumas que sean necesarias para responder:

Variedades
I II III
X Y X Y X Y
Suma 25 2.74 18 1.04 17 0.65
Promedio 5.00 0.55 3.60 0.21 3.40 0.13
Suma de
129 1.506 80 0.241 63 0.086
cuadrados
Suma de
13.64 3.27 2.17
productos

a) Plantee el modelo estadístico adecuado y explique cada uno de sus componentes


en términos del enunciado.
b) Verifique si el número de plantas puede explicar el peso de las raíces.
c) ¿Al menos una de las variedades de trigo presenta un peso medio de raíces de
materia seca distinto?
d) Estime el peso medio de raíces de materia seca para cada variedad de trigo.
e) Compare el peso medio entre las variedades I y III. Use la prueba DLS
f) ¿Qué variedad(es) de trigo presenta(n) menor peso medio de raíces de materia
seca?

4. En una estación experimental se realizó un experimento en el que se evaluó el efecto


del tiempo de cosecha sobre el rendimiento de grano de maíz (en kg/parcela). Se
diseñó un experimento con cuatro tratamientos usando una distribución de bloques
completos al azar. Los tratamientos fueron 30, 35, 40 y 45 días después de ocurrida
la polinización (para el tiempo de cosecha). Se presume que el número de plantas
por parcela útil (X) es una variable explicativa de la producción de grano seco (Y). La
248
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

variedad usada fue “V1” y el cultivo se efectuó con riego. Los datos recolectados se
presentan en la siguiente tabla:

Rendimiento de grano seco (Kg/parcela útil) y N de plantas de maíz


cosechadas a diferentes fechas de la polinización.
I II III IV
X Y X Y X Y X Y
30 41 4.08 24 2.78 31 2.79 46 4.24
35 40 4.26 36 4.23 44 5.60 48 6.36
40 37 4.72 32 4.92 38 4.50 41 5.62
45 32 4.00 38 4.53 40 4.83 40 4.30

∑∑x2=23656 ∑∑y2=334.646 ∑∑xy=2788.73

Responda las siguientes preguntas:

a) Presente el modelo aditivo lineal y defina cada uno de sus componentes en términos
del problema.
b) Complete el siguiente cuadro ANCOVA:

Cuadro ANCOVA

S.C. Y S.P.
FV GL X2 Y2 XY SCaj Glaj CMaj
Bloque
Trat
Error
Trat+Error
DIFERENCIA PARA PRUEBAS DE MEDIAS
AJUSTADAS DE TRAT

c) Verifique si la producción de grano seco depende linealmente del número de plantas


por parcela útil. Use α=0.05
d) Estime el rendimiento medio de maíz para cada tratamiento
e) ¿Cuántos días deben transcurrir a partir de la polinización a fin de maximizar el
rendimiento de maíz? Use α=0.05

5. Un Ingeniero agrónomo desea controlar las plagas en el cultivo de una variedad de


tomate. Asignó tres insecticidas (A, B y C) de manera aleatoria a los cultivos por cada
pendiente del suelo. Además de la producción (Y), expresada en kilogramos por unidad
experimental (parcela), se contó el número de plantas de cada parcela (X). Sin embargo,
el ingeniero sospecha que la variable X se encuentra relacionada con la producción. Se
muestran a continuación algunas salidas de Minitab, así como sumas de cuadrados y de
productos:

249
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Modelo lineal general: Prod vs. Planta; Insect; Bloque


Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Planta 1 267.47 267.47 20.46 0.006
Insect 2 1284.13 642.06 49.12 0.001
Bloque 3 70.85 23.62 1.81 0.263
Error 5 65.36 13.07
Total 11 1733.67

Coeficientes
EE del
Término Coef coef. Valor T Valor p VIF
Constante 100.64 4.29 23.47 0.000
Planta -3.527 0.780 -4.52 0.006 1.80
Insect
A -14.40 1.70 -8.47 0.000 1.77
B 13.39 1.51 8.86 0.000 1.40
Bloque
1 -0.85 1.88 -0.45 0.670 1.62
2 -3.80 2.09 -1.82 0.128 2.00
3 1.01 1.83 0.55 0.604 1.53

Fuente X2 XY Y2
Total 38.667 -72.333 1733.67
Bloque 10.000 -58.667 377.67
Tratamiento 7.1671 62.167 1023.167
Error 21.4999 -75.833 332.833

a) Plantee el modelo estadístico adecuado y explique cada uno de sus componentes


en términos del enunciado.
b) Estime la productividad media de tomate cuando se usa cada uno de los insecticidas.
c) ¿Se puede afirmar que la producción depende linealmente del número de plantas?
Use α=0.05
d) ¿Con al menos una de los insecticidas se obtiene una producción media distinta de
tomates? Use α=0.05

Referencias

R.G.D. Steel, & Torrie, J.H. (1985). Bioestadística Principios y Procedimientos. McGraw
Hill, ed Bogotá, Colombia.
Montgomery, D. C. (2005). Diseño y análisis de experimentos (2nd. Ed). México: Limusa
Wiey.
Kuehl, R. O., (2001). Diseño de experimentos: principios estadísticos para el diseño y
análisis de investigaciones. (2nd Ed). International Thomson Editores, S.A. de C.V.,
Mexico, DF.
Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of
data analysis. Australia: Duxbury/Thomson Learning

250

También podría gustarte