Está en la página 1de 47

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

(Universidad del Perú, DECANA DE AMÉRICA)

FACULTAD DE CIENCIAS BIOLÓGICAS

ANALISIS DE VARIANZA

Mg. Ysela Agüero Palacios


Profesora Principal/UNMSM

1
ANALISIS DE VARIANZA
El análisis de varianza es una técnica estadística que tiene bastante
aplicación en el análisis de datos derivados de experimentos y se
utiliza para cumplir dos objetivos:
1. Probar hipótesis de respecto a las varianzas de las poblaciones
2. Probar hipótesis de comparación de medias de tres o más
poblaciones (Este uso fue visto en clases pasadas).

En esta parte del curso estudiaremos las aplicaciones del análisis


de varianza a los datos resultantes de los diseños experimentales
más comunes:
-Diseño completamente aleatorizado.
-Diseños por bloques completos y aleatorizados
-Experimentos factoriales
DISEÑO COMPLETAMENTE ALEATORIZADO
DE UNA VIA CON EFECTOS FIJOS.

Fuente: Bioestadística de Daniel.


DISEÑO POR DE BLOQUES COMPLETOS
ALEATORIZADOS

Ejemplo: Diseño de bloques y un factor con 3 tratamientos.

Bloque I Bloque II Bloque III

Tratamiento Tratamiento Tratamiento


B A C

Tratamiento Tratamiento Tratamiento


A C B

Tratamiento Tratamiento Tratamiento


C B A
DISEÑO FACTORIAL

Ejemplo : Diseño factoria 22

FACTOR B
FACTOR A B1 B2

A1 y11 y12
A2 y21 y22
DISEÑO COMPLETAMENTE
ALEATORIZADO DE UNA VIA
CON EFECTOS FIJOS
ANOVA DE UN FACTOR

El tipo más simple de análisis de varianza es el que se conoce


como ANOVA de un factor, en el cual se investiga una sola
fuente de variación.

EJEMPLO 1
Un ingeniero químico esta estudiando un polímero
recientemente desarrollado para que sea utilizado en la
eliminación de los residuos tóxicos del agua. Los experimentos
se realizan a cinco temperaturas diferentes. La respuesta
observada es el porcentaje de impurezas eliminadas por el
tratamiento.
ANOVA DE UN FACTOR
EJEMPLO 2

Uno de los focos de contaminación del agua lo constituyen los


vertidos industriales y agrícolas ricos en fosforo. Demasiado
fosforo puede causar una explosión en el crecimiento de plantas y
microorganismos, a lo que se denomina afloramiento.
Se realizó un estudio para determinar el nivel de fosforo en los
cuatro lagos principales de una determinada región, por extracción
y análisis de muestras de agua. Se piensa que uno de los lagos se
esta viendo excesivamente contaminado por los vertidos de una
planta industrial próxima y se espera que, comparando el nivel de
fosforo de este lago con el de los otros, esto se demuestre.
OBSERVACIÓNES
1.Si bien los ejemplos anteriores tienen diseños de investigación
distintos (el primero es experimental y el segundo es
observacional), se asemejan en que cada uno produce k muestras
con medias μ1,μ2,...,μk, , respectivamente. El propósito del
estudio en cada caso es comparar medias poblacionales y por lo
tanto, representan la extensión natural del problema de
comparación de las medias de dos muestras independientes.

2. El termino diseño completamente aleatorizado se refiere a


que no se ha realizado ningún intento de emparejar unidades
experimentales de las distintas muestras. Las k muestras son
independientes unas de otras.
OBSERVACIÓNES

3. El termino efectos fijos expresa que el experimentador


selecciona específicamente los niveles del factor
implicados, porque considera que estos tienen un interés
especial. No se seleccionan aleatoriamente de un grupo
mas grande de niveles posibles.
ANOVA DE UN FACTOR
En general, se describen del modo siguiente:
Tenemos una colección de n unidades experimentales y
queremos estudiar el efecto de k tratamientos diferentes.
Estas unidades son divididas aleatoriamente en k grupos de
tamaños n1, n2,…,nk y cada subgrupo recibe un tratamiento
diferente y se anota la respuesta.
A los k subgrupos se les considera muestras aleatorias
independientes de tamaños n1,n2,…,nk extraídas de poblaciones
con respuestas medias μ1,μ2,...,μk, respectivamente.
Queremos contrastar la hipótesis nula de que los tratamientos
tienen el mismo efecto medio:
ANOVA DE UN FACTOR
Otra situación puede ser la siguiente:
Tenemos k poblaciones, cada una identificable por alguna
característica común que será estudiada.
De cada una de las k poblaciones, se seleccionan, muestras
aleatorias independientes de tamaños n1, n2,..., nk,
respectivamente.
 Cada muestra recibe el mismo tratamiento, y cualquier
diferencia observada en las respuestas medidas se atribuye a
diferencias (aleatorias y/o sistemáticas) entre las k
poblaciones.
Queremos contrastar la hipótesis nula de que los
tratamientos tienen el mismo efecto medio
ANOVA DE UN FACTOR

En ambas situaciones las hipótesis son:

(no hay diferencia en las medias


de las k poblaciones)

para algún i y j (al menos una media difiere de


las otras

Donde, i denota la respuesta media de la i-esima población


DISEÑO COMPLETAMENTE ALEATORIZADO DE
UNA VIA, CON EFECTOS FIJOS.
El modelo para el diseño es

yi j     i   i j ; i  1,..., n j ; j  1,...., k
 : Media general.

 i : Efecto del i-esimo nivel del factor A.

 ij : Error aleatorio de la (i,j) esima observación


Supuestos
1. Las k muestras representan muestras aleatorias independientes
extraídas de k poblaciones especificas con medias μ1,μ2,...,μk
(constantes desconocidas)
2. Cada una de las k poblaciones es normal. con media cero y con la
misma varianza 2 (constante).
DISEÑO COMPLETAMENTE ALEATORIZADO DE
UNA VIA, CON EFECTOS FIJOS.
Yij , i=1,2,…; nj, j=1,2,…,k : es una variable aleatoria continua,
que indica la respuesta de la i-esima unidad experimental al j ésimo
tratamiento. Tiene distribución normal con media  y varianza
2 constante.
Niveles del factor (o Subpoblaciones)
Los datos
recogidos en un 1 2 3 ::: k

experimento de un y11 y21 y31 ::: yk1


único factor ( o
y12 Y22 y32 ::: yk2
las muestras de k
subpoblaciones) y13 y23 y33 ::: yk3
se registran en el
siguiente formato: ::: ::: ::: :::
y3n3
y1n1 y2,n2 ::: yknk
DISEÑO COMPLETAMENTE ALEATORIZADO DE
UNA VIA, CON EFECTOS FIJOS.
TABLA ANOVA

Fuentes de Grados de Suma de Cuadrados


F
variación libertad cuadrados medio

Factor k-1 SC Factor CM Factor CM fa c tor


CM residual
Residual n-k SC Residual CM Residual

Total n-1 SC Total


Ejemplo
Se sabe que se ha arrojado material toxico a un rio que entra en una gran área
de pesca comercial en agua salada. Los ingenieros civiles han estudiado la
forma en que el agua transporta el material toxico, midiendo la cantidad de
material (en partes por millón) hallado en las ostras recogidas en tres lugares
diferentes, desde la salida del estuario hasta la bahía donde se realiza la
mayor parte de la pesca comercial. A continuación, se presentan los
resultados:
Lugares
1 . Estuario 2. Lejos de la bahía 3. Cerca de la bahía
15 19 22
26 15 26
20 10 24
20 26 26
29 11 15
28 20 17
21 13 24
26 15
18
MEDICIONES DE MATERIAL TÒXICO SEGÚN
LUGAR DE RECOJO DE DATOS
MEDICIONES DE MATERIAL TÒXICO SEGÚN
LUGAR DE RECOJO DE DATOS
Verificación del supuesto de varianza constante
en cada una de las subpoblaciones.
Verificación del supuesto de normalidad de las
mediciones de material toxico (PPM) en cada una
de las subpoblaciones
Análisis de varianza de un factor.

El test pos hoc indica que la cantidad de material (ppm) hallado en las
ostras recogidas en el estuario y cerca de la bahía son similares y son
significativamente mayores que en el lugar lejos de la bahía
DISEÑO POR BLOQUE
COMPLETOS ALEATORIZADOS.
DISEÑO POR BLOQUE COMPLETOS
ALEATORIZADOS.
Ejemplo:

Se realiza un experimento para comparar la energía que se requiere


para llevar a cabo tres actividades físicas: correr, pasear y montar
en bicicleta.
La variable de interés es
X: numero de kilocalorías consumidas por kilometro recorrido.
Se piensa que las diferencias metabólicas entre los individuos
pueden afectar al numero de kilocalorías requeridas para llevar a
cabo una determinada actividad, y se pretende controlar esta
variable extraña. Para hacerlo, se seleccionan ocho individuos.
DISEÑO POR BLOQUE COMPLETOS
ALEATORIZADOS.
Ejemplo (continuación)

Se le pide a cada uno que corra, camine y recorra en bicicleta una


distancia medida, y se determina para cada individuo el numero de
kilocalorías consumidas por kilometro durante cada actividad.
Las actividades se realizan en orden aleatorio, con tiempo de
recuperación entre una y otra.
Cada individuo es utilizado como un bloque. Cada actividad se
monitoriza exactamente una vez para cada individuo y de este
modo se completa el diseño. Cualquier diferencia en el numero
medio de kilocalorías consumidas se atribuirá a diferencias entre
las actividades mismas, puesto que se ha neutralizado el efecto de
las diferencias individuales por medio de la construcción de
bloques
DISEÑO POR BLOQUE COMPLETOS
ALEATORIZADOS.

Cuando se quiere comparar las medias de k poblaciones en


presencia de una variable extraña se utiliza un procedimiento
conocido como diseño de bloques.
Un bloque es una colección de k unidades experimentales tan
parecidas como sea posible con respecto a la variable extraña,
luego se asigna aleatoriamente cada tratamiento a una unidad
dentro de cada bloque. Esto permite neutralizar el efecto de la
variable extraña entre los tratamientos.
Una vez controlada esta fuente de variación, cualquier diferencia
en las respuestas es atribuible a los efectos del tratamiento
DISEÑO POR BLOQUE COMPLETOS
ALEATORIZADOS.

El diseño que presentamos aquí se conoce como diseño de bloques


completo aleatorizado con efectos fijos.
El término bloque se refiere al hecho de que se ha agrupado a las
unidades experimentales en función de alguna variable extraña.
Aleatorizado se refiere al hecho de que los tratamientos se asignan
aleatoriamente dentro de los bloques,
Decir que el diseño es completo implica que se utiliza cada
tratamiento exactamente una vez dentro de cada bloque. El
termino efectos fijos se aplica a ambos, bloques y tratamientos.
Es decir, se supone que ni los bloques ni los tratamientos se eligen
aleatoriamente. Cualquier inferencia que se haga se aplica
solamente) a los k tratamientos y a los b bloques utilizados.
DISEÑO POR BLOQUE COMPLETOS
ALEATORIZADOS CON UNA VIA
El modelo para el diseño es
yi j     i   J   i j ; i  1,..., k ; j  1,...., b
 : Media general.
 i : Efecto del i-esimo nivel de factor A.

 i : Efecto del bloque j- esimo.

 ij : Error aleatorio de la (i,j) - esima observación

Supuestos
1. Las k muestras representan muestras aleatorias independientes
extraídas de k poblaciones especificas con medias μ1,μ2,...,μk
(constantes desconocidas)
2. Cada una de las k poblaciones es normal. con media cero y con la
misma varianza 2 (constante).
DISEÑO COMPLETAMENTE ALEATORIZADO DE
UNA VIA, CON EFECTOS FIJOS.
Yij , i=1,2,…; nj, j=1,2,…,k : es una variable aleatoria continua,
que indica la respuesta para el i-esimo tratamiento, en el j-esimo
bloque. Tiene distribución normal con media  y varianza 2
constante.

BLOQUES

Bloque 1 Bloque 2 Bloque 3 ::: Bloque b

y11 y21 y31 ::: yk1

y12 Y22 y32 ::: yk2

::: ::: ::: :::


y3k
y1k y2,k ::: ybk
DISEÑO DE BLOQUES COMPLETOS ALEATORIZADO
DE UNA VIA, CON EFECTOS FIJOS.
TABLA ANOVA

Fuentes de Grados de Suma de Cuadrados F


variación libertad cuadrados medio
CM fa c tor
Factor k-1 SC Factor CM Factor
CM residual

SC Bloques CM Bloques CM Bloques


Bloques b-1
CM residual

Residual (k-1)(b-1) SC Residual CM Residual

Total bk-1 SC Total


Ejemplo

Xij : numero de kilocalorías consumidas por kilometro recorrido al


realizar la i-esima actividad (correr, caminar, pedalear) por la
iésima persona (bloque) .
Kilocalorías consumidas de acuerdo al tipo de
actividad.
Kilocalorías consumidas por cada persona (bloques)
Verificación del supuesto de normalidad de las
mediciones de kilocalorias consumidas de
acuerdo al tipo de actividad
Análisis de varianza de la cantidad de kilocalorías consumidas de
acuerdo al tipo de actividad física realizada, sin tomar en cuenta el
efecto de bloques (personas).

F DE ACTIVIDAD=49,298
ERROR CUADRATICO MEDIO= 0,045
Análisis de varianza de la cantidad de kilocalorías consumidas de
acuerdo al tipo de actividad física realizada, cuantificando el efecto
de bloques (personas).

F DE ACTIVIDAD=79,897
ERROR CUADRATICO MEDIO= 0,028
DISEÑO FACTORIAL
DISEÑO FACTORIAL

Muchos experimentos se llevan a cabo para estudiar los efectos


producidos por dos o más factores.
Por diseño factorial se entiende aquel en el que se investigan
todas las posibles combinaciones de los niveles de los factores
en cada ensayo completo o réplica del experimento. Por ejemplo
si de tienen dos factores A con 2 niveles y B con 2 niveles,
entonces cada réplica del experimento contiene todas las 2x2
combinaciones de los tratamientos.
Los diseños factoriales son los mas eficientes para este tipo de
situaciones.
El efecto de un factor se define como el cambio en la respuesta
producido por un cambio en el nivel del factor. A esto se le
conoce como efecto principal
DISEÑO FACTORIAL

El efecto de un factor se define como el cambio en la respuesta


producido por un cambio en el nivel del factor. A esto se le
conoce como efecto principal, porque se refiere a los efectos de
interés principal en el experimento.
En algunos experimentos puede encontrarse que la diferencia en
la respuesta entre los niveles de un factor no es la misma en
todos los niveles de los otros factores considerados en el modelo.
Cuando esto ocurre se dice que existe una interacción entre los
factores.
Experimento factorial

b21
b21

b11
b11

a 11 a21
a1 a2

sin interacción Con interacción


DISEÑO FACTORIAL

El modelo para el diseño de factorial es

yijk     i   j   ij   ijk ; i  1,..., a ; j  1,...., b ; k  1,..., n


 : Media general.
 i : Efecto del i-esimo factor A.

 i : Efecto del jésimo factor B.


 ik : Efecto de la interacción de A y B

 ij : Error aleatorio de la (i,j,k) esima observación


Un supuesto básico del análisis de la Varianza es que los errores se
distribuyen aleatoriamente alrededor de cero (media cero) y varianza 2 . Es
decir:  N (0, 2 )
ij
DISEÑO FACTORIAL
Estructura de los datos de un diseño con 2 factores con k tratamientos

FACTOR FACTOR A y1.


Medias
B 1 ::: j ::: a
yi .

1 y111,…,y11n ::: y1ik,…,y1ik,…, ::: y1a1,…,y1an

::: ::: ::: ::: ::: :::


y b.

i yi11, …, yi1n ::: yij1,…,yijn ::: yia1, …, yian

::: ::: ::: ::: ::: ::: :::


ybIJ,y…,. ybjn yba1,…,
y .yban y ..
b yb11,…,yy.1b1n ::: j ::: a
DISEÑO FACTORIAL
Tabla de análisis de varianza

Fuentes de Grados de Suma de Cuadrados


F
variación libertad cuadrados medio

Factor A a-1 SCA CMA


CMA/CMresidual
Factor B b-1 SC B CMB CMB/CMresidual

Interacción (a-1) (b-1) SCAB CM AB CMAB/CMresidual

Residuos Ab(n-1) SCresidual CM residual


Total
abn-1
DISEÑO FACTORIAL
Se realiza un estudio para averiguar la madurez emocional de 27 varones
jóvenes mayores de edad, clasificados según grado de instrucción

Edad Consumo de marihuana (factor B)


(Factor A) Nunca Ocasional. Diario
25 18 17
15-19 28 23 24
22 19 29
28 16 18
20-24 32 24 22
30 20 20
25 14 10
25-29 35 16 8
30 15 12
DISEÑO FACTORIAL

Modelo de efectos principales

yij     i   j   ij ; i  1,..., a ; j  1,...., b


DISEÑO FACTORIAL

Modelo de efectos principales con interacción

Se observa que las


medias de las
categorías ocasional
y diario se cruzan lo
que indica que existe
interacción entre la
edad y la frecuencia
de consumo.
DISEÑO FACTORIAL

Modelo de efectos principales con interacción

yijk     i   j   ij   ijk ; i  1,..., a ; j  1,...., b ; k  1,..., n

También podría gustarte