Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Malheiros
b) Algumas funes aritmticas: sqrt(x) - raiz quadrada de x, log(x,n) - logaritmo de x na base n, log(x) - logaritmo neperiano de x, log10(x) - logaritmo decimal de x, exp(x) - ex , sin(x) - seno de x (em radianos) , asin(x) - arco-seno de x, abs(x) - modulo(x). Exemplos: > sqrt(125) > log(15,2) > sin(45) > cos(pi) (pi = 180 em graus ou 3,141593 em radianos) Para acessar comandos j executados, use as setas direcionais ( e ). Para limpar a Janela console use CTRL + L. Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal
O ambiente de trabalho no R pode se reduzir janela Console ou trabalhar simultaneamente com duas janelas Console + Script (Editor R). a) Para abrir um script use a opo: Arquivo / Novo script. b) Para navegar pelas janelas Console e script ou escolher a forma de visualiz-las simultaneamente, use a opo: Janelas. O Script um editor de textos do R que possibilita editar os comandos e transferi-los para serem executados na janela Console (CTRL + R) ou com a opo de menu: Editar / Executar. A vantagem dessa forma de trabalho que a janela script pode ser salva a qualquer momento (Para salvar, a extenso do nome do arquivo deve ser .R). d) Diretrios de trabalho. Para saber o diretrio de trabalho (default), use: Sintaxe: > getwd() Para alterar o diretrio de trabalho, use: Sintaxe: > setwd(Novo_Caminho) Ou, na opo de menu: Arquivo / Mudar Diretrio Para criar um diretrio pelo R, use: Sintaxe: > dir.create(Novo_Caminho) Para visualizar o contedo do diretrio de trabalho use: Sintaxe: > dir() ou > list.files() Observao: as barras utilizadas na descrio do caminho no R so diferentes das utilizadas no Windows. Ex: C://ADPA Exemplo: Veja qual o diretrio de trabalho (default)..........................> getwd() Crie uma pasta de trabalho em C:\, com o nome ADPA.......> dir.create(C://ADPA) Defina esta pasta como a pasta de trabalho ...........................> setwd(C://ADPA) Visualize o contedo do diretrio de trabalho.......................> dir() Veja qual o diretrio de trabalho ........................................> getwd() 1.2. Pacotes no R Pacotes (packeges) ou bibliotecas (library) so conjuntos de funes, exemplos, e documentaes desenvolvidas para determinadas tarefas. No R podem-se encontrar pacotes desenvolvidos pelos responsveis pelo R ou implementados por usurios. Com a instalao inicial, instalado um conjunto bsico de pacotes, ou seja:
[1] "stats" [7] "base" "graphics" "grDevices" "utils" "datasets" "methods"
Alan R. Panosso e Euclides B. Malheiros A finalidade e sintaxe de alguns comandos R, relacionados a pacotes, so:
a) Instalar pacotes (necessita conexo com a internet). Sintaxe: > install.packages(nome_do_pacote) Com este comando solicitado o CRAN onde ele ser acessado. Sugere-se que use o mais prximo de sua unidade. Exemplo: > install.packages(agricolae) O pacote instalado permanece no seu computador at que voc o remova. Para us-lo voc precisa solicit-lo (requer-lo) a cada vez que entrar no R. b) Desinstalar (remover) pacotes. Sintaxe: > remove.packages(nome_do_pacote) c) Requerer um pacote. Sintaxe: > require(nome_do_pacote) Exemplo: > require("agricolae") d) Listar os Pacotes disponveis no ambiente R (requeridos). Sintaxe: > (.packages()) e) Listar os Pacotes disponveis em seu computador (instalados). Sintaxe: > .packages(all.available=TRUE) f) Auxlio sobre um pacote. Sintaxe: > help(package=nome_do_pacote) Exemplo: > help(package="agricolae") g) Auxlio sobre um comando do R on-line. Necessita conexo com a internet. Sintaxe: > help(nome_do_comando) ou ?nome_do_comando Exemplo: > help(mean) ou ?mean h) Auxlio sobre um comando em todos os pacotes instalados. Sintaxe: > help.search(nome_do_comando) ou ??nome_do_comando Exemplo: > help.search("mean") ou ??mean Exerccio 1: E1.1.) Sair do R E1.2.) Abrir o R e visualizar as informaes da janela (Console) e as opes de menu. 1.3. Classes de objetos no R O R trabalha com as seguintes classes (ou tipos) de objetos: varivel, vetor, lista, fator, matriz e data.frame. Cada objeto tem: nome, contedo e atributo. Os nomes de objetos so atribudos pelo usurio e devem iniciar com uma letra (maiscula ou minscula), seguido de combinaes de letras, nmeros e alguns caracteres (desde que no reservados pelo R). O R faz diferena entre caracteres maisculos e minsculos. Os atributos podem ser numrico, caractere (label), complexo ou lgico. Todo objeto criado fica residente no ambiente R at que feche o software ou que o remova. Os smbolos <- , -> e = so usados para atribuio de valores. O smbolo # usado para comentrios no R. O ponto e vrgula ( ; ) permite a edio de mais que um comando na mesma linha.
Alan R. Panosso e Euclides B. Malheiros Exemplos: > A <- 25 # atribui a A o valor 25 >A # exibe na tela o valor de A - equivale a print(A). > B <- a+30; B # atribui a B o valor de A somado a 30 e exibe na tela o valor de B. Para mostrar os objetos disponveis na rea de trabalho, use a funo ls. Sintaxe: ls() Para remover um objeto use a funo rm. Sintaxe: > rm(nome_do_objeto1, nome_do_objeto2, ...) > rm(list=ls())
Alan R. Panosso e Euclides B. Malheiros > v4 <- 1:10; v4 > v5 <- seq(2,14,3); v5
# n:m cria um vetor com a sequncia de n a m, 1 em 1 # seq(n,m,p) cria uma sequncia com os valores de n a m, variando de p em p. > v6 <- c(1,2,3,rep(6,3),seq(2,-14,-3)); v6
> mode(v1); mode(v2) > class(v1); class(v2) c) Lista Objeto com n valores (que podem ter diferentes atributos) que podem ser referenciados por um ndice. Exemplos: > lista <- list(nome=Maria, idade=18); lista Observaes: a) Para especificar a lista como um todo (nome_do_lista). b) Para especificar apenas seus elementos (nome_da_lista$nome_do_elemento) ou (nome_da_lista[ndice_do_elemento]). Exemplos: > mode(lista) > class(lista) > mode(lista$nome) ou mode(lista[1]) ; mode(lista$idade) ou mode(lista[2]) Observao: A maioria dos relatrios dos procedimentos estatsticos sai como lista. d) Fator um tipo particular de vetor, onde cada elemento repetido (uma ou mais vezes) considerado um nvel do fator. Muito usado nas anlises estatsticas variveis classificatrias. Exemplos: > trat <- as.factor(c(0,0,0,0,10,10,10,10,20,20,20,20)); trat > mode(trat) > class(trat) > vt=c(T1, T1, T1, T2, T2, T3); vt > fvt=as.factor(vt); fvt O comando table informa o nmero de repeties dos nveis do fator. Exemplos: > table(trat) > table(fvt) Para gerar nveis de um fator pode-se usar a funo gl; Sintaxe: gl(n,m, labels= nveis _do_fator) gera um fator de n nveis com m repeties, utilizando os nveis especificados em labels, ordenados ou no. > fat1 <- gl(5,4); fat1 > fat2 <- gl(3,4,labels=c(0,10,20)); fat2 > fat3 <- gl(3,4,labels=c("C","T1","T2")); fat3
e) Matriz Objeto com n m valores (n linhas e m colunas), com o mesmo atributo, que podem ser referenciados por dois ndices. Exemplos: > c1 <- c(1,1,1,2,2,2); c2 <- c(1:3,1:3); c3=c(12,14,16,25,22,29) ; c1; c2; c3 > m1=cbind(c1,c2,c3); m1 #cbind cria a matriz tendo os vetores como colunas > m2=rbind(c1,c2,c3); m2 #rbind cria a matriz tendo os vetores como linhas > m3=matrix(c(1,1,1,2,2,2,1:3,1:3,12,14,16,25,22,29),ncol=3); m3 #ncol especifica o numero de colunas da matriz. > m4=matrix(c(1,1,1,2,2,2,1:3,1:3,12,14,16,25,22,29),ncol=3, byrow=T); m4 #byrow especifica os dados sero organizados por linhas. Observaes: a) Para especificar a matriz como um todo (nome_da_matriz). b) Para especificar a linha nl da matriz (nome_do_matriz[nl,]) ou a coluna nc da matriz (nome_do_matriz[,nc]). c) Para especificar o elemento i, j da matriz (nome_do_matriz[i,j]) Exemplos: > m1[,3] > m1[2,] > m1[2,3] #especifica a coluna 3 da matriz m1 #especifica a linha 2 da matriz m1 #especifica o elemento da linha 2 e coluna 3 da matriz m1
Algumas operaes com matrizes: > A=matrix(c(1,3,2,8,9,11,0,4,3), ncol=3,byrow=T); A > B=matrix(c(rep(1,3),rep(2,3),rep(3,3)),ncol=3); B > S=A+B; S # soma de matizes > D=A-B; D # subtrao de matizes > P=A %*% B; P # produto de matizes > T=t(A); T # transposta de matiz > det(A); det(B) # determinante de matizes > IA=solve(A); IA # inversa de matizes > IB=solve(B); IB # inversa de matizes f) data.frame Objeto com n m valores (n linhas e m colunas) em que as colunas podem ter diferentes atributos, organizados na forma de banco de dados, ou seja, as colunas so variveis (mesmo atributo) e as linhas registros (atributos avariados de acordo com a coluna). Exemplos: Um experimento com 2 tratamentos e 5 repeties, obteve-se os resultados: Trat. 1 2 1 25,5 31,6 2 28,4 30,5 Repeties 3 24,1 29,3 4 27,5 31,1 5 26,3 29,4
Alan R. Panosso e Euclides B. Malheiros Criar um data.frame. > tr <- gl(2,5) > rp <- c(1:5,1:5) > y <- c(25.5, 28.4, 24.1, 27.5, 26.3, 31.6, 30.5, 29.3, 31.1, 29.4) > df1 <- data.frame(tr,rp,y); df1 > mode(df1) > class(df1)
Valores perdidos: Supondo que a terceira repetio do tratamento 1 tenha sido perdida:
> yc <- c(35, 19, NA, 15, 30, 40, 35, 46, 41, 33, 39, 27, 20, 29, 45); yc > dfpp <- as.data.frame(cbind(trat,rep,yc)); dfpp > mode(dfpp$yc); mean(yc); mean(yc,na.rm=T)
b) Importando arquivo txt (ASCII) Sintaxe: nome <- read.table("arquivo_txt", [header=T], [dec=","]) onde: nome arquivo_txt [header=T] [dec=","] nome do data.frame nome do arquivo txt, com caminho completo. Usar se os nomes das colunas (variveis) do data.frame sero os cabealhos das colunas no arquivo .txt. Caso contrrio o R assume os nomes V1, V2, ..... (Variable 1, Variable 2, ...) Usar se o separador de decimais for a vrgula ( , ). No usar se forem pontos. Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal
b1) crie um arquivo ASC referente aos dados da Tabela 1, na pasta C:\ADPA, com o nome A_EXEMPLO.txt. Use o arquivo A_EXEMPLO.xls disponvel no site. b2) Importe o arquivo. > arqtxt <- read.table("C://ADPA//a_exemplo.txt", header=T, dec=",") > arqtxt b3) Visualize a classe e atributo do arquivo criado > class(atqtxt) > mode(atqtxt) c) Importando arquivo Excel Para importar arquivos do Excel necessrio que o pacote RODBC esteja instalado e carregado (requerido). install.packages("RODBC") require(RODBC) Sintaxe: con=odbcConnectExcel[2]("arquivo_excel") nome=sqlQuery(con,"select * from\"planilha$\" ") [odbcClose(con)] onde: con o nome da conexo com o arquivo, feita pelo odbcConnectExcel [2] Usar se for o Excel 2007. Se no usar considera versos anteriores. arquivo_excel nome do arquivo excel, com caminho completo nome nome do data.frame planilha nome da planilha a ser importada [odbcClose(con)] Usar se quiser fechar a conexo sem o que, no possvel trabalhar na planilha.
Exemplo: c1) Crie um arquivo excel com os dados da Tabela 1 e salve-o no caminho: C:\ADPA, com o nome do arquivo A_EXEMPLO.xls, e nome da planilha p1 (disponvel no site). c2) Importe o arquivo usando: > con_ex=odbcConnectExcel("C://ADPA//a_exemplo.xls") > arqxls=sqlQuery(con_ex,"select * from\"p1$\" ") c3) veja a classe e atributos da arquivo criado > class(arqxls) > mode(arqxls) comando attach Este comando usado para separar as variveis de um data-frame. O data-frame arqxls tem as colunas tr, rp e y Para separ-las pode-se usar uma das opes: a) tr <- arqxls[,1]; rp <- arqxls[,2]; y <- arqxls[,3] ou b) attach(arqxls) Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal
So estatsticas que trazem informaes sobre a posio, a disperso e a distribuio de um conjunto de valores numricos. As principais estatsticas descritivas so: Medidas de posio Mdia aritmtica, mediana e moda. Medidas de disperso varincia, desvio padro, amplitude. Medidas separatrizes quartis q1, q2, q3 e intervalo interquartlico. A maioria dos softwares estatsticos tem um mdulo que apresenta um conjunto dessas estatsticas. a) Medidas de posio So medidas que indicam um ponto em torno do qual se concentram os dados (a posio dos dados). Sejam x1, x2, x3, ..., xn, n valores numricos. As medidas de posio mais usuais so: Mdia aritmtica A mdia aritmtica, indicada por m ou x , definida por:
n
x=
i =1
xi
Se os valores xi, i=1, 2, ..., k (k<n) ocorrem com freqncias fi, i=1, 2, ..., k, respectivamente, ento a mdia aritmtica pode ser obtida por:
k
x=
i =1 k
f i xi fi
i =1
Mediana A mediana o valor central do conjunto de valores, organizados em ordem crescente ou decrescente, se n for mpar, ou a mdia dos dois centrais, se n for par. A mediana tal que 50% dos valores a precedem e 50% a sucedem. Moda A moda o valor que ocorre com maior freqncia. A moda pode no existir ou no ser nica. Mdia aritmtica ponderada Se aos n valores associam-se fatores de ponderao ou pesos w1, w2, w3, ..., wn, respectivamente, a mdia aritmtica ponderada dados por:
n
x=
i =1 n
wi xi wi
i =1
A escolha da medida de posio a ser usada depende das caractersticas dos dados e do objetivo do uso. Pode-se estar interessado no tamanho mximo, no tamanho mnimo ou no tamanho mdio de uma espcie animal. Situaes que apresentam valores discrepantes fazem com que a mdia seja prejudicada, ento a mediana pode ser mais apropriada. Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal
Alan R. Panosso e Euclides B. Malheiros 10 Algumas propriedades das medidas de posio: a.1) A mdia calculada a partir de todas as observaes. a.2) A mediana no prejudicada pela presena valores extremos, como a mdia. a.3) Somando-se, subtraindo-se ou multiplicando-se os valores a uma constante, a mdia ficar somada, subtrada ou multiplicada pela constante. a.4) A soma dos desvios em relao mdia nula, ou seja, ( xi x) = 0 A propriedade (a.3) de extrema importncia quando trabalhamos com unidades diferentes dos dados (kg, g, Km, m etc.). b) Medidas de disperso Como o prprio nome diz, so medidas que indicam quo dispersos encontram-se os valores. As medidas de disperso mais usuais so: Amplitude total a diferena entre o maior e o menor valor (Amplitude total = xmx. xmn.). Soma de quadrados a soma dos quadrados dos desvios em relao mdia aritmtica.
SQ = ( xi x ) 2
Varincia a mdia das somas dos quadrados dos desvios em relao mdia aritmtica, geralmente denotada por S2.
S2 = ( xi x) 2 n
Desvio Padro a raiz quadrada da varincia, geralmente denotada por s ( s = S 2 ). Coeficiente de variao uma medida de disperso relativa. representado por CV e definido como:
CV = 100 s x
Representa a porcentagem de variao por unidade de mdia. Algumas propriedades das medidas de disperso: b.1) A varincia no tem a mesma unidade dos dados, o que ocorre com o desvio padro. b.2) A soma dos quadrados dos desvios em relao mdia aritmtica (SQ) a menor soma de desvios ao quadrado, ou seja: ( xi x) 2 ( xi M ) 2 , M. b.3) Somando-se ou subtraindo-se os valores a uma constante, a varincia e a soma de quadrados no se alteram. b.4) Multiplicando-se os valores a uma constante, a varincia e a soma de quadrados ficaro multiplicadas pela constante ao quadrado. Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal
Alan R. Panosso e Euclides B. Malheiros 11 c) Medidas separatrizes So medidas que representam as posies dos valores do conjunto, dividindo-o em partes iguais e podem ser: quartis, decis etc. Os quartis dividem o conjunto de valores em quatro partes iguais, como mostra a Tabela a seguir: Tabela 1 - Descrio dos quartis. Estatstica Notao 1 quartil q1 2 quartil q2 = Mediana 3 quartil q3 Interpretao 25% dos dados so valores o precedem 50% dos dados so valores o precedem 75% dos dados so valores o precedem
A diferena (q3-q1) denominada intervalo interquartlico. Outras separatrizes usuais so: Decis: Dividem o conjunto de dados em dez partes iguais. Percentis: Dividem o conjunto de dados em cem partes iguais. No R, algumas dessas medidas podem ser obtidas por: mean(x) mdia, var(x) - varincia, sd(x) desvio padro, quantile(x,0.25) q1, quantile(x,0.50) q2, quantile(x,0.75) q3, quantile(x) mnimo q1 q2 e q3 e mximo, IQR(x) intervalo interquartlico, min(x) - mnimo, max(x) mximo. Tm-se ainda outras estatsticas como: skewness(x) coeficiente de assimetria, kurtosis(x) coeficiente de curtose, length(x) tamanho da amostra, sum(x) - somatria, sum(x^2) somatria dos elementos ao quadrado, sum(x-m) soma dos desvios em relao mdia, onde m a mdia. Exemplo: Considere que foram observados pesos de 10 animais, apresentados a seguir: 72,5 69,0 75,0 70,8 71,2 73,0 70,0 67,1 71,0 72,0 a) Criar um vetor Y com esses valores; > Y <- c(72.5, 69, 75, 70.8, 71.2, 73, 70, 67.1, 71, 72) b) Obter a mdia, varincia, q1, q2, q3, mnimo e mximo. > mean(Y); var(Y); quantile(Y) c) Obter o tamanho da amostra. > length(Y) d) Obter os coeficientes de assimetria e curtose > skewness(Y); kurtosis(Y) # observe que as funes no so encontradas nos pacotes instalados. d.1) Pedir auxlio de onde encontrar a funo skewness > ?? skewness # Ver que ele esta no pacote agricolae d.2) Instalar o pacote agricolae > install.packages("agricolae") d.3) Requerer o pacote agricolae > require("agricolae") d.4) Obtenha as estatsticas desejadas > skewness(Y); kurtosis(Y) Obter as somas dos quadrados dos desvios em relao mdia > med <- mean(Y); sqdm <- sum((Y-med)^2); med; sqdm Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal
Alan R. Panosso e Euclides B. Malheiros 12 3. FUNES NO R - APLICAO EM ESTATSTICAS DESCRITIVAS O R permite uso de funes j implementadas no software ou funes definidas pelo usurio. Para usar uma funo j implementada, basta cham-la pelo nome, especificando os valores dos argumentos. Uma funo implementada a funo summary, que retorna seis estatsticas (mnimo, mximo, media, q1, q2, q3), muito usadas nos testes de diagnsticos. Exemplo: > x=c(4,7,9,8,6,7,9,5,8,10) > summary(x) Para criar uma funo no R use a sintaxe: nome_da_funo = function(lista_de_argumentos) { comandos_da_funo return(resultado) } Onde: nome_da_funo nome da funo. lista_de_argumentos lista dos argumentos separados por vrgulas. comandos-da-funo comandos R necessrios para definir a funo. Se a funo retorna mais que um valor pode-se coloca-los em uma lista. Resultado nome do objeto que contm o resultado da funo (pode ser um valor, uma varivel, uma lista etc.). Exemplo: Sabendo-se que o erro padro da mdia dado por: epm = dp / n , onde dp=desvio padro e n=tamanho da amostra, crie uma funo para obter o epm. > epm=function(v) {epm=sd(v)/sqrt(length(v)) return(epm) } Observao: v um nome de varivel genrico.
Para usar a funo basta colocar seu nome, seguido da varivel para a qual deseja aplicar a funo (no caso x)
> epm(x)
Obter as principais estatsticas descritivas, definidas na funo est_desc, disponvel no site. a) Abrir a janela script e copiar a funo nesta janela; b) executar a funo; c) aplicar para o vetor x.
Alan R. Panosso e Euclides B. Malheiros 13 Ramos e folhas um particular histograma, onde as classes do os ramos e os elementos dentro das classes so as folhas. Normalidade grfico contendo os valores observados e os esperados, caso os valores tiverem uma distribuio normal (qunto mais prximos de uma reta estiverem os pontos, melhor a aproximao normal).
No R os grficos: histograma, boxplot e de normalidade so feitos em janelas grficas, o ramos e folhas feito na janela console do R. Para salvar a janela grfica, use o boto contrrio do mouse e escolha entre copiar para a rea de transferncia ou salvar no formato desejado para o arquivo. Exemplo 1: Considere os valores para as variveis Y1 e Y2:
Y1 Y2 42,75 39,25 45,25 41,05 41,45 43,25 40,25 37,35 41,25 42,25 43,25 38,25 42,25 39,35 45,25 41,15 41,25 43,15 40,15 39,15 41,35 42,15 43,25 58,45
a) Digite os dados no Excel, planilha dados, e salve na pasta de trabalho com o nome A_GD.xls. Salve como arquivo ASC com o nome A_GD.txt (obs.: Encontra-se no site). b) Importe os dados no R. c) Faa os grficos de diagnsticos: Histograma, boxplot e de normalidade, para as variveis Y1 e Y2.
Soluo: > install.packages("RODBC") # se no estiver instalado > require(RODBC) # se no foi requerido > con_grd=odbcConnectExcel("C://ADPA//GD.xls") > arqgd=sqlQuery(con_grd,"select * from\"dados$\" ") > arqgd > mode(arqgd) > y1 <- arqgd[,1]; y1 > y2 <- arqgd[,2]; y2 > hist(y1) > boxplot(y1) > stem(y1) > qqnorm(y1); qqline(y1) > hist(y2) > boxplot(y2) > stem(y2) > qqnorm(y2); qqline(y2)
Observe que nos comando grficos do R, os termos line, curve ou points no geram um novo grfico, apenas incluem linhas, curvas ou pontos no grfico em edio. Como padro, o R apresenta um grfico por janela grfica. Para criar um ambiente matricial para apresentao de grficos, usa-se a funo:
par(mfrow=c(nl,nc)) onde: par - Set or Query Graphical Parameters mfrow define as dimenses do ambiente matricial com nl linhas e nc colunas. Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal
rnorm(n,m,dp), onde n o nmero de observaes, m a mdia e dp o desvio padro. Soluo: > y <- rnorm(50,10,sqrt(5)); y > par(mfrow=c(1,3)) > hist(y); boxplot(y); qqnorm(y); qqline(y) 5. TESTES DE HIPTESES 5.1 Introduo Hiptese estatstica: pode ser definida como uma afirmao sobre a distribuio de uma varivel aleatria (no geral sobre seus parmetros).
Exemplos: Em uma populao com mdia e varincia 2, possveis hipteses seriam H:=0; H:>50; H:0; H:2=100; H:2<10. A hiptese estatstica pode ser simples ou composta: Simples: se a hiptese especifica completamente a distribuio (H:=0, H:2=100). Composta: se a hiptese no especifica completamente a distribuio (H:>50, H:2<10).
Teste de hipteses: Como o prprio nome diz, so critrios estatsticos que permitem rejeitar ou no hipteses testadas, com base nos valores amostrais. Os testes de hipteses, no geral, apresentam duas hipteses: Hiptese nula (ou da nulidade), geralmente representada por H0, que a hiptese natural colocada prova. Hiptese alternativa, geralmente representada por H1 ou HA, que a hiptese alternativa hiptese colocada prova.
Os testes de hipteses devem seguir os passos:
Passo 1. Estabelecer as hipteses (H0 e H1). Passo 2. Obter uma estatstica, com distribuio conhecida, que fique completamente definida sob H0. Passo 3. Estabelecer os critrios do teste. Todo teste estatstico apresenta dois tipos de erro: Erro tipo I: Erro que se comete ao rejeitar H0, dado que ela verdadeira, geralmente representado por , e denominado nvel de significncia do teste. Erro tipo II: Erro que se comete ao no rejeitar H0, dado que ela falsa. O critrio mais comum em testes de hipteses fixar o erro Tipo I (nvel de significncia do teste). Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal
Alan R. Panosso e Euclides B. Malheiros 15 Passo 4. Calcular o valor da estatstica, item (2), para os valores da amostra. Passo 5. Aplicar o critrio do teste. 5.2 Exemplo de Aplicao
Para exemplificar, apresentemos esses passos em uma situao prtica:
Exemplo: A quantidade de calorias de um produto (v.a. X) tal que X~ N(,2). Para a indstria, =30, mas para os concorrentes 30. Para avaliar o produto foi tirada uma amostra de tamanho 25, cujos valores so apresentados a seguir:
30,05 29,38 28,45 31,22 31,07 34,44 34,50 34,48 31,75 30,59 31,92 31,76 30,25 33,28 33,40 31,46 31,43 32,92 29,91 33,63 27,98 33,07 31,01 29,85 29,70
Passo 1. Hipteses a serem testadas: H0:=30 e H1: 30. Passo 2. Sabe-se que T =
X ~ t(n-1), ou seja, T tem distribuio t de Student com nS n
1 graus de liberdade.
Passo 3. Fixando-se =0,05 (5%), tem-se pela tabela da distribuio t (ANEXO 1):
2,5%
2,5% 2,064
Passo 4. TC =
31,5 30 3,43 25
= 4,050
Concluso: Ao nvel de 5% de probabilidade rejeita-se a hiptese da mdia de calorias ser 30 (H0) em favor da hiptese da mdia de calorias ser diferente de 30 (H1).
Shapiro-Wilk Teste de fcil aplicao sem o uso de software (manualmente). Possui a restrio de ser muito sensvel falta de simetria. So permitidos valores perdidos e recomendado para situaes em que o nmero de valores variam de 3 a 5000. Kolmogorov-Smirnov Teste usado para grandes conjuntos de dados. So permitidos valores perdidos e recomendado para situaes com mais de 1500 valores. Cramer-von Mises um teste no factvel sem o uso de softwares, e um dos testes mais usados na literatura. So permitidos valores perdidos e no tem restries sobre o nmero de valores. Anderson-Darlin Apresenta resultados muito parecidos com os do Cramer-von Mises. So permitidos valores perdidos e no tem restries sobre o nmero de valores. No R, esses testes so disponveis em alguns pacotes especficos. Os pacotes e as sintaxes so apresentadas a seguir: Teste de Shapiro-Wilk - faz parte do pacote stats (parte da instalao bsica), no precisa instal-lo ou requer-lo. Sintaxe: shapiro.test(vetor)
Kolmogorov-Smirnov - faz parte do pacote nortest, (instal-lo e requer-lo). Sintaxe: lillie.test(vetor)
Cramer-von Mises - faz parte do pacote nortest, (instal-lo e requer-lo). Sintaxe: cvm.test(vetor) Anderson-Darlin - faz parte do pacote nortest, (instal-lo e requer-lo). Sintaxe: ad.test(vetor) Exemplo: Para exemplificar os diagnsticos e testes de normalidade, considere os dados apresentados a seguir - pesos y1 e y2 referentes a duas espcies animais (E1 e E2).
72,50 69,00 75,00 70,80 71,20 73,00 y1 70,00 67,10 71,00 72,00 73,00 68,00 69,00 69,90 70,10 71,00 74,00 72,00 72,00 69,10 75,00 70,90 71,00 72,90 y2 69,90 37,00 71,10 71,90 73,00 68,20 68,90 70,00 70,00 71,10 74,00 72,00
> y1=edtn[,1]; y1 > y2=edtn[,2]; y2 > media=mean(y1); media > mediana=quantile(y1,0.50); mediana > variancia=var(y1); variancia > desv_padr=sd(y1); desv_padr > q123=quantile(y1); q123
c) Usar a funo est_desc e obtenha todas as estatsticas descritivas (para y1 e y2). c.1) Dar dowload na funo est_desc e execut-la. c.2) Exercutar a funo > est_desc(y1) c.3) Para melhorar a visualizao pode-se usar > df_est_desc1 = data.frame(est_desc(y1)); df_est_desc1 c.4) > df_est_desc2 = data.frame(est_desc(y2)); df_est_desc2 d) Fazer os grficos de diagnsticos: histograma, boxplot, e de normalidade para as variveis y1 e y2 (mesma janela). Os grficos devem ser colocados em um documento do Word. d.1) Histograma > par(mfrow=c(1,2)); hist(y1); hist(y2) d.2) Boxplot > boxplot(y1); boxplot(y2) d.3) Normalidade > qqnorm(y1); qqline(y1) > qqnorm(y2); qqline(y2) e) Fazer os testes de normalidade: Shapiro-Wilk, Kolmogorov-Smirnov, Cramer-von Mises e Anderson-Darlin, para as variveis Y1 e Y2. e.1) Shapiro-Wilk > shapiro.test(y1); shapiro.test(y2) e.2) Kolmogorov-Smirnov > install.packages("nortest"); require(nortest) > lillie.test(y1); lillie.test(y2) e.3) Cramer-von Mises > install.packages("nortest"); require(nortest) # j instalado e requerido > cvm.test(y1); cvm.test(y2)
# j instalado e requerido
f) Retirar o outlier, de y2, e refazer o grfico boxplot e o teste Cramer-von Mises. f.1) Editando no R > y2 # observe que o outlier a observao nmero 8 > y2c <- y2; y2c[8] <- NA; y2c > boxplot(y2c) > cvm.test(y2c) f.2) Editando no Edit > odbcClose(nome_da_conexo) # se for o caso, a conexo precisa ser fechada > edtnc<-edit(edtn) # edita-se o(s) valor(es) e fecha a janela > edtnc > boxplot(edtnc[,2]) > cvm.test(edtnc[,2]) g) Salvar o script com o nome etn.R
Teste para a mdia (uma amostra) varincia conhecida Teste para a mdia (uma amostra) varincia desconhecida Teste para comparao de duas mdias (duas amostras) Teste para comparao de duas mdias para dados aos pares (pareados) Teste para a varincia (uma amostra) Teste para comparao de duas varincias (duas amostras) Teste para proporo (uma amostra) Teste para comparar duas propores (duas amostras)
No R, os comandos utilizados com as respectivas sintaxes e os pacotes onde se encontram so apresentados a seguir:
[alternative=two-sided
onde: v = vetor da amostra mdia = valor da mdia a ser testado desvio_padro = desvio padro conhecido two-sided | greater | less se a hipse alternative que a mdia : diferente, maior que ou menor, respectivamente, da mdia colocada em prova. (default= two-sided) conf.level = Apresenta o intervalo de confiana para a mdia, ao nvel de confiana especificado (default= 95%) Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal
Alan R. Panosso e Euclides B. Malheiros 19 b) Teste para mdia varincia desconhecida (uma amostra)
O teste t para a mdia, quando a varincia desconhecida, faz parte do pacote stats), (no precisa instal-lo ou requer-lo faz parte de mdulo bsico).
Sintaxe:
O teste sigma para a varincia de uma amostra faz parte do pacote TeachingDemos, (precisa instal-lo e requer-lo). Sintaxe:
two-sided | greater | less se a hipse alternative que: 12 22, 12>22ou 12<22, respectivamente - default= 12 22 (two-sided). conf.level = Apresenta o intervalo de confiana para a mdia ao nvel de confiana especificado (default= 95%).
t.test([v1, v2] | [v~cl]), [alternative=two-sided | greater | less], [conf.level=1-alfa], [var.equal=T | F], [paired=T | F)
onde: [v1, v2] se forem dados dois vetores - v1 e v2 so os vetores das amostra, ou [v~cl] se for dado um vetor (v) e a varivel classificatria (cl).
two-sided | greater | less se a hipse alternative que: v1 v2, v1>v2 ou v1<v2, respectivamente - default= v1 v2 (two-sided). conf.level = Apresenta o intervalo de confiana para a mdia ao nvel de confiana especificado (default= 95%). var.equal = se a igualdade das varincias verdadeira (T) ou falsa (F) default=F. paired = se os dados so pareados (T) ou no (F) default=F.
Sintaxe:
Exemplos:
Para exemplificar estes testes de hipteses sero resolvidos os exerccios da lista a seguir, cujos dados esto disponveis no arquivo Excel (A_Thmvp.xls), planilhas Ex1 a Ex5.
Resoluo: Hiptese testadas: H0: =30 vs H1: 30, Nvel de significncia: =0,05. > require(RODBC) > con=odbcConnectExcel("C://ADPA//ethmvp.xls") > Ex1=sqlQuery(con,"select * from\"Ex1$\" "); Ex1 > install.packages(TeachingDemos) > require(TeachingDemos) > z.test(Ex1$Pesos, mu=30, stdev=sqrt(40), alternative="t") Concluso:
2. Uma mqina para colocar vacinas nos frascos enche-os com uma distribuio X tal que X~N(500ml,2). Cada dia toma-se uma amostra de 16 frascos para avaliar se a mquina esta regulada. Em um dia obteve-se a amostra (disponveis no arquivo thmvp.xls, planilha Ex2): 509,42 476,79 507,27 458,10 473,30 501,41 515,07 518,07 463,76 493,95 521,62 503,41 480,71 495,32 481,55 472,32 Observe que a mdia amostral 492ml. 2.a) Fazer um teste de hipteses para testar se a mdia difere ou no de 500ml, com =0,01. (Teste para a mdia, varincia desconhecida).
Resoluo: Hiptese testadas: H0: =500 vs H1: 500, Nvel de significncia: =0,01. > Ex2=sqlQuery(con,"select * from\"Ex2$\" "); Ex2 > t.test(Ex2$Y, mu=500, alternative="t", conf.level=.99) Concluso:
2.b) Fazer um teste de hipteses para testar se a varincia difere ou no de 400ml2 (=0,10). (Teste para a varincia)
Resoluo: Hiptese testadas: H0: 2=400 vs H1: 2400, Nvel de significncia: =0,01. > sigma.test(Ex2$Y, sigma=sqrt(400), alternative="t", conf.level=0.90) Concluso:
Resoluo: Hiptese testadas: H0: =30 vs H1: >30, Nvel de significncia: =0,10. > Ex3=sqlQuery(con,"select * from\"Ex3$\" "); Ex3 > t.test(Ex3$Y, mu=30, alternative="g", conf.level=.90) Concluso:
4. Em um experimento de adubao de pastagens foram comparados dois tipos de adubao (qumica e orgnica). Seja X a altura da planta com Xq~N(q,2) e Xo~N(o,2). Observaram-se 12 parcelas de X1 e 10 parcelas de X2. Os resultados (disponveis no arquivo thmvp.xls, planilha Ex4) so apresentados a seguir: X1 58,0 67,1 56,4 63,5 65,9 60,0 62,6 59,6 70,0 67,9 69,9 74,1 X2 74,9 82,7 71,8 70,0 71,8 78,0 69,6 75,8 62,8 72,4 4.a) Fazer um teste de hipteses para testar a hiptese de homocedasticidade (=0,05). (Teste para duas varincias).
Resoluo: Hiptese testadas: H0: 12=22 vs H1: 1222, Nvel de significncia: =0,05. > Ex4vv=sqlQuery(con,"select * from\"Ex4vv$\" "); Ex4vv > var.test(Ex4vv$Y1, Ex4vv$Y2) ou > Ex4cv=sqlQuery(con,"select * from\"Ex4cv$\" "); Ex4cv > var.test(Ex4cv$Prod~ Ex4cv$Trat) Concluso:
4.b) Fazer um teste de hipteses para testar as hipteses: H0: q=o vs H1: qo (=0,05). (Teste para duas mdias). Hiptese testadas: H0: q=o vs H1: qo, Nvel de significncia: =0,05. > t.test(Ex4vv$Y1, Ex4vv$Y2, var.equal=T) ou > t.test(Ex4cv$Prod~ Ex4cv$Trat, var.equal=T)
Concluso:
Fazer um teste de hipteses para testar as hipteses: H0: cpc=spc vs H1: cpcspc (=0,05). Teste para comparar mdias, dados pareados.
Resoluo: Hiptese testadas: H0: 1=2 vs H1: 12, Nvel de significncia: =0,05. > Ex5=sqlQuery(con,"select * from\"Ex5$\" "); Ex5 > t.test(Ex5$SPC, Ex5$CPC, alternative="l", paired=T) Concluso:
6. Um produtor afirma que 60% dos peixes pesam mais que 1kg. O comprador quis testar a hiptese do vendedor e tomou uma amostra de 200 peixes, dos quais 104 pesaram mais de 1kg. Fazer um teste de hipteses para testar as hipteses: H0: p>60% vs H1: p<60% (=0,05). Teste para proporo (uma amostra)
Resoluo: Hiptese testadas: H0: p>60% vs H1: p<60%, Nvel de significncia: =0,05. > prop.test(104,200,p=0.6, alternative="l", conf.level=0.90)
ou
a) Teste Qui-quadrado:
Sintaxe:
chisq.test(x[, y])[$expected]
onde: x se x for a matriz da tabela de contingncia; ou x, y se x e y so os registros (fatores) $expected para mostrar a tabela dos valores esperados, caso os fatores da tabela forem independentes.
Em um experimento para testar se a ocorrncia de uma determinada doena depende da espcie animal, obteve-se a tabela de frequncias:
Espcies E1 E2 E3 E4 Presena da doena Sim No 25 90 180 230 2 25 4 8
Resoluo: > mx <- matrix(c(25,90,180,230,2,25,4,8), ncol=2, byrow=T) > mx > chisq.test(mx) > chisq.test(mx)$expected
Resoluo: > folic <- read.table("C://ADPA//folic.txt") > folic > v1<- as.factor(folic$V1); v1 > v2<- as.factor(folic$V2); v2 > v3<- as.factor(folic$V3); v3 > table(v1,v2) > chisq.test(v1,v2) > chisq.test(v1,v2)$expected > table(v1,v3) > chisq.test(v1,v3) > chisq.test(v1,v3)$expected > table(v2,v3) > chisq.test(v2,v3) > chisq.test(v2,v3)$expected Concluses: 9. GRFICOS - GRFICOS DE DISPERSO NO R Alguns comandos para grficos de disperso:
Comando plot
Sintaxe: plot(x, y, [type=tipo], [col=cor | nnero_da_cor] [pch=smbolo | nmero_do_smbolo], [lwd=nmero_espessura_da_linha], [lty=efeito_da_linha] [main=ttulo_do_grfico], [xlab=ttulo_do_eixo_x], [ylab=ttulo_do_eixo y], [font = nmero] , [font.main=nmero], [font.lab=nmero]) Onde: x e y so os vetrores com os valores de (x) - abcissas e de (y) ordenadas. tipo= p (pontos), l (linhas), b (ambos pontos e linhas), o (linha segmentada), s (escada), c (linha quebrada), h histograma, - default=p.
Alan R. Panosso e Euclides B. Malheiros 26 cor = red, blue, green, ... (ou 1=preto, 2=vermelho, 3=verde, 4=azul, ...). pch = $, k, @, .....ou 1 (crculo), 2 (triangulo), 3 (+), 4 (), 5 (losango), . lwd = espessura da linha lty = efeito da linha tracejada, pontilhada, ....
Sintaxe: plot(c(xmin,xmax), c(ymin,ymax), n) Onde: xmin e xmax so os limites da escala do eixo x e ymin e ymax so os limites da escala do eixo y. n indica para editar apenas os eixos.
Semanas
6 11 13 12.5
8 12.5 12.9 11
10 12.5 13.4 10
Editar o grfico:
Grfico de dispeso
16 Produo 6 8 10 12 14
4 Semanas
10
> graf <- read.table("C://ADPA//GRAF.TXT", header=T) > graf > x = graf[,1] > y1 = graf[,2] > y2 = graf[,3] > y3 = graf[,4] > x; y1; y2; y3 > plot(c(1,10),c(6,16), "n", main="Grfico de dispeso", col.main="blue", xlab="Semanas", ylab="Produo", col.lab="red") # configurando eixos > abline(h=seq(6,16,2),v=seq(1,10,1),lty=3,col="gray") # linhas de grade > lines(x,y1, type="o",col="red", pch=1) # linha y1 > lines(x,y2, type="o",col="blue", pch=2) # linha y2 > lines(x,y3, type="o",col="green", pch=3) # linha y2 > abline(h=c(11,13), col="orange", lwd=2) # linha de ref. Horiz > abline(v=5, col="red", lwd=1) # linha de ref. Vert.
N Nmero de observaes
A estatstica F testa a hiptese: H0: B=0 vs H1:B0. O valor p (p-value) obtido supondo que a estatstica F tem uma distribuio F central com 1 e N-2 graus de liberdade. Essa pressuposio vlida se os erros (resduos) tiverem distribuio normal e forem iid (independentes e identicamente distribudos). Para exemplificar a Anlise de regresso linear no R, entre com os dados: x <- c(18, 16, 25, 22, 20, 21, 23, 19, 17); x # Temperatura y <- c(5, 3, 10, 8, 6, 7, 9, 6, 5); y # Dilatao linear
Passo 1: Representar os pontos graficamente ( grfico de disperso) para visualizar se existe uma tendncia linear. > plot(x,y)
Passo 2: Estimar os parmetros A e B. > mod <- lm(y~x) > mod
Alan R. Panosso e Euclides B. Malheiros 29 a) Resduo ordinrio: ri = Yi Yi No R: > res <- residuals(mod); res b) Resduo padronizado internamente (Studentized residual) ri rsi = , onde V (ri ) estimativa da varincia residual. V (r )
i
No R > rp <- rstandard(mod); rp c) Resduo padronizado externamente (Jacknife residual, Rstudent) ri Rsi = , onde V(i ) (ri ) estimativa da varincia residual sem a observao i. (r ) V
(i ) i
Grficos de diagnsticos (histograma, boxplot e normalidade) No R > hist(rs) > boxplot(rs) > qqnorm(rs); qqline(rs) Diagnstico de outlier
O resduo padronizado externamente (estatstica rs) a mais apropriada para diagnstico de outlier. Um valor considerado outlier se |Rsi|> 2.33, embora se encontre situaes que usam como limite o valor 2 ou 3. Um grfico utilizado para diagnosticar outliers plotar valor predito x Rstudent, que permite diagnosticar independncia e presena de outlier.
2 p N
> influence.measures(mod)
considerado influente se pelo menos uma das estatsticas exceder o limite. Na prtica escolhe-se uma das estatsticas geralmente a hat. E plota-se no h x rs, grfico que permite diagnosticar valores outliers, influentes ou ambos.
Grfico para detectar dados influentes e outliers > rs <- rstudent(mod); h <- hatvalues(mod); P=length(mod$coefficient); N=length(y)
> > > > > > > minrs=min(rs,-2.33); maxrs=max(rs,2.33) ymin=minrs-.1; ymax=maxrs+.1 maxh=max(h,3*P/N); minh=min(h) xmin=minh-.1 xmax=maxh+.1 par(mfrow=c(1,1)) plot(c(xmin,xmax),c(ymin,ymax), type="n", xlab="h - leverage", ylab="RStudent") > abline(h=-2.33, col="red"); abline(h=2.33,col="red"); abline(v=lh, col="blue"); points(h,rs)
Prtica:
Uma rotina completa para diagnsticos em modelos lineares apresentada no sacript R_Diag.R (usando -3 e 3 como limites da faixa para outliers) e uma rotina completa para anlise de regresso linear apresentada no scriplt RLS.R.
Aplicaes usando as rotinas apresentadas: Exerccio 1. Fazer anlise de diagnsticos para os dados dos arquivos: A_RLS1.xls, que contem trs emplos planilhas RLSA, RLSB e RLSC - disponveis no site (Exemplos do Livro FREIRE (2008)). Exerccio 2. Em um experimento, em cada semana (X), X=1, 2, ..., 5, obteve-se os Pesos (Y) de trs animais (Repeties), cujos valores so apresentados a seguir (disponveis no arquivo A_RLS2.txt). Fazer a anlise de Regresso Linear Simples desses dados.
Valores de X 1 2 3 4 5 R1 8.2 19.7 28.6 30.8 40.3 Valores de Y R2 6.6 15.7 25.0 37.8 42.9 R3 9.8 16.0 31.9 40.2 32.6
Modelo: Y= A + B1X1 + B2 X2 + ... + BkXk + , Onde: Y o vetor das observaes; X1, X2, ..., Xk as variveis independentes; o vetor de erros (resduos ordinrios); B1, B2, ...,Bk so os parmetros do modelo.
A anlise de varincia esquematizada como: F.V. Modelo Resduo Total G.L. k-1 N-k N-1 S.Q. SQ(Mod.) SQ(Res.) SQ(Tot.) Q.M. F QM(Mod.) QM(Mod.) / QM(Res.) QM(Res.) p-value p
A estatstica F testa a hiptese: H0: B1=B2= ... =Bk=0 vs H1: BiBi , para algum i i. O valor p (p-value) obtido supondo que a estatstica F tem uma distribuio F central com K-1 e N-k graus de liberdade. Essa pressuposio vlida se os erros (resduos) tiverem distribuio normal e forem iid (independentes e identicamente distribudos).
Prtica:
Os passos para uma anlise de regresso mltipla so:
Passo 1: Fazer grficos apropriados. Passo 2: Estimar os parmetros. Passo 3: Realizar a anlise de Regresso Linear Mltipla. Passo 4: Fazer as anlises de diagnsticos. Passo 5: Fazer a seleo de modelos.
Uma rotina completa para anlise de Regresso Linear Mltipla apresentada no scriplt S_RLM.R.
Exerccio. Fazer a regresso Linear Mltipla para os dados de um experimento para avaliar quais dos nutrientes: X1=N, X2=P, X3=K, X4=Ca, X5=Mg, X6=S influenciam na granulometria do solo. Obteve-se os dados apresentados a seguir, onde Y = % terra retida na peneira 18 (disponveis no site no arquivo A_RLM.txt).
Modelo: Y= A + B1X + B2 X2 + ... + BkXk + , Onde: Y o vetor das observaes; X1, X2, ..., Xk as potncias de X; o vetor de erros (resduos ordinrios); B1, B2, ...,Bk so os parmetros do modelo.
A anlise de varincia esquematizada como:
A estatstica F testa a hiptese: H0: B1=B2= ... =Bk=0 vs H1: Bi Bi , para algum i i. O valor p (p-value) obtido supondo que a estatstica F tem uma distribuio F central com K-1 e N-k graus de liberdade. Essa pressuposio vlida se os erros (resduos) tiverem distribuio normal e forem iid (independentes e identicamente distribudos). O valor p (p-value) obtido supondo que a estatstica F tem uma distribuio F central com K-1 e N-k graus de liberdade. Essa pressuposio vlida se os erros (resduos) tiverem distribuio normal e forem iid (independentes e identicamente distribudos).
Prtica:
Os passos para uma anlise de regresso polinomial so:
Passo 1: Fazer grficos de disperso. Passo 2: Selecionar o grau do polinmio. Passo 3: Realizar a anlise de Regresso Polinomial. Passo 4: Fazer as anlises de diagnsticos. Passo 5: Realizar a anlise de Regresso Polinomial, do grau selecionado.
Uma rotina para anlise de Regresso Polinomial apresentada no scriplt S_RPOL.R.
Exerccio. Fazer a regresso Polinomial para os dados da quantidade do produto (X) e do tempo que o lquido demora para congelar (Y), apresentados a seguir (disponveis no site no arquivo A_RPOL.xls criar A_RPOL.txt ). quantidade de p (X) 2.50 2.55 2.60 2.65 2.70 2.75 2.80 2.85 2.90 2.95 3.00 Tempo para Gelar (Y) Rep.1 Rep.2 7.39 7.30 7.00 7.03 6.90 6.95 6.85 6.80 6.70 6.30 6.33 6.20 5.97 5.90 5.90 5.82 5.80 5.80 6.15 6.00 6.30 6.15
a) Representar graficamente Y=f(X). b) Fazer a anlise de regresso polinomial, de Y em funo de X. c) Representar graficamente os valores observados e o modelo ajustado.
Modelo: yij = m + ti + eij , onde yij = valor observado na unidade experimental que recebeu o tratamento i, repetio j; m= efeito da mdia geral; ti = efeito do tratamento i; eij = erro aleatrio (resduo).
A anlise da varincia uma ferramenta muito usada para testes de hipteses. Esse procedimento estatstico consiste em particionar a variao total em partes devidas a cada uma das Fontes de Variao envolvidas no experimento. Em um DIC tm-se duas fontes de variao, ou seja: o fator em estudo (tratamentos) e o erro aleatrio. A anlise de varincia esquematizada como: F.V. Tratamento Resduo Total G.L. t-1 t(r-1) tr-1 S.Q. SQ(Tr.) SQ(Res.) SQ(Tot.) Q.M. QM(Tr.) QM(Res.) F QM(Tr.) / QM(Res.) p-value p
F.V. - Fontes de Variao, ou seja, as partes da Variao Total; G.L. - nmero de graus de liberdade associados F.V.; S.Q. - Soma de quadrados (variao devida a F.V.); Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal
Alan R. Panosso e Euclides B. Malheiros 34 Q.M. - Quadrado mdio (quociente da S.Q. pelo G.L.); F - valor da estatstica do teste; p-value - probabilidade associada estatstica F, utilizada na regra de deciso em rejeitar ou no a hiptese que est sendo testada.
Se p0,05, o teste significativo ao nvel de 5% de probabilidade, e assim sendo rejeita-se H0 , a esse nvel de probabilidade. O valor p-value obtido supondo que a estatstica F em questo tem uma distribuio F central com t-1 e t(r-1) graus de liberdade. Essa suposio vlida sob a hiptese de normalidade dos erros e homogeneidade de varincias. A estatstica F testa as hipteses: a) Efeitos fixos de tratamentos (concluses apenas para aos nveis estudados): H0: 1=2=3= ... t vs H1: ii', para algum i i'. Neste caso, se rejeitamos H0 e temos mais que 2 nveis do fator pode-se usar as ferramentas: Comparaes das mdias ou de grupos de mdias (comparaes mltiplas). Geralmente usado para fatores com nveis qualitativos. Contrastes ortogonais. Geralmente usado para fatores com nveis quantitativos. b) Efeitos aleatrios de tratamentos (Concluses permitem inferncias para a populao dos nveis): H0: 2Tr=0 vs H1: 2Tr 0. Neste caso, estimam-se os componentes da varincia.
Prtica:
Os passos para uma anlise dos dados de um experimento DIC:
Passo 1: Definir o modelo. Passo 2: Verificar as pressuposies (Normalidade e Homocedasticidade). Passo 3. Se a hiptese de Homocedasticidade for rejeitada, estudar o tipo de Heterocedasticidade e uma possvel transformao dos dados. Passo 4: Realizar a anlise de Varincia. Passo 5: Comparaes de mdias - Comparaes Mltiplas ou Desdobramento por Contrastes.
Uma rotina para anlise de Regresso Polinomial apresentada no scriplt S_DIC.R. Para exemplificar resolver os 3 exerccios da lista a seguir:
2. Um experimento para avaliar o efeito da do nvel de um nutriente (NN) na pastagem (altura em mm), utilizou-se um DIC com 5 tratamentos e 6 repeties. Os resultados (disponveis em A9_Ex2.txt) foram: Repeties Nveis 1 2 3 4 5 6 0 2370,0 1687,0 2592,0 2283,0 2910,0 3020,0 0,5 1282,0 1527,0 871,0 1025,0 825,0 920,0 1,0 562,0 321,0 636,0 317,0 485,0 842,0 1,5 173,0 127,0 132,0 150,0 129,0 227,0 2,0 193,0 71,0 82,0 62,0 96,0 44,0 Fazer a anlise de varincia e concluir. 3. Um experimento para avaliar o efeito da substituio do milho por soja da rao, no ganho de peso dos animais, utilizou-se um DIC com 5 tratamentos (dois padres sem milho e soja e trs nveis de substituio) e 6 repeties. Os resultados (disponveis em A9_Ex3.txt) foram:
P. Subst. Pad1 Pad2 Sub 1% Sub 5% Sub 12% 1 57,37 51,72 148,41 296,42 490,95 2 20,27 38,20 91,21 342,43 407,46 Repeties 3 4 13,97 17,16 29,71 45,06 154,89 90,20 204,91 246,20 518,16 476,19 5 28,53 38,81 130,80 205,36 580,36 6 10,64 66,70 208,90 224,98 598,14
Fazer a anlise de varincia e concluir. Os dados encontram-se no arquivo Excel A_DIC.xls, e nas planilhas Ex1, Ex2 e Ex3, respectivamente. Criar os arquivos DIC1.txt, DIC2.txt e DIC3.txt.
O p-values para tratamentos obtido supondo que a estatstica F em questo tem uma distribuio F central com t-1 e (b-1)(t-1) graus de liberdade. Essa suposio vlida sob a hiptese de normalidade dos erros.
Prtica:
Os passos para uma anlise dos dados de um experimento DBC: Passo 1: Definir o modelo. Passo 2: Verificar as pressuposies (Normalidade). Passo 3: Realizar a anlise de Varincia. Passo 4: Comparaes de mdias - Comparaes Mltiplas ou Desdobramento por Contrastes. Uma rotina para anlise DBC apresentada no scriplt S_DBC.R. Para exemplificar resolver os 2 exerccios da lista disponvel no site.
a) Fazer a Anlise da Varincia, verificando as pressuposies dos testes. b) Comparar as mdias pelo teste de Tukey. c) Concluir. 2. Em um Delineamento em Blocos Casualizados com cinco tratamentos (efeitos fixos) e quatro blocos, a observao da parcela referente ao tratamento3 e bloco 3 foi perdida. Os dados observados foram:
Trat. 1 2 3 4 5 Blocos 1 2 3 4
70,2 62,8
,
59,2 65,1
Casualiza-se ento as linhas e colunas. Observe que este tipo de delineamento tem 3 fatores: Tratamentos e 2 Controles Locais (Linhas e Colunas). Da mesma forma do DBC, pela forma de casualizao, considera-se apenas os efeitos principais.
Modelo: yijk = m +li + cj + tk(ij) + eijk , onde yijk = valor observado na unidade experimental que recebeu o tratamento k (na linha i e coluna j); m= efeito da mdia geral; li = efeito do linha i; cj = efeito do coluna j; tk(ij) = efeito do tratamento k aplicado na linha i e coluna j; eijk = erro aleatrio (resduo).
A anlise de varincia esquematizada como: F.V. G.L. S.Q. Q.M. Linhas p-1 SQ(Lin.) QM(Lin.) Colunas p-1 SQ(Col.) QM(Col.) Tratamentos p-1 SQ(Tr.) QM(Tr.) Resduo (p-1)(p-2) SQ(Res.) QM(Res.) Total p2-1 SQ(Tot.) F QM(Lin.) / QM(Res.) QM(Col.)/ QM(Res.) QM(Tr.) / QM(Res.) p-value p1 p2 p3
O p-value para tratamentos obtido supondo que a estatstica F em questo tem uma distribuio F central com p-1 e (p-1)(p-2) graus de liberdade. Essa suposio vlida sob a hiptese de normalidade dos erros.
Prtica:
Os passos para uma anlise dos dados de um experimento DQL:
Uma rotina para anlise DQL apresentada no scriplt S_DQL.R. Para exemplificar resolver o exerccio da lista disponvel no site.
Linhas