Apostila R

Alan R. Panosso e Euclides B.
Malheiros
TPICOS ESPECIAIS ANLISE DE DADOS NA PRODUO ANIMAL 1. INTRODUO AO SOFTWARE R

1.1. Instalao do software e formas de trabalho a) Entrar no site: http://www.r-project.org b) Selecione a opo CRAN (Comprehensive R Archive Network) c) Selecione o CRAN do Brasil, (Piracicaba, Viosa, ...). Sugere-se o mais prximo de sua unidade. d) Selecione o sistema operacional que ira trabalhar (Linux, MacOS X ou Windows) e) Se for a verso Windows 64 bits, selecione o here na opo (See here for a 64bits Windows). f) Selecione a opo base - Binaries for base distribution (managed by Duncan Murdoch). g) Selecione a opo Download R 2.11.1 for Windows. Na janela inicial do R (console), apresentado o prompt ( > ), que o prompt de linhas de comandos do R. Para executar um comando ou operao editada na linha de comandos, basta usar a tecla <ENTER>. Para sair do R, use: > q( ) ou a opo de menu: arquivo / sair Exemplos: > 25+35 a) Alguns operadores: aritmticos: Adio (+), subtrao (-), multiplicao (*), diviso (/), potenciao (^ ou **). Lgicos: igual a ( == ), menor (<) , maior (>) , menor ou igual (<=), maior ou igual (>=) e diferente (!=).
b) Algumas funes aritmticas: sqrt(x) - raiz quadrada de x, log(x,n) - logaritmo de x na base n, log(x) - logaritmo neperiano de x, log10(x) - logaritmo decimal de x, exp(x) - ex , sin(x) - seno de x (em radianos) , asin(x) - arco-seno de x, abs(x) - modulo(x). Exemplos: > sqrt(125) > log(15,2) > sin(45) > cos(pi) (pi = 180 em graus ou 3,141593 em radianos) Para acessar comandos j executados, use as setas direcionais ( e ). Para limpar a Janela console use CTRL + L. Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal
Alan R. Panosso e Euclides B. Malheiros c) Ambientes de trabalho
O ambiente de trabalho no R pode se reduzir janela Console ou trabalhar simultaneamente com duas janelas Console + Script (Editor R). a) Para abrir um script use a opo: Arquivo / Novo script. b) Para navegar pelas janelas Console e script ou escolher a forma de visualiz-las simultaneamente, use a opo: Janelas. O Script um editor de textos do R que possibilita editar os comandos e transferi-los para serem executados na janela Console (CTRL + R) ou com a opo de menu: Editar / Executar. A vantagem dessa forma de trabalho que a janela script pode ser salva a qualquer momento (Para salvar, a extenso do nome do arquivo deve ser .R). d) Diretrios de trabalho. Para saber o diretrio de trabalho (default), use: Sintaxe: > getwd() Para alterar o diretrio de trabalho, use: Sintaxe: > setwd(Novo_Caminho) Ou, na opo de menu: Arquivo / Mudar Diretrio Para criar um diretrio pelo R, use: Sintaxe: > dir.create(Novo_Caminho) Para visualizar o contedo do diretrio de trabalho use: Sintaxe: > dir() ou > list.files() Observao: as barras utilizadas na descrio do caminho no R so diferentes das utilizadas no Windows. Ex: C://ADPA Exemplo: Veja qual o diretrio de trabalho (default)..........................> getwd() Crie uma pasta de trabalho em C:\, com o nome ADPA.......> dir.create(C://ADPA) Defina esta pasta como a pasta de trabalho ...........................> setwd(C://ADPA) Visualize o contedo do diretrio de trabalho.......................> dir() Veja qual o diretrio de trabalho ........................................> getwd() 1.2. Pacotes no R Pacotes (packeges) ou bibliotecas (library) so conjuntos de funes, exemplos, e documentaes desenvolvidas para determinadas tarefas. No R podem-se encontrar pacotes desenvolvidos pelos responsveis pelo R ou implementados por usurios. Com a instalao inicial, instalado um conjunto bsico de pacotes, ou seja:
[1] "stats" [7] "base" "graphics" "grDevices" "utils" "datasets" "methods"
Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal
Alan R. Panosso e Euclides B. Malheiros A finalidade e sintaxe de alguns comandos R, relacionados a pacotes, so:
a) Instalar pacotes (necessita conexo com a internet). Sintaxe: > install.packages(nome_do_pacote) Com este comando solicitado o CRAN onde ele ser acessado. Sugere-se que use o mais prximo de sua unidade. Exemplo: > install.packages(agricolae) O pacote instalado permanece no seu computador at que voc o remova. Para us-lo voc precisa solicit-lo (requer-lo) a cada vez que entrar no R. b) Desinstalar (remover) pacotes. Sintaxe: > remove.packages(nome_do_pacote) c) Requerer um pacote. Sintaxe: > require(nome_do_pacote) Exemplo: > require("agricolae") d) Listar os Pacotes disponveis no ambiente R (requeridos). Sintaxe: > (.packages()) e) Listar os Pacotes disponveis em seu computador (instalados). Sintaxe: > .packages(all.available=TRUE) f) Auxlio sobre um pacote. Sintaxe: > help(package=nome_do_pacote) Exemplo: > help(package="agricolae") g) Auxlio sobre um comando do R on-line. Necessita conexo com a internet. Sintaxe: > help(nome_do_comando) ou ?nome_do_comando Exemplo: > help(mean) ou ?mean h) Auxlio sobre um comando em todos os pacotes instalados. Sintaxe: > help.search(nome_do_comando) ou ??nome_do_comando Exemplo: > help.search("mean") ou ??mean Exerccio 1: E1.1.) Sair do R E1.2.) Abrir o R e visualizar as informaes da janela (Console) e as opes de menu. 1.3. Classes de objetos no R O R trabalha com as seguintes classes (ou tipos) de objetos: varivel, vetor, lista, fator, matriz e data.frame. Cada objeto tem: nome, contedo e atributo. Os nomes de objetos so atribudos pelo usurio e devem iniciar com uma letra (maiscula ou minscula), seguido de combinaes de letras, nmeros e alguns caracteres (desde que no reservados pelo R). O R faz diferena entre caracteres maisculos e minsculos. Os atributos podem ser numrico, caractere (label), complexo ou lgico. Todo objeto criado fica residente no ambiente R at que feche o software ou que o remova. Os smbolos <- , -> e = so usados para atribuio de valores. O smbolo # usado para comentrios no R. O ponto e vrgula ( ; ) permite a edio de mais que um comando na mesma linha.
Alan R. Panosso e Euclides B. Malheiros Exemplos: > A <- 25 # atribui a A o valor 25 >A # exibe na tela o valor de A - equivale a print(A). > B <- a+30; B # atribui a B o valor de A somado a 30 e exibe na tela o valor de B. Para mostrar os objetos disponveis na rea de trabalho, use a funo ls. Sintaxe: ls() Para remover um objeto use a funo rm. Sintaxe: > rm(nome_do_objeto1, nome_do_objeto2, ...) > rm(list=ls())
# remove os objetos especificados # remove todos os objetos
Descrio das classes de objetos

a) Varivel Objeto ao qual atribudo um valor que pode ter qualquer dos atributos. Exemplos para cada tipo de atributo: > x <- 10; x # exemplo com atributo numrico e mostra o contedo do objeto x. > rm(x) # Remove o objeto x Outros exemplos: > Maria -> nome; nome > y <- 3- 2i; y > res <- (x==20); res Para saber o atributo de um objeto use: mode(nome_do_objeto) ou is.nome_do_atributo(nome) Para saber a classe de um objeto use: class(nome_do_objeto). Para os objetos varivel e vetor o comando informa o atributo. Exemplos: > mode(x); mode(nome); mode(y); mode(res); > is.numeric(x); is.complex(x); is.character(nome); is.logical(res) > class(x); class(nome); class(y); class(res) b) Vetor Objeto com n valores (com o mesmo atributo) que podem ser referenciados por um ndice. Exemplos: > v1 <- c(12, 13, 14) Observaes: a) O letra c representa a funo concatenate que concatena os valores entre parnteses. b) Para especificar o vetor como um todo (nome_do_vetor). c) Para especificar apenas seus elementos (nome_do_vetor[ndice do elemento]). Exemplos: > v1; v1[2]; v1[c(1,3)] > v2 <- c(Trat1, Trat2, Trat3, Trat4); v2; v2[3] > v3 <- rep(5,4); v3 #rep(v,r) prepete o valor v, r vezes. Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal
Alan R. Panosso e Euclides B. Malheiros > v4 <- 1:10; v4 > v5 <- seq(2,14,3); v5
# n:m cria um vetor com a sequncia de n a m, 1 em 1 # seq(n,m,p) cria uma sequncia com os valores de n a m, variando de p em p. > v6 <- c(1,2,3,rep(6,3),seq(2,-14,-3)); v6
> mode(v1); mode(v2) > class(v1); class(v2) c) Lista Objeto com n valores (que podem ter diferentes atributos) que podem ser referenciados por um ndice. Exemplos: > lista <- list(nome=Maria, idade=18); lista Observaes: a) Para especificar a lista como um todo (nome_do_lista). b) Para especificar apenas seus elementos (nome_da_lista$nome_do_elemento) ou (nome_da_lista[ndice_do_elemento]). Exemplos: > mode(lista) > class(lista) > mode(lista$nome) ou mode(lista[1]) ; mode(lista$idade) ou mode(lista[2]) Observao: A maioria dos relatrios dos procedimentos estatsticos sai como lista. d) Fator um tipo particular de vetor, onde cada elemento repetido (uma ou mais vezes) considerado um nvel do fator. Muito usado nas anlises estatsticas variveis classificatrias. Exemplos: > trat <- as.factor(c(0,0,0,0,10,10,10,10,20,20,20,20)); trat > mode(trat) > class(trat) > vt=c(T1, T1, T1, T2, T2, T3); vt > fvt=as.factor(vt); fvt O comando table informa o nmero de repeties dos nveis do fator. Exemplos: > table(trat) > table(fvt) Para gerar nveis de um fator pode-se usar a funo gl; Sintaxe: gl(n,m, labels= nveis _do_fator) gera um fator de n nveis com m repeties, utilizando os nveis especificados em labels, ordenados ou no. > fat1 <- gl(5,4); fat1 > fat2 <- gl(3,4,labels=c(0,10,20)); fat2 > fat3 <- gl(3,4,labels=c("C","T1","T2")); fat3
Alan R. Panosso e Euclides B. Malheiros
e) Matriz Objeto com n m valores (n linhas e m colunas), com o mesmo atributo, que podem ser referenciados por dois ndices. Exemplos: > c1 <- c(1,1,1,2,2,2); c2 <- c(1:3,1:3); c3=c(12,14,16,25,22,29) ; c1; c2; c3 > m1=cbind(c1,c2,c3); m1 #cbind cria a matriz tendo os vetores como colunas > m2=rbind(c1,c2,c3); m2 #rbind cria a matriz tendo os vetores como linhas > m3=matrix(c(1,1,1,2,2,2,1:3,1:3,12,14,16,25,22,29),ncol=3); m3 #ncol especifica o numero de colunas da matriz. > m4=matrix(c(1,1,1,2,2,2,1:3,1:3,12,14,16,25,22,29),ncol=3, byrow=T); m4 #byrow especifica os dados sero organizados por linhas. Observaes: a) Para especificar a matriz como um todo (nome_da_matriz). b) Para especificar a linha nl da matriz (nome_do_matriz[nl,]) ou a coluna nc da matriz (nome_do_matriz[,nc]). c) Para especificar o elemento i, j da matriz (nome_do_matriz[i,j]) Exemplos: > m1[,3] > m1[2,] > m1[2,3] #especifica a coluna 3 da matriz m1 #especifica a linha 2 da matriz m1 #especifica o elemento da linha 2 e coluna 3 da matriz m1
Algumas operaes com matrizes: > A=matrix(c(1,3,2,8,9,11,0,4,3), ncol=3,byrow=T); A > B=matrix(c(rep(1,3),rep(2,3),rep(3,3)),ncol=3); B > S=A+B; S # soma de matizes > D=A-B; D # subtrao de matizes > P=A %*% B; P # produto de matizes > T=t(A); T # transposta de matiz > det(A); det(B) # determinante de matizes > IA=solve(A); IA # inversa de matizes > IB=solve(B); IB # inversa de matizes f) data.frame Objeto com n m valores (n linhas e m colunas) em que as colunas podem ter diferentes atributos, organizados na forma de banco de dados, ou seja, as colunas so variveis (mesmo atributo) e as linhas registros (atributos avariados de acordo com a coluna). Exemplos: Um experimento com 2 tratamentos e 5 repeties, obteve-se os resultados: Trat. 1 2 1 25,5 31,6 2 28,4 30,5 Repeties 3 24,1 29,3 4 27,5 31,1 5 26,3 29,4
Alan R. Panosso e Euclides B. Malheiros Criar um data.frame. > tr <- gl(2,5) > rp <- c(1:5,1:5) > y <- c(25.5, 28.4, 24.1, 27.5, 26.3, 31.6, 30.5, 29.3, 31.1, 29.4) > df1 <- data.frame(tr,rp,y); df1 > mode(df1) > class(df1)
1.4. Formas de entrada de dados

Para exemplificar a entrada de dados, considere os dados de um experimento com 3 tratamentos e 5 repeties, apresentados na Tabela 1: Trat T1 T2 T3 1 35,0 40,0 39,0 2 19,0 35,0 27,0 Rep 3 31,0 46,0 20,0 4 15,0 41,0 29,0 5 30,0 33,0 45,0
a) Criando os dados no programa.

Observao: As variveis trat e rep devem ser tratados como fatores e o valor observado y como vetor numrico, crie um data.frame para esses dados. > trat <- c(rep("T1",5), rep("T2",5), rep("T3",5)); trat > rep <- c(1:5,1:5,1:5); rep > y <- c(35, 19, 31, 15, 30, 40, 35, 46, 41, 33, 39, 27, 20, 29, 45); y > trat <- as.factor(trat) > rep <- as.factor(rep) > dfdp <- as.data.frame(cbind(trat,rep,y)); dfdp > class(dfdp); mode(dfdp$trat); mode(dfdp$y)
Valores perdidos: Supondo que a terceira repetio do tratamento 1 tenha sido perdida:
> yc <- c(35, 19, NA, 15, 30, 40, 35, 46, 41, 33, 39, 27, 20, 29, 45); yc > dfpp <- as.data.frame(cbind(trat,rep,yc)); dfpp > mode(dfpp$yc); mean(yc); mean(yc,na.rm=T)
b) Importando arquivo txt (ASCII) Sintaxe: nome <- read.table("arquivo_txt", [header=T], [dec=","]) onde: nome arquivo_txt [header=T] [dec=","] nome do data.frame nome do arquivo txt, com caminho completo. Usar se os nomes das colunas (variveis) do data.frame sero os cabealhos das colunas no arquivo .txt. Caso contrrio o R assume os nomes V1, V2, ..... (Variable 1, Variable 2, ...) Usar se o separador de decimais for a vrgula ( , ). No usar se forem pontos. Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal
Alan R. Panosso e Euclides B. Malheiros Exemplo:
b1) crie um arquivo ASC referente aos dados da Tabela 1, na pasta C:\ADPA, com o nome A_EXEMPLO.txt. Use o arquivo A_EXEMPLO.xls disponvel no site. b2) Importe o arquivo. > arqtxt <- read.table("C://ADPA//a_exemplo.txt", header=T, dec=",") > arqtxt b3) Visualize a classe e atributo do arquivo criado > class(atqtxt) > mode(atqtxt) c) Importando arquivo Excel Para importar arquivos do Excel necessrio que o pacote RODBC esteja instalado e carregado (requerido). install.packages("RODBC") require(RODBC) Sintaxe: con=odbcConnectExcel[2]("arquivo_excel") nome=sqlQuery(con,"select * from\"planilha$\" ") [odbcClose(con)] onde: con o nome da conexo com o arquivo, feita pelo odbcConnectExcel [2] Usar se for o Excel 2007. Se no usar considera versos anteriores. arquivo_excel nome do arquivo excel, com caminho completo nome nome do data.frame planilha nome da planilha a ser importada [odbcClose(con)] Usar se quiser fechar a conexo sem o que, no possvel trabalhar na planilha.
Exemplo: c1) Crie um arquivo excel com os dados da Tabela 1 e salve-o no caminho: C:\ADPA, com o nome do arquivo A_EXEMPLO.xls, e nome da planilha p1 (disponvel no site). c2) Importe o arquivo usando: > con_ex=odbcConnectExcel("C://ADPA//a_exemplo.xls") > arqxls=sqlQuery(con_ex,"select * from\"p1$\" ") c3) veja a classe e atributos da arquivo criado > class(arqxls) > mode(arqxls) comando attach Este comando usado para separar as variveis de um data-frame. O data-frame arqxls tem as colunas tr, rp e y Para separ-las pode-se usar uma das opes: a) tr <- arqxls[,1]; rp <- arqxls[,2]; y <- arqxls[,3] ou b) attach(arqxls) Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal
Alan R. Panosso e Euclides B. Malheiros 2. ESTATSTICAS DESCRITIVAS
So estatsticas que trazem informaes sobre a posio, a disperso e a distribuio de um conjunto de valores numricos. As principais estatsticas descritivas so: Medidas de posio Mdia aritmtica, mediana e moda. Medidas de disperso varincia, desvio padro, amplitude. Medidas separatrizes quartis q1, q2, q3 e intervalo interquartlico. A maioria dos softwares estatsticos tem um mdulo que apresenta um conjunto dessas estatsticas. a) Medidas de posio So medidas que indicam um ponto em torno do qual se concentram os dados (a posio dos dados). Sejam x1, x2, x3, ..., xn, n valores numricos. As medidas de posio mais usuais so: Mdia aritmtica A mdia aritmtica, indicada por m ou x , definida por:
n
x=
i =1
xi
Se os valores xi, i=1, 2, ..., k (k<n) ocorrem com freqncias fi, i=1, 2, ..., k, respectivamente, ento a mdia aritmtica pode ser obtida por:
k
x=
i =1 k
f i xi fi
i =1
Mediana A mediana o valor central do conjunto de valores, organizados em ordem crescente ou decrescente, se n for mpar, ou a mdia dos dois centrais, se n for par. A mediana tal que 50% dos valores a precedem e 50% a sucedem. Moda A moda o valor que ocorre com maior freqncia. A moda pode no existir ou no ser nica. Mdia aritmtica ponderada Se aos n valores associam-se fatores de ponderao ou pesos w1, w2, w3, ..., wn, respectivamente, a mdia aritmtica ponderada dados por:
n
x=
i =1 n
wi xi wi
i =1
A escolha da medida de posio a ser usada depende das caractersticas dos dados e do objetivo do uso. Pode-se estar interessado no tamanho mximo, no tamanho mnimo ou no tamanho mdio de uma espcie animal. Situaes que apresentam valores discrepantes fazem com que a mdia seja prejudicada, ento a mediana pode ser mais apropriada. Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal
Alan R. Panosso e Euclides B. Malheiros 10 Algumas propriedades das medidas de posio: a.1) A mdia calculada a partir de todas as observaes. a.2) A mediana no prejudicada pela presena valores extremos, como a mdia. a.3) Somando-se, subtraindo-se ou multiplicando-se os valores a uma constante, a mdia ficar somada, subtrada ou multiplicada pela constante. a.4) A soma dos desvios em relao mdia nula, ou seja, ( xi x) = 0 A propriedade (a.3) de extrema importncia quando trabalhamos com unidades diferentes dos dados (kg, g, Km, m etc.). b) Medidas de disperso Como o prprio nome diz, so medidas que indicam quo dispersos encontram-se os valores. As medidas de disperso mais usuais so: Amplitude total a diferena entre o maior e o menor valor (Amplitude total = xmx. xmn.). Soma de quadrados a soma dos quadrados dos desvios em relao mdia aritmtica.
SQ = ( xi x ) 2
Varincia a mdia das somas dos quadrados dos desvios em relao mdia aritmtica, geralmente denotada por S2.
S2 = ( xi x) 2 n
Desvio Padro a raiz quadrada da varincia, geralmente denotada por s ( s = S 2 ). Coeficiente de variao uma medida de disperso relativa. representado por CV e definido como:
CV = 100 s x
Representa a porcentagem de variao por unidade de mdia. Algumas propriedades das medidas de disperso: b.1) A varincia no tem a mesma unidade dos dados, o que ocorre com o desvio padro. b.2) A soma dos quadrados dos desvios em relao mdia aritmtica (SQ) a menor soma de desvios ao quadrado, ou seja: ( xi x) 2 ( xi M ) 2 , M. b.3) Somando-se ou subtraindo-se os valores a uma constante, a varincia e a soma de quadrados no se alteram. b.4) Multiplicando-se os valores a uma constante, a varincia e a soma de quadrados ficaro multiplicadas pela constante ao quadrado. Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal
Alan R. Panosso e Euclides B. Malheiros 11 c) Medidas separatrizes So medidas que representam as posies dos valores do conjunto, dividindo-o em partes iguais e podem ser: quartis, decis etc. Os quartis dividem o conjunto de valores em quatro partes iguais, como mostra a Tabela a seguir: Tabela 1 - Descrio dos quartis. Estatstica Notao 1 quartil q1 2 quartil q2 = Mediana 3 quartil q3 Interpretao 25% dos dados so valores o precedem 50% dos dados so valores o precedem 75% dos dados so valores o precedem
A diferena (q3-q1) denominada intervalo interquartlico. Outras separatrizes usuais so: Decis: Dividem o conjunto de dados em dez partes iguais. Percentis: Dividem o conjunto de dados em cem partes iguais. No R, algumas dessas medidas podem ser obtidas por: mean(x) mdia, var(x) - varincia, sd(x) desvio padro, quantile(x,0.25) q1, quantile(x,0.50) q2, quantile(x,0.75) q3, quantile(x) mnimo q1 q2 e q3 e mximo, IQR(x) intervalo interquartlico, min(x) - mnimo, max(x) mximo. Tm-se ainda outras estatsticas como: skewness(x) coeficiente de assimetria, kurtosis(x) coeficiente de curtose, length(x) tamanho da amostra, sum(x) - somatria, sum(x^2) somatria dos elementos ao quadrado, sum(x-m) soma dos desvios em relao mdia, onde m a mdia. Exemplo: Considere que foram observados pesos de 10 animais, apresentados a seguir: 72,5 69,0 75,0 70,8 71,2 73,0 70,0 67,1 71,0 72,0 a) Criar um vetor Y com esses valores; > Y <- c(72.5, 69, 75, 70.8, 71.2, 73, 70, 67.1, 71, 72) b) Obter a mdia, varincia, q1, q2, q3, mnimo e mximo. > mean(Y); var(Y); quantile(Y) c) Obter o tamanho da amostra. > length(Y) d) Obter os coeficientes de assimetria e curtose > skewness(Y); kurtosis(Y) # observe que as funes no so encontradas nos pacotes instalados. d.1) Pedir auxlio de onde encontrar a funo skewness > ?? skewness # Ver que ele esta no pacote agricolae d.2) Instalar o pacote agricolae > install.packages("agricolae") d.3) Requerer o pacote agricolae > require("agricolae") d.4) Obtenha as estatsticas desejadas > skewness(Y); kurtosis(Y) Obter as somas dos quadrados dos desvios em relao mdia > med <- mean(Y); sqdm <- sum((Y-med)^2); med; sqdm Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal
Alan R. Panosso e Euclides B. Malheiros 12 3. FUNES NO R - APLICAO EM ESTATSTICAS DESCRITIVAS O R permite uso de funes j implementadas no software ou funes definidas pelo usurio. Para usar uma funo j implementada, basta cham-la pelo nome, especificando os valores dos argumentos. Uma funo implementada a funo summary, que retorna seis estatsticas (mnimo, mximo, media, q1, q2, q3), muito usadas nos testes de diagnsticos. Exemplo: > x=c(4,7,9,8,6,7,9,5,8,10) > summary(x) Para criar uma funo no R use a sintaxe: nome_da_funo = function(lista_de_argumentos) { comandos_da_funo return(resultado) } Onde: nome_da_funo nome da funo. lista_de_argumentos lista dos argumentos separados por vrgulas. comandos-da-funo comandos R necessrios para definir a funo. Se a funo retorna mais que um valor pode-se coloca-los em uma lista. Resultado nome do objeto que contm o resultado da funo (pode ser um valor, uma varivel, uma lista etc.). Exemplo: Sabendo-se que o erro padro da mdia dado por: epm = dp / n , onde dp=desvio padro e n=tamanho da amostra, crie uma funo para obter o epm. > epm=function(v) {epm=sd(v)/sqrt(length(v)) return(epm) } Observao: v um nome de varivel genrico.
Para usar a funo basta colocar seu nome, seguido da varivel para a qual deseja aplicar a funo (no caso x)
> epm(x)
Obter as principais estatsticas descritivas, definidas na funo est_desc, disponvel no site. a) Abrir a janela script e copiar a funo nesta janela; b) executar a funo; c) aplicar para o vetor x.
4. GRFICOS DE DIAGNSTICOS APLICAES NO R

Os grficos mais comuns na anlise exploratria de dados (diagnsticos) so histograma, boxplot ou grfico dos cinco nmeros, ramos e folhas e normalidade. Histograma grfico das freqncias por intervalos de classes. Box-plot grfico que inclui o mximo, mnimo e os quartis q1, q2 e q3.
Alan R. Panosso e Euclides B. Malheiros 13 Ramos e folhas um particular histograma, onde as classes do os ramos e os elementos dentro das classes so as folhas. Normalidade grfico contendo os valores observados e os esperados, caso os valores tiverem uma distribuio normal (qunto mais prximos de uma reta estiverem os pontos, melhor a aproximao normal).
No R os grficos: histograma, boxplot e de normalidade so feitos em janelas grficas, o ramos e folhas feito na janela console do R. Para salvar a janela grfica, use o boto contrrio do mouse e escolha entre copiar para a rea de transferncia ou salvar no formato desejado para o arquivo. Exemplo 1: Considere os valores para as variveis Y1 e Y2:
Y1 Y2 42,75 39,25 45,25 41,05 41,45 43,25 40,25 37,35 41,25 42,25 43,25 38,25 42,25 39,35 45,25 41,15 41,25 43,15 40,15 39,15 41,35 42,15 43,25 58,45
a) Digite os dados no Excel, planilha dados, e salve na pasta de trabalho com o nome A_GD.xls. Salve como arquivo ASC com o nome A_GD.txt (obs.: Encontra-se no site). b) Importe os dados no R. c) Faa os grficos de diagnsticos: Histograma, boxplot e de normalidade, para as variveis Y1 e Y2.
Soluo: > install.packages("RODBC") # se no estiver instalado > require(RODBC) # se no foi requerido > con_grd=odbcConnectExcel("C://ADPA//GD.xls") > arqgd=sqlQuery(con_grd,"select * from\"dados$\" ") > arqgd > mode(arqgd) > y1 <- arqgd[,1]; y1 > y2 <- arqgd[,2]; y2 > hist(y1) > boxplot(y1) > stem(y1) > qqnorm(y1); qqline(y1) > hist(y2) > boxplot(y2) > stem(y2) > qqnorm(y2); qqline(y2)
Observe que nos comando grficos do R, os termos line, curve ou points no geram um novo grfico, apenas incluem linhas, curvas ou pontos no grfico em edio. Como padro, o R apresenta um grfico por janela grfica. Para criar um ambiente matricial para apresentao de grficos, usa-se a funo:
par(mfrow=c(nl,nc)) onde: par - Set or Query Graphical Parameters mfrow define as dimenses do ambiente matricial com nl linhas e nc colunas. Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal
Alan R. Panosso e Euclides B. Malheiros 14

Exemplo 2: Gere 50 observaes com distribuio normal, mdia 10 e varincia 5, e faa os grficos de diagnsticos: Histograma, boxplot e de normalidade. Os grficos devem ser colocados em uma janela grfica com 1 linhas e 3 colunas. A funo para gerar n valores com distribuio normal com mdia m e desvio padro dp, definida como:
rnorm(n,m,dp), onde n o nmero de observaes, m a mdia e dp o desvio padro. Soluo: > y <- rnorm(50,10,sqrt(5)); y > par(mfrow=c(1,3)) > hist(y); boxplot(y); qqnorm(y); qqline(y) 5. TESTES DE HIPTESES 5.1 Introduo Hiptese estatstica: pode ser definida como uma afirmao sobre a distribuio de uma varivel aleatria (no geral sobre seus parmetros).
Exemplos: Em uma populao com mdia e varincia 2, possveis hipteses seriam H:=0; H:>50; H:0; H:2=100; H:2<10. A hiptese estatstica pode ser simples ou composta: Simples: se a hiptese especifica completamente a distribuio (H:=0, H:2=100). Composta: se a hiptese no especifica completamente a distribuio (H:>50, H:2<10).
Teste de hipteses: Como o prprio nome diz, so critrios estatsticos que permitem rejeitar ou no hipteses testadas, com base nos valores amostrais. Os testes de hipteses, no geral, apresentam duas hipteses: Hiptese nula (ou da nulidade), geralmente representada por H0, que a hiptese natural colocada prova. Hiptese alternativa, geralmente representada por H1 ou HA, que a hiptese alternativa hiptese colocada prova.
Os testes de hipteses devem seguir os passos:
Passo 1. Estabelecer as hipteses (H0 e H1). Passo 2. Obter uma estatstica, com distribuio conhecida, que fique completamente definida sob H0. Passo 3. Estabelecer os critrios do teste. Todo teste estatstico apresenta dois tipos de erro: Erro tipo I: Erro que se comete ao rejeitar H0, dado que ela verdadeira, geralmente representado por , e denominado nvel de significncia do teste. Erro tipo II: Erro que se comete ao no rejeitar H0, dado que ela falsa. O critrio mais comum em testes de hipteses fixar o erro Tipo I (nvel de significncia do teste). Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal
Alan R. Panosso e Euclides B. Malheiros 15 Passo 4. Calcular o valor da estatstica, item (2), para os valores da amostra. Passo 5. Aplicar o critrio do teste. 5.2 Exemplo de Aplicao
Para exemplificar, apresentemos esses passos em uma situao prtica:
Exemplo: A quantidade de calorias de um produto (v.a. X) tal que X~ N(,2). Para a indstria, =30, mas para os concorrentes 30. Para avaliar o produto foi tirada uma amostra de tamanho 25, cujos valores so apresentados a seguir:
30,05 29,38 28,45 31,22 31,07 34,44 34,50 34,48 31,75 30,59 31,92 31,76 30,25 33,28 33,40 31,46 31,43 32,92 29,91 33,63 27,98 33,07 31,01 29,85 29,70
Passo 1. Hipteses a serem testadas: H0:=30 e H1: 30. Passo 2. Sabe-se que T =
X ~ t(n-1), ou seja, T tem distribuio t de Student com nS n
1 graus de liberdade.
Passo 3. Fixando-se =0,05 (5%), tem-se pela tabela da distribuio t (ANEXO 1):
2,5%
2,5% 2,064
Regio Crtica (Regio de rejeio de H0) = (-, -2,064) (2,064,+).
Passo 4. TC =
31,5 30 3,43 25
= 4,050
Passo 5. Aplicar o critrio do teste.

Como Tc pertence regio crtica do teste, rejeita-se H0 em favor de H1, ao nvel de 5% de probabilidade.
Concluso: Ao nvel de 5% de probabilidade rejeita-se a hiptese da mdia de calorias ser 30 (H0) em favor da hiptese da mdia de calorias ser diferente de 30 (H1).

Os resultados dos testes geralmente apresentam o p-valor (p-value) dos testes, que a rea limitada pelo valor da estatstica calculada. Se o p-valor for menor que o nvel de significncia do teste, o teste significativo e rejeita-se H0 em favor de H1 a esses nvel de significncia.
6. TESTES DE NORMALIDADE APLICAES NO R

Testes de Normalidade so testes apropriados para testar a hiptese dos valores apresentarem uma distribuio normal (H0) contra a hiptese de no apresentarem. Os testes mais usuais so:
Shapiro-Wilk Teste de fcil aplicao sem o uso de software (manualmente). Possui a restrio de ser muito sensvel falta de simetria. So permitidos valores perdidos e recomendado para situaes em que o nmero de valores variam de 3 a 5000. Kolmogorov-Smirnov Teste usado para grandes conjuntos de dados. So permitidos valores perdidos e recomendado para situaes com mais de 1500 valores. Cramer-von Mises um teste no factvel sem o uso de softwares, e um dos testes mais usados na literatura. So permitidos valores perdidos e no tem restries sobre o nmero de valores. Anderson-Darlin Apresenta resultados muito parecidos com os do Cramer-von Mises. So permitidos valores perdidos e no tem restries sobre o nmero de valores. No R, esses testes so disponveis em alguns pacotes especficos. Os pacotes e as sintaxes so apresentadas a seguir: Teste de Shapiro-Wilk - faz parte do pacote stats (parte da instalao bsica), no precisa instal-lo ou requer-lo. Sintaxe: shapiro.test(vetor)
Kolmogorov-Smirnov - faz parte do pacote nortest, (instal-lo e requer-lo). Sintaxe: lillie.test(vetor)
Cramer-von Mises - faz parte do pacote nortest, (instal-lo e requer-lo). Sintaxe: cvm.test(vetor) Anderson-Darlin - faz parte do pacote nortest, (instal-lo e requer-lo). Sintaxe: ad.test(vetor) Exemplo: Para exemplificar os diagnsticos e testes de normalidade, considere os dados apresentados a seguir - pesos y1 e y2 referentes a duas espcies animais (E1 e E2).
72,50 69,00 75,00 70,80 71,20 73,00 y1 70,00 67,10 71,00 72,00 73,00 68,00 69,00 69,90 70,10 71,00 74,00 72,00 72,00 69,10 75,00 70,90 71,00 72,90 y2 69,90 37,00 71,10 71,90 73,00 68,20 68,90 70,00 70,00 71,10 74,00 72,00

Resolver o exerccio ( itens a) a f) ) usando a janela script. a) Criar um arquivo ASC de nome A_THN.txt, a partir do arquivo A_THN.xls, disponvel no site, e importar para o R os dados do arquivo A_THN.txt. > edtn <- read.table("C://ADPA//a_thn.txt", header=T, dec=",") > edtn b) Obter as medidas de posio: mdia e mediana; as de disperso: varincia, desvio padro e amplitude e as separatrizes q1, q2, q3 e intervalo interquartlico (para y1 e y2).
> y1=edtn[,1]; y1 > y2=edtn[,2]; y2 > media=mean(y1); media > mediana=quantile(y1,0.50); mediana > variancia=var(y1); variancia > desv_padr=sd(y1); desv_padr > q123=quantile(y1); q123
c) Usar a funo est_desc e obtenha todas as estatsticas descritivas (para y1 e y2). c.1) Dar dowload na funo est_desc e execut-la. c.2) Exercutar a funo > est_desc(y1) c.3) Para melhorar a visualizao pode-se usar > df_est_desc1 = data.frame(est_desc(y1)); df_est_desc1 c.4) > df_est_desc2 = data.frame(est_desc(y2)); df_est_desc2 d) Fazer os grficos de diagnsticos: histograma, boxplot, e de normalidade para as variveis y1 e y2 (mesma janela). Os grficos devem ser colocados em um documento do Word. d.1) Histograma > par(mfrow=c(1,2)); hist(y1); hist(y2) d.2) Boxplot > boxplot(y1); boxplot(y2) d.3) Normalidade > qqnorm(y1); qqline(y1) > qqnorm(y2); qqline(y2) e) Fazer os testes de normalidade: Shapiro-Wilk, Kolmogorov-Smirnov, Cramer-von Mises e Anderson-Darlin, para as variveis Y1 e Y2. e.1) Shapiro-Wilk > shapiro.test(y1); shapiro.test(y2) e.2) Kolmogorov-Smirnov > install.packages("nortest"); require(nortest) > lillie.test(y1); lillie.test(y2) e.3) Cramer-von Mises > install.packages("nortest"); require(nortest) # j instalado e requerido > cvm.test(y1); cvm.test(y2)

e.4) Anderson-Darlin > install.packages("nortest"); require(nortest) > ad.test(y1); ad.test(y2)
# j instalado e requerido
f) Retirar o outlier, de y2, e refazer o grfico boxplot e o teste Cramer-von Mises. f.1) Editando no R > y2 # observe que o outlier a observao nmero 8 > y2c <- y2; y2c[8] <- NA; y2c > boxplot(y2c) > cvm.test(y2c) f.2) Editando no Edit > odbcClose(nome_da_conexo) # se for o caso, a conexo precisa ser fechada > edtnc<-edit(edtn) # edita-se o(s) valor(es) e fecha a janela > edtnc > boxplot(edtnc[,2]) > cvm.test(edtnc[,2]) g) Salvar o script com o nome etn.R
7. TESTES PARA MDIAS, VARINCIAS E PROPORES

Os testes de hipteses usuais para mdias, varincias e propores so classificados em:

Teste para a mdia (uma amostra) varincia conhecida Teste para a mdia (uma amostra) varincia desconhecida Teste para comparao de duas mdias (duas amostras) Teste para comparao de duas mdias para dados aos pares (pareados) Teste para a varincia (uma amostra) Teste para comparao de duas varincias (duas amostras) Teste para proporo (uma amostra) Teste para comparar duas propores (duas amostras)
No R, os comandos utilizados com as respectivas sintaxes e os pacotes onde se encontram so apresentados a seguir:
a) Teste para mdia varincia conhecida (uma amostra)

O teste z para a mdia, quando a varincia conhecida faz parte do pacote TeachingDemos. (precisa instal-lo e requer-lo). Sintaxe:
z.test(v, mu=media, stdev=desvio_padro, greater | less], [conf.level=1-alfa])
[alternative=two-sided
onde: v = vetor da amostra mdia = valor da mdia a ser testado desvio_padro = desvio padro conhecido two-sided | greater | less se a hipse alternative que a mdia : diferente, maior que ou menor, respectivamente, da mdia colocada em prova. (default= two-sided) conf.level = Apresenta o intervalo de confiana para a mdia, ao nvel de confiana especificado (default= 95%) Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal
Alan R. Panosso e Euclides B. Malheiros 19 b) Teste para mdia varincia desconhecida (uma amostra)
O teste t para a mdia, quando a varincia desconhecida, faz parte do pacote stats), (no precisa instal-lo ou requer-lo faz parte de mdulo bsico).
t.test(v, mu=media, [alternative=two-sided | greater | less], [conf.level=1-alfa])

onde: v = vetor da amostra mdia = valor da mdia a ser testado two-sided | greater | less se a hipse alternative que a mdia : diferente, maior que ou menor, respectivamente, da mdia colocada em prova. (default= two-sided) conf.level = Apresenta o intervalo de confiana para a mdia ao nvel de confiana especificado (default= 95%). c) Teste para varincia (uma amostra)
Sintaxe:
O teste sigma para a varincia de uma amostra faz parte do pacote TeachingDemos, (precisa instal-lo e requer-lo). Sintaxe:
sigma.test(v, sigma=desv_pad, alternative=two-sided | greater | less], [conf.level=1-alfa])

onde: v = vetor da amostra desv_pad = valor do desvio padro a ser testado two-sided | greater | less se a hipse alternative que a mdia : diferente, maior que ou menor, respectivamente, da mdia colocada em prova. (default= two-sided) conf.level = Apresenta o intervalo de confiana para a mdia ao nvel de confiana especificado (default= 95%). d) Teste para comparar duas varincias
A resposta pode estar em dois vetores (v1 e v2) ou em um vetor (v) - com varivel classificatria (cl). Sintaxe:
var.test([v1, v2] | [v~cl]), [alternative=two-sided | greater | less], [conf.level=1-alfa])

onde: [v1, v2] se forem dados dois vetores - v1 e v2 so os vetores das amostra, ou [v~cl]se for dado um vetor (v) e a varivel classificatria (cl).
two-sided | greater | less se a hipse alternative que: 12 22, 12>22ou 12<22, respectivamente - default= 12 22 (two-sided). conf.level = Apresenta o intervalo de confiana para a mdia ao nvel de confiana especificado (default= 95%).
e) Teste para comparar duas mdias (pareadas ou no).

A resposta pode estar em dois vetores (v1 e v2) ou em um vetor (v) - com varivel classificatria (cl).

Sintaxe:
t.test([v1, v2] | [v~cl]), [alternative=two-sided | greater | less], [conf.level=1-alfa], [var.equal=T | F], [paired=T | F)
onde: [v1, v2] se forem dados dois vetores - v1 e v2 so os vetores das amostra, ou [v~cl] se for dado um vetor (v) e a varivel classificatria (cl).
two-sided | greater | less se a hipse alternative que: v1 v2, v1>v2 ou v1<v2, respectivamente - default= v1 v2 (two-sided). conf.level = Apresenta o intervalo de confiana para a mdia ao nvel de confiana especificado (default= 95%). var.equal = se a igualdade das varincias verdadeira (T) ou falsa (F) default=F. paired = se os dados so pareados (T) ou no (F) default=F.
f) Teste para propores (uma amostra)

O teste para proporo pode usar a distribuio binomial ou a normal aproximada. Sintaxe:
[prop.test | binom.test] (ns, ta, [p=prop], [alternative=two-sided | greater | less], [conf.level=1-alfa])

onde: prop.test usando a normal aproximada ou binom.test usando a binomial. ns nmero de sucessos (uma amostra) ou o vetor dos nmeros de sucessos (duas ou mais amostras) ta tamanho da amostra (uma amostra) ou o vetor dos tamanhos das amostras (duas ou mais amostras) prop proporo sendo testada (default = 0,5). two-sided | greater | less se a hipse alternative , > ou <, respectivamente. (default = ). conf.level = Apresenta o intervalo de confiana para a proporo, ao nvel de confiana especificado (default= 95%).
g) Teste para propores (duas ou mais amostras)
[prop.test] (c(ns1,ns2,ns3,), c(ta1,ta2,ta3,), [alternative=two-sided | greater | less], [conf.level=1-alfa])

onde: prop.test usando a normal aproximada ou binom.test usando a binomial. ns1, ns2, ns3, ... nmeros de sucessos das amostras 1, 2, 3, ..., respectivamente. ta1, ta2, ta3, .... tamanhos das amostras 1, 2, 3, ..., respectivamente. two-sided | greater | less se a hipse alternative , > ou <, respectivamente. (default = ). conf.level = Apresenta o intervalo de confiana para a proporo, ao nvel de confiana especificado (default= 95%).
Sintaxe:
Exemplos:
Para exemplificar estes testes de hipteses sero resolvidos os exerccios da lista a seguir, cujos dados esto disponveis no arquivo Excel (A_Thmvp.xls), planilhas Ex1 a Ex5.
Alan R. Panosso e Euclides B. Malheiros 21 LISTA DE EXERCCIOS TESTES DE HIPTESES

1. Seja X uma v.a. correspondente ao peso do animal. Sabe-se que X~N(,2) com =30g e 2=40. A mdia do peso pode variar se as condies de cultivo no so adequadas. Para verificar se as condies esto adequadas, obteve-se uma amostra (n=25), cujos valores foram (disponveis no arquivo A_THMVP.xls, planilha Ex1): 30,26 39,62 21,29 31,35 26,12 29,83 26,31 39,97 28,01 37,54 25,28 33,51 39,57 41,42 23,69 40,53 25,88 23,11 34,38 35,15 40,16 29,51 26,09 24,96 26,47 Fazer um teste de hipteses para testar H0: =30 vs H1: 30 (=0,05). (Teste para a mdia varincia conhecida).
Resoluo: Hiptese testadas: H0: =30 vs H1: 30, Nvel de significncia: =0,05. > require(RODBC) > con=odbcConnectExcel("C://ADPA//ethmvp.xls") > Ex1=sqlQuery(con,"select * from\"Ex1$\" "); Ex1 > install.packages(TeachingDemos) > require(TeachingDemos) > z.test(Ex1$Pesos, mu=30, stdev=sqrt(40), alternative="t") Concluso:
2. Uma mqina para colocar vacinas nos frascos enche-os com uma distribuio X tal que X~N(500ml,2). Cada dia toma-se uma amostra de 16 frascos para avaliar se a mquina esta regulada. Em um dia obteve-se a amostra (disponveis no arquivo thmvp.xls, planilha Ex2): 509,42 476,79 507,27 458,10 473,30 501,41 515,07 518,07 463,76 493,95 521,62 503,41 480,71 495,32 481,55 472,32 Observe que a mdia amostral 492ml. 2.a) Fazer um teste de hipteses para testar se a mdia difere ou no de 500ml, com =0,01. (Teste para a mdia, varincia desconhecida).
Resoluo: Hiptese testadas: H0: =500 vs H1: 500, Nvel de significncia: =0,01. > Ex2=sqlQuery(con,"select * from\"Ex2$\" "); Ex2 > t.test(Ex2$Y, mu=500, alternative="t", conf.level=.99) Concluso:
2.b) Fazer um teste de hipteses para testar se a varincia difere ou no de 400ml2 (=0,10). (Teste para a varincia)
Resoluo: Hiptese testadas: H0: 2=400 vs H1: 2400, Nvel de significncia: =0,01. > sigma.test(Ex2$Y, sigma=sqrt(400), alternative="t", conf.level=0.90) Concluso:

3. A quantidade de calorias X de um produto segue uma distribuio X~N(,2). O fabricante afirma que a quantidade de calorias 30 cal. Um concorrente questiona e diz que mais que 30. Toma-se uma amostra de tamanho 25 e os valores observados (disponveis no arquivo thmvp.xls, planilha Ex3) foram: 36,25 30,69 32,68 30,43 31,24 32,73 30,06 32,71 30,44 31,48 28,56 29,29 31,28 33,3 32,32 30,63 31,13 32,72 30,63 31,37 35,46 25,15 30,55 36,57 29,87 Observe que a mdia amostral 31,5ml. Fazer um teste de hipteses para testar se o fabricante ou o concorrente tinha razo (=0,10). (Teste para a mdia, varincia desconhecida).
Resoluo: Hiptese testadas: H0: =30 vs H1: >30, Nvel de significncia: =0,10. > Ex3=sqlQuery(con,"select * from\"Ex3$\" "); Ex3 > t.test(Ex3$Y, mu=30, alternative="g", conf.level=.90) Concluso:
4. Em um experimento de adubao de pastagens foram comparados dois tipos de adubao (qumica e orgnica). Seja X a altura da planta com Xq~N(q,2) e Xo~N(o,2). Observaram-se 12 parcelas de X1 e 10 parcelas de X2. Os resultados (disponveis no arquivo thmvp.xls, planilha Ex4) so apresentados a seguir: X1 58,0 67,1 56,4 63,5 65,9 60,0 62,6 59,6 70,0 67,9 69,9 74,1 X2 74,9 82,7 71,8 70,0 71,8 78,0 69,6 75,8 62,8 72,4 4.a) Fazer um teste de hipteses para testar a hiptese de homocedasticidade (=0,05). (Teste para duas varincias).
Resoluo: Hiptese testadas: H0: 12=22 vs H1: 1222, Nvel de significncia: =0,05. > Ex4vv=sqlQuery(con,"select * from\"Ex4vv$\" "); Ex4vv > var.test(Ex4vv$Y1, Ex4vv$Y2) ou > Ex4cv=sqlQuery(con,"select * from\"Ex4cv$\" "); Ex4cv > var.test(Ex4cv$Prod~ Ex4cv$Trat) Concluso:
4.b) Fazer um teste de hipteses para testar as hipteses: H0: q=o vs H1: qo (=0,05). (Teste para duas mdias). Hiptese testadas: H0: q=o vs H1: qo, Nvel de significncia: =0,05. > t.test(Ex4vv$Y1, Ex4vv$Y2, var.equal=T) ou > t.test(Ex4cv$Prod~ Ex4cv$Trat, var.equal=T)
Concluso:

5. Avalio-se o dimetro da pata de 25 animais. Pata com o procedimento cirrgico CPC e pata sem o procedimento cirrgico SPC. Seja X o dimetro da pata com Xcpc~N(spc,2) e Xcpc~N(spc,2). Os resultados (disponveis no arquivo thmvp.xls, planilha Ex5) so apresentados a seguir.
SPC CPC 14,8 14,7 14,4 15,6 15,1 14,8 14,9 15,0 14,7 14,4 15,3 15,7 14,7 14,6 14,7 14,4 15,1 15,2 14,5 14,9 16,2 14,8 14,8 14,9 14,5 14,8 14,9 15,2 14,5 15,0 15,4 15,7 14,1 15,8 15,3 15,0 14,1 14,7 15,4 15,0 15,1 14,1 14,9 15,3 15,1 15,8 14,8 15,4 15,1 15,5
Fazer um teste de hipteses para testar as hipteses: H0: cpc=spc vs H1: cpcspc (=0,05). Teste para comparar mdias, dados pareados.
Resoluo: Hiptese testadas: H0: 1=2 vs H1: 12, Nvel de significncia: =0,05. > Ex5=sqlQuery(con,"select * from\"Ex5$\" "); Ex5 > t.test(Ex5$SPC, Ex5$CPC, alternative="l", paired=T) Concluso:
6. Um produtor afirma que 60% dos peixes pesam mais que 1kg. O comprador quis testar a hiptese do vendedor e tomou uma amostra de 200 peixes, dos quais 104 pesaram mais de 1kg. Fazer um teste de hipteses para testar as hipteses: H0: p>60% vs H1: p<60% (=0,05). Teste para proporo (uma amostra)
Resoluo: Hiptese testadas: H0: p>60% vs H1: p<60%, Nvel de significncia: =0,05. > prop.test(104,200,p=0.6, alternative="l", conf.level=0.90)
ou
> binom.test(104,200,p=0.6, alternative="l", conf.level=0.90) Concluso:

7. Para testar se a proporo de novilhas de uma fazenda F1 a mesma que na fazenda F2, o agricultor tomou uma amostra de tamanho 100 na F1 - obteve 25 novilhas, e uma amostra de tamanho 120 na F2 obteve 45 novilhas. Fazer um teste de hipteses para testar as hipteses: H0: p1=p2 vs H1: p1p2 (=0,105). Teste para propores (duas amostras)
Resoluo: Usando a normal aproximada). > prop.test(c(25,45),c(100,120), alternative=t, conf.level=0.95) Concluso:
Alan R. Panosso e Euclides B. Malheiros 24 8. TESTE QUI-QUADRADO PARA TABELAS DE CONTINGNCIA

Testes utilizados para testar a independncia das variveis (linhas e colunas). Na prtica pode-se ter a tabela de frequncias ou todos os registros para ento criar a tabela de frequencias. O teste mais usado o Teste Qui-Quadrado, que tem a pressuposio de que as frequencias esperadas sejam 5. Se a pressuposio no for satisfeita usa-se o Teste Exato de Fisher (Teste no paramtrico) No R, os comandos utilizados com as respectivas sintaxes e os pacotes onde se encontram so apresentados a seguir:
a) Teste Qui-quadrado:
Sintaxe:
chisq.test(x[, y])[$expected]
onde: x se x for a matriz da tabela de contingncia; ou x, y se x e y so os registros (fatores) $expected para mostrar a tabela dos valores esperados, caso os fatores da tabela forem independentes.
b) Teste Exato de Fisher

Sintaxe: fisher.test(x[, y], [conf.level=1-alfa])
onde: x se x for a matriz da tabela de contingncia; ou x, y se x e y so os registros (fatores) conf.level para retornar o intervalo de confiana.
Em um experimento para testar se a ocorrncia de uma determinada doena depende da espcie animal, obteve-se a tabela de frequncias:
Espcies E1 E2 E3 E4 Presena da doena Sim No 25 90 180 230 2 25 4 8
Exemplo 1 Quando se tem a tabela de frequncias
Fazer um teste de hipteses para testar se a presena da doena independe ou no da espcie.
Resoluo: > mx <- matrix(c(25,90,180,230,2,25,4,8), ncol=2, byrow=T) > mx > chisq.test(mx) > chisq.test(mx)$expected

Como a pressuposio para o teste qui-quadrado no foi satisfeita, analisamos os dados pelo Teste Exato de Fisher.
> fisher.test(mx) Concluso:

a) Visualize o arquivo folic.txt (disponvel no site). So dados de um experimento de reproduo animal em que cada folculo era classificado quanto ao Dimetro (DF = 1 - pequeno, 2 mdio e 3 grande); Qualidade (QF = 1 ruim, 2 regular, 3 bom) e qualidade do ovcito (QO = 1 infrtil, 2 frtil). b) Salve-o na pasta ADPAe importe para o R. c) Proceda os testes de hipteses considerando as variveis duas-a-duas.
Exemplo 2 Quando se tem os registros.
Resoluo: > folic <- read.table("C://ADPA//folic.txt") > folic > v1<- as.factor(folic$V1); v1 > v2<- as.factor(folic$V2); v2 > v3<- as.factor(folic$V3); v3 > table(v1,v2) > chisq.test(v1,v2) > chisq.test(v1,v2)$expected > table(v1,v3) > chisq.test(v1,v3) > chisq.test(v1,v3)$expected > table(v2,v3) > chisq.test(v2,v3) > chisq.test(v2,v3)$expected Concluses: 9. GRFICOS - GRFICOS DE DISPERSO NO R Alguns comandos para grficos de disperso:
Comando plot
Sintaxe: plot(x, y, [type=tipo], [col=cor | nnero_da_cor] [pch=smbolo | nmero_do_smbolo], [lwd=nmero_espessura_da_linha], [lty=efeito_da_linha] [main=ttulo_do_grfico], [xlab=ttulo_do_eixo_x], [ylab=ttulo_do_eixo y], [font = nmero] , [font.main=nmero], [font.lab=nmero]) Onde: x e y so os vetrores com os valores de (x) - abcissas e de (y) ordenadas. tipo= p (pontos), l (linhas), b (ambos pontos e linhas), o (linha segmentada), s (escada), c (linha quebrada), h histograma, - default=p.
Alan R. Panosso e Euclides B. Malheiros 26 cor = red, blue, green, ... (ou 1=preto, 2=vermelho, 3=verde, 4=azul, ...). pch = $, k, @, .....ou 1 (crculo), 2 (triangulo), 3 (+), 4 (), 5 (losango), . lwd = espessura da linha lty = efeito da linha tracejada, pontilhada, ....
Comando R para colocar legendas num plot.
legend("posio",title="ttulo_legenda",legend=levels(tr), [col=cor | nnero_da_cor] [pch=smbolo | nmero_do_smbolo], [lwd=nmero_espessura_da_linha], [lty=efeito_da_linha]
Comando R para configurar as escalas dos eixos.
Sintaxe: plot(c(xmin,xmax), c(ymin,ymax), n) Onde: xmin e xmax so os limites da escala do eixo x e ymin e ymax so os limites da escala do eixo y. n indica para editar apenas os eixos.
Comando R para incluir linhas, retas, pontos, segmentos no grfico.

a) Incluir retas (y=a+bx) Sintaxe: abline(a=valor_de_a, b=valor_de_b, [type], [col], [pch], [main], [xlab], [ylab], [lwd], [lty]) Onde: valor_de_a = valor do parmetro a (intercepto), valor_de_b = valor do parmetro b (coeficiente angular). [type], [col], [pch], [main], [xlab], [ylab], [lwd], [lty] como definidos anteriormente. b) Incluir linhas de grade abline(h=seq(0,14,1),v=seq(0,5,0.5),lty=3,col="gray") c) Incluir linhas horizontal ou vertical Sintaxe: abline(v=valor_de_x, h=valor_de_y, [type], [col], [pch], [main], [xlab], [ylab], [lwd], [lty]) Onde: valor_de_x = valor de x - por onde passar a reta vertical, valor_de_y = valor de y - por onde passar a reta horizontal, [type], [col], [pch], [main], [xlab], [ylab], [lwd], [lty] como definidos anteriormente. d) Incluir segmentos de reta Sintaxe: segments(xa, ya, xb, yb) Faz um segmento de reta de A(xa, ya) a B(xb, yb) e) Incluir pontos Sintaxe: points(x,y|[v1,v2]) Onde: x,y so as coordenadas do ponto a ser includo ou [v1,v2] que so os vetores das coordenadas dos pontos.

Exemplo: Editar um programa R para, a partir dos dados a seguir, que esto disponveis no site no arquivo A_GRAF.txt. Tratamento
T1 T2 T3 1 10 12 13.1 2 11 12.1 13 3 11 12.5 12.9 4 11.5 12.3 12.5 5 12 12.4 11.7
Semanas
6 11 13 12.5
7 12.3 13.1 11.5
8 12.5 12.9 11
9 12.3 13.1 10.5
10 12.5 13.4 10
Editar o grfico:
Grfico de dispeso
16 Produo 6 8 10 12 14
4 Semanas
10
Comandos usando o plot :
> graf <- read.table("C://ADPA//GRAF.TXT", header=T) > graf > x = graf[,1] > y1 = graf[,2] > y2 = graf[,3] > y3 = graf[,4] > x; y1; y2; y3 > plot(c(1,10),c(6,16), "n", main="Grfico de dispeso", col.main="blue", xlab="Semanas", ylab="Produo", col.lab="red") # configurando eixos > abline(h=seq(6,16,2),v=seq(1,10,1),lty=3,col="gray") # linhas de grade > lines(x,y1, type="o",col="red", pch=1) # linha y1 > lines(x,y2, type="o",col="blue", pch=2) # linha y2 > lines(x,y3, type="o",col="green", pch=3) # linha y2 > abline(h=c(11,13), col="orange", lwd=2) # linha de ref. Horiz > abline(v=5, col="red", lwd=1) # linha de ref. Vert.
10. REGRESSO LINEAR SIMPLES

Regresso uma maneira de expressar uma varivel Y (varivel dependente) em funo de uma srie variveis (X1, X2, ...., Xp), variveis independentes ou explanatrias. A Regresso Linear Simples a particular Regresso Linear em que se tem uma varivel dependente (Y) e uma nica varivel independente (X) e o modelo da forma: Y=A+B X+, Onde: Y o vetor das observaes; X a matriz de incidncia; o vetor de erros (resduos ordinrios); A e B so os parmetros do modelo. As estimativas de A e B pelo mtodo dos mnimos quadrados so os valores que minimizam |i|2. A anlise de varincia esquematizada como: F.V. Modelo Resduo Total G.L. 1 N-2 N-1 S.Q. SQ(Mod.) SQ(Res.) SQ(Tot.) Q.M. F QM(Mod.) QM(Mod.) / QM(Res.) QM(Res.) p-value p
N Nmero de observaes
A estatstica F testa a hiptese: H0: B=0 vs H1:B0. O valor p (p-value) obtido supondo que a estatstica F tem uma distribuio F central com 1 e N-2 graus de liberdade. Essa pressuposio vlida se os erros (resduos) tiverem distribuio normal e forem iid (independentes e identicamente distribudos). Para exemplificar a Anlise de regresso linear no R, entre com os dados: x <- c(18, 16, 25, 22, 20, 21, 23, 19, 17); x # Temperatura y <- c(5, 3, 10, 8, 6, 7, 9, 6, 5); y # Dilatao linear
Passo 1: Representar os pontos graficamente ( grfico de disperso) para visualizar se existe uma tendncia linear. > plot(x,y)
Passo 2: Estimar os parmetros A e B. > mod <- lm(y~x) > mod
Passo 2: Realizar a anlise de Reresso. > anova(mod)

Sabe-se que esta anlise considera que o vetor de erros sejam iid independentes e identicamente distribudos com distribuio ~ N(0,2). Para isso faz-se necessrio os diagnsticos para a anlise.
10.1 Diagnsticos para a anlise de modelos lineares

Os trs principais tipos de resduos encontrados na literatura so: resduo ordinrio, resduo padronizado e resduo estudentizado.
Alan R. Panosso e Euclides B. Malheiros 29 a) Resduo ordinrio: ri = Yi Yi No R: > res <- residuals(mod); res b) Resduo padronizado internamente (Studentized residual) ri rsi = , onde V (ri ) estimativa da varincia residual. V (r )
i
No R > rp <- rstandard(mod); rp c) Resduo padronizado externamente (Jacknife residual, Rstudent) ri Rsi = , onde V(i ) (ri ) estimativa da varincia residual sem a observao i. (r ) V
(i ) i
Rs~t(N-p-1) onde N o nmero de observaes e p nmero de parmetros.
No R: > rs <- rstudent(mod); rs

Os diagnsticos utilizados em Regresso Linear, alm da interpretao subjetiva de grficos apropriados (histograma, boxplot e normalidade), dos testes de normalidade, h a necessidade de estudar a presena de pontos discrepantes (fora do padro), que podem ser outlier ou ponto influente.
Grficos de diagnsticos (histograma, boxplot e normalidade) No R > hist(rs) > boxplot(rs) > qqnorm(rs); qqline(rs) Diagnstico de outlier
O resduo padronizado externamente (estatstica rs) a mais apropriada para diagnstico de outlier. Um valor considerado outlier se |Rsi|> 2.33, embora se encontre situaes que usam como limite o valor 2 ou 3. Um grfico utilizado para diagnosticar outliers plotar valor predito x Rstudent, que permite diagnosticar independncia e presena de outlier.
No R > yp <- predict.lm(mod) > plot(yp,rs) Diagnsico de pontos influentes:

Encontram-se na literatura cinco estatsticas usadas para diagnosticar pontos influentes, apresentadas na Tabela a seguir:

Tabela 1. Estatsticas utilizadas para diagnsticos de pontos influentes.
Estatstica DFBetas (um por parmetro) FDFitS |1-COVRATIO| Distncia de Cook Leverage - H Denominao no R dfb.1. , dfb.X, ... dffit cov.r cook.d hat Limite
2/ N
2 p N
3p/N F(0,50;p,N-p) 3p/N
Essas estatsticas so apresentadas no R pelo comando:
> influence.measures(mod)
considerado influente se pelo menos uma das estatsticas exceder o limite. Na prtica escolhe-se uma das estatsticas geralmente a hat. E plota-se no h x rs, grfico que permite diagnosticar valores outliers, influentes ou ambos.
Grfico para detectar dados influentes e outliers > rs <- rstudent(mod); h <- hatvalues(mod); P=length(mod$coefficient); N=length(y)
> > > > > > > minrs=min(rs,-2.33); maxrs=max(rs,2.33) ymin=minrs-.1; ymax=maxrs+.1 maxh=max(h,3*P/N); minh=min(h) xmin=minh-.1 xmax=maxh+.1 par(mfrow=c(1,1)) plot(c(xmin,xmax),c(ymin,ymax), type="n", xlab="h - leverage", ylab="RStudent") > abline(h=-2.33, col="red"); abline(h=2.33,col="red"); abline(v=lh, col="blue"); points(h,rs)
Prtica:
Uma rotina completa para diagnsticos em modelos lineares apresentada no sacript R_Diag.R (usando -3 e 3 como limites da faixa para outliers) e uma rotina completa para anlise de regresso linear apresentada no scriplt RLS.R.
Aplicaes usando as rotinas apresentadas: Exerccio 1. Fazer anlise de diagnsticos para os dados dos arquivos: A_RLS1.xls, que contem trs emplos planilhas RLSA, RLSB e RLSC - disponveis no site (Exemplos do Livro FREIRE (2008)). Exerccio 2. Em um experimento, em cada semana (X), X=1, 2, ..., 5, obteve-se os Pesos (Y) de trs animais (Repeties), cujos valores so apresentados a seguir (disponveis no arquivo A_RLS2.txt). Fazer a anlise de Regresso Linear Simples desses dados.
Valores de X 1 2 3 4 5 R1 8.2 19.7 28.6 30.8 40.3 Valores de Y R2 6.6 15.7 25.0 37.8 42.9 R3 9.8 16.0 31.9 40.2 32.6
11. REGRESSO LINEAR MLTIPLA

A Regresso Linear Mltipla o caso que se tem uma varivel dependente (Y) e k variveis independentes (X1, X2, ..., Xk). O modelo da forma:
Modelo: Y= A + B1X1 + B2 X2 + ... + BkXk + , Onde: Y o vetor das observaes; X1, X2, ..., Xk as variveis independentes; o vetor de erros (resduos ordinrios); B1, B2, ...,Bk so os parmetros do modelo.
A anlise de varincia esquematizada como: F.V. Modelo Resduo Total G.L. k-1 N-k N-1 S.Q. SQ(Mod.) SQ(Res.) SQ(Tot.) Q.M. F QM(Mod.) QM(Mod.) / QM(Res.) QM(Res.) p-value p
A estatstica F testa a hiptese: H0: B1=B2= ... =Bk=0 vs H1: BiBi , para algum i i. O valor p (p-value) obtido supondo que a estatstica F tem uma distribuio F central com K-1 e N-k graus de liberdade. Essa pressuposio vlida se os erros (resduos) tiverem distribuio normal e forem iid (independentes e identicamente distribudos).
Prtica:
Os passos para uma anlise de regresso mltipla so:
Passo 1: Fazer grficos apropriados. Passo 2: Estimar os parmetros. Passo 3: Realizar a anlise de Regresso Linear Mltipla. Passo 4: Fazer as anlises de diagnsticos. Passo 5: Fazer a seleo de modelos.
Uma rotina completa para anlise de Regresso Linear Mltipla apresentada no scriplt S_RLM.R.
Exerccio. Fazer a regresso Linear Mltipla para os dados de um experimento para avaliar quais dos nutrientes: X1=N, X2=P, X3=K, X4=Ca, X5=Mg, X6=S influenciam na granulometria do solo. Obteve-se os dados apresentados a seguir, onde Y = % terra retida na peneira 18 (disponveis no site no arquivo A_RLM.txt).
12. REGRESSO POLINOMIAL

A Regresso Polinomial o caso que se tem uma varivel dependente (Y), uma varivel independentes (X). A equao do modelo uma polinomial de grau k em X.
Modelo: Y= A + B1X + B2 X2 + ... + BkXk + , Onde: Y o vetor das observaes; X1, X2, ..., Xk as potncias de X; o vetor de erros (resduos ordinrios); B1, B2, ...,Bk so os parmetros do modelo.
A anlise de varincia esquematizada como:

F.V. Modelo Resduo Total G.L. k-1 N-k N-1 S.Q. SQ(Mod.) SQ(Res.) SQ(Tot.) Q.M. F QM(Mod.) QM(Mod.) / QM(Res.) QM(Res.) p-value p
A estatstica F testa a hiptese: H0: B1=B2= ... =Bk=0 vs H1: Bi Bi , para algum i i. O valor p (p-value) obtido supondo que a estatstica F tem uma distribuio F central com K-1 e N-k graus de liberdade. Essa pressuposio vlida se os erros (resduos) tiverem distribuio normal e forem iid (independentes e identicamente distribudos). O valor p (p-value) obtido supondo que a estatstica F tem uma distribuio F central com K-1 e N-k graus de liberdade. Essa pressuposio vlida se os erros (resduos) tiverem distribuio normal e forem iid (independentes e identicamente distribudos).
Prtica:
Os passos para uma anlise de regresso polinomial so:
Passo 1: Fazer grficos de disperso. Passo 2: Selecionar o grau do polinmio. Passo 3: Realizar a anlise de Regresso Polinomial. Passo 4: Fazer as anlises de diagnsticos. Passo 5: Realizar a anlise de Regresso Polinomial, do grau selecionado.
Uma rotina para anlise de Regresso Polinomial apresentada no scriplt S_RPOL.R.
Exerccio. Fazer a regresso Polinomial para os dados da quantidade do produto (X) e do tempo que o lquido demora para congelar (Y), apresentados a seguir (disponveis no site no arquivo A_RPOL.xls criar A_RPOL.txt ). quantidade de p (X) 2.50 2.55 2.60 2.65 2.70 2.75 2.80 2.85 2.90 2.95 3.00 Tempo para Gelar (Y) Rep.1 Rep.2 7.39 7.30 7.00 7.03 6.90 6.95 6.85 6.80 6.70 6.30 6.33 6.20 5.97 5.90 5.90 5.82 5.80 5.80 6.15 6.00 6.30 6.15
a) Representar graficamente Y=f(X). b) Fazer a anlise de regresso polinomial, de Y em funo de X. c) Representar graficamente os valores observados e o modelo ajustado.
13. DELINEAMENTOS EXPERIMENTAIS

Delineamento experimental ou desenho experimental, de uma forma bastante simples, a forma em que os tratamentos (nveis de um fator ou combinaes de nveis de fatores) so atribudos s unidades experimentais. Os delineamentos experimentais envolvem f fatores, cada fator com nf nveis: Exemplos: Estudar o efeito da Classe Social (Alta, Mdia ou Baixa) no peso das crianas. (Fator: Classe Social, trs nveis qualitativos). Estudar o efeito de Dose do Adubo (0, 20, 40, 60 e 80 kg/ha) na produo. (Fator: Doses de adubo, cinco nveis quantitativos). Estudar o efeito da Idade (I1:10-15, I2:15-20 e I3:25-30 meses) e Sexo (M e F) no peso dos animais. Fatores: Idade e Sexo com trs e dois nveis, respectivamente. Os tratamentos so as combinaes dos nveis dos fatores, que so seis, ou sejam: I1/M, I1/F, I2/M, I2/F, I3/M, I3/F. Um fator pode ser de efeito fixo ou aleatrio. Fator de efeito fixo: Os nveis do fator so fixados (escolhidos) pelo pesquisador. Exemplos: Os exemplos das Classes Sociais, Dose do Adubo, Idade e Sexo apresentados anteriormente so exemplos de fatores fixos. Fator de efeito aleatrio: Os nveis do fator uma amostra aleatria da populao dos nveis. Exemplo: Suponhamos que o Governo do Estado queira saber se o controle de uma determinada doena depende da marca da vacina. Como existem no mercado vrias marcas, o experimentador casualiza-se 6 marcas para o estudo, este um caso de fator aleatrio.
13.1 Delineamento Inteiramente Casualizado - DIC (One-way)

Experimento de um nico fator com t nveis (geralmente denominados tratamentos) e ri repeties. Os tratamentos so atribudos de forma aleatria nas N=ri unidades experimentais (ou parcelas) homogneas. Se ri=r, i (experimento balanceado).
Modelo: yij = m + ti + eij , onde yij = valor observado na unidade experimental que recebeu o tratamento i, repetio j; m= efeito da mdia geral; ti = efeito do tratamento i; eij = erro aleatrio (resduo).
A anlise da varincia uma ferramenta muito usada para testes de hipteses. Esse procedimento estatstico consiste em particionar a variao total em partes devidas a cada uma das Fontes de Variao envolvidas no experimento. Em um DIC tm-se duas fontes de variao, ou seja: o fator em estudo (tratamentos) e o erro aleatrio. A anlise de varincia esquematizada como: F.V. Tratamento Resduo Total G.L. t-1 t(r-1) tr-1 S.Q. SQ(Tr.) SQ(Res.) SQ(Tot.) Q.M. QM(Tr.) QM(Res.) F QM(Tr.) / QM(Res.) p-value p
F.V. - Fontes de Variao, ou seja, as partes da Variao Total; G.L. - nmero de graus de liberdade associados F.V.; S.Q. - Soma de quadrados (variao devida a F.V.); Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal
Alan R. Panosso e Euclides B. Malheiros 34 Q.M. - Quadrado mdio (quociente da S.Q. pelo G.L.); F - valor da estatstica do teste; p-value - probabilidade associada estatstica F, utilizada na regra de deciso em rejeitar ou no a hiptese que est sendo testada.
Se p0,05, o teste significativo ao nvel de 5% de probabilidade, e assim sendo rejeita-se H0 , a esse nvel de probabilidade. O valor p-value obtido supondo que a estatstica F em questo tem uma distribuio F central com t-1 e t(r-1) graus de liberdade. Essa suposio vlida sob a hiptese de normalidade dos erros e homogeneidade de varincias. A estatstica F testa as hipteses: a) Efeitos fixos de tratamentos (concluses apenas para aos nveis estudados): H0: 1=2=3= ... t vs H1: ii', para algum i i'. Neste caso, se rejeitamos H0 e temos mais que 2 nveis do fator pode-se usar as ferramentas: Comparaes das mdias ou de grupos de mdias (comparaes mltiplas). Geralmente usado para fatores com nveis qualitativos. Contrastes ortogonais. Geralmente usado para fatores com nveis quantitativos. b) Efeitos aleatrios de tratamentos (Concluses permitem inferncias para a populao dos nveis): H0: 2Tr=0 vs H1: 2Tr 0. Neste caso, estimam-se os componentes da varincia.
Prtica:
Os passos para uma anlise dos dados de um experimento DIC:
Passo 1: Definir o modelo. Passo 2: Verificar as pressuposies (Normalidade e Homocedasticidade). Passo 3. Se a hiptese de Homocedasticidade for rejeitada, estudar o tipo de Heterocedasticidade e uma possvel transformao dos dados. Passo 4: Realizar a anlise de Varincia. Passo 5: Comparaes de mdias - Comparaes Mltiplas ou Desdobramento por Contrastes.
Uma rotina para anlise de Regresso Polinomial apresentada no scriplt S_DIC.R. Para exemplificar resolver os 3 exerccios da lista a seguir:
Lista de Exerccios Delineamento Inteiramente Casualizado

1. Um experimento para avaliar o efeito da rao (Rao 1 a 5) no ganho de peso animal, utilizou-se um DIC com 5 tratamentos e 4 repeties. Os resultados (disponveis em A9_Ex1.txt) foram:

Repeties 1 2 3 1 3,31 6,1 8,53 2 23,62 26,94 20,16 3 14,75 25,2 17,56 4 30,58 30,69 18,54 5 50,25 45,12 37,25 Fazer a anlise de varincia e concluir. Rao
4 3,84 22,18 24,8 27,56 52,15
2. Um experimento para avaliar o efeito da do nvel de um nutriente (NN) na pastagem (altura em mm), utilizou-se um DIC com 5 tratamentos e 6 repeties. Os resultados (disponveis em A9_Ex2.txt) foram: Repeties Nveis 1 2 3 4 5 6 0 2370,0 1687,0 2592,0 2283,0 2910,0 3020,0 0,5 1282,0 1527,0 871,0 1025,0 825,0 920,0 1,0 562,0 321,0 636,0 317,0 485,0 842,0 1,5 173,0 127,0 132,0 150,0 129,0 227,0 2,0 193,0 71,0 82,0 62,0 96,0 44,0 Fazer a anlise de varincia e concluir. 3. Um experimento para avaliar o efeito da substituio do milho por soja da rao, no ganho de peso dos animais, utilizou-se um DIC com 5 tratamentos (dois padres sem milho e soja e trs nveis de substituio) e 6 repeties. Os resultados (disponveis em A9_Ex3.txt) foram:
P. Subst. Pad1 Pad2 Sub 1% Sub 5% Sub 12% 1 57,37 51,72 148,41 296,42 490,95 2 20,27 38,20 91,21 342,43 407,46 Repeties 3 4 13,97 17,16 29,71 45,06 154,89 90,20 204,91 246,20 518,16 476,19 5 28,53 38,81 130,80 205,36 580,36 6 10,64 66,70 208,90 224,98 598,14
Fazer a anlise de varincia e concluir. Os dados encontram-se no arquivo Excel A_DIC.xls, e nas planilhas Ex1, Ex2 e Ex3, respectivamente. Criar os arquivos DIC1.txt, DIC2.txt e DIC3.txt.
13.2 Delineamento em Blocos Casualizados DBC

Experimento com dois fatores sem interao. Um fator com t nveis (tratamentos), b repeties e tb unidades experimentais (ou parcelas) no so homogneas, mas com b grupos de t parcelas homogneas (cada grupo constitui um bloco). Os tratamentos so atribudos de forma aleatria dentro de cada bloco. Observe que este tipo de delineamento tem 2 fatores, Tratamentos (Fator em estudo) e Blocos (Fator para controle da homogeneidade das parcelas - chamado de Controle Local). Pela forma de casualizao considera-se apenas os efeitos principais dos fatores Modelo: yij = m +bj + ti + eij , onde yij = valor observado na unidade experimental que recebeu o tratamento i, repetio j; m= efeito da mdia geral; bj = efeito do bloco j; ti = efeito do tratamento i; eij = erro aleatrio (resduo).

O quadro da anlise de varincia : F.V. Blocos Tratamentos Resduo Total G.L. b-1 t-1 (b-1)(t-1) pb-1 S.Q. SQ(Bl.) SQ(Tr.) SQ(Res.) SQ(Tot.) Q.M. QM(Bl.) QM(Tr.) QM(Res.) F QM(Bl.) / QM(Res.) QM(Tr.) / QM(Res.) p-value p1 p2
O p-values para tratamentos obtido supondo que a estatstica F em questo tem uma distribuio F central com t-1 e (b-1)(t-1) graus de liberdade. Essa suposio vlida sob a hiptese de normalidade dos erros.
Prtica:
Os passos para uma anlise dos dados de um experimento DBC: Passo 1: Definir o modelo. Passo 2: Verificar as pressuposies (Normalidade). Passo 3: Realizar a anlise de Varincia. Passo 4: Comparaes de mdias - Comparaes Mltiplas ou Desdobramento por Contrastes. Uma rotina para anlise DBC apresentada no scriplt S_DBC.R. Para exemplificar resolver os 2 exerccios da lista disponvel no site.
Lista de Exerccios Delineamento em Blocos Casualizado

1. Em um Delineamento em Blocos Casualizados com cinco tratamentos (efeitos fixos) e quatro blocos, observaram-se os dados: Trat. 1 2 3 4 5 1 122,36 119,28 120,73 130,88 133,49 Bloco 2 3 144,78 145,19 137,77 144,44 134,06 136,07 135,83 136,97 165,02 151,75 4 158,88 150,61 164,11 156,36 170,22
a) Fazer a Anlise da Varincia, verificando as pressuposies dos testes. b) Comparar as mdias pelo teste de Tukey. c) Concluir. 2. Em um Delineamento em Blocos Casualizados com cinco tratamentos (efeitos fixos) e quatro blocos, a observao da parcela referente ao tratamento3 e bloco 3 foi perdida. Os dados observados foram:
Trat. 1 2 3 4 5 Blocos 1 2 3 4
59,7 56,2 81,1 48,2 54,4
60,7 58,7 80,9 51,0 56,6
70,2 62,8
,
59,2 65,1
81,3 74,8 98,3 67,9 74,6

a) Fazer a Anlise da Varincia (DBC), verificando as pressuposies dos testes. b) Comparar as mdias pelo teste de Tukey. c) Concluir. Os dados encontram-se no arquivo Excel A_DBC.xls, e nas planilhas Ex1 e Ex2, respectivamente. Criar os arquivos DBC1.txt e DBC2.txt.
13.3 Delineamento em Quadrado Latino (DQL):

Experimento com 3 fatores sem interao. Um fator (tratamentos) com t nveis, t2 parcelas que apresentam falta de homogeneidade em 2 sentidos, digamos linhas e colunas. Os tratamentos so atribudos s parcelas de forma sistemtica tal que cada linha e cada coluna tenham todos os tratamentos (ortogonalidade). Ver o esquema a seguir, para o caso particular de t=4. C1 L1 L2 L3 L4 T1 T2 T3 T4 C2 T2 T3 T4 T1 C3 T3 T4 T1 T2 C4 T4 T1 T2 T3
Casualiza-se ento as linhas e colunas. Observe que este tipo de delineamento tem 3 fatores: Tratamentos e 2 Controles Locais (Linhas e Colunas). Da mesma forma do DBC, pela forma de casualizao, considera-se apenas os efeitos principais.
Modelo: yijk = m +li + cj + tk(ij) + eijk , onde yijk = valor observado na unidade experimental que recebeu o tratamento k (na linha i e coluna j); m= efeito da mdia geral; li = efeito do linha i; cj = efeito do coluna j; tk(ij) = efeito do tratamento k aplicado na linha i e coluna j; eijk = erro aleatrio (resduo).
A anlise de varincia esquematizada como: F.V. G.L. S.Q. Q.M. Linhas p-1 SQ(Lin.) QM(Lin.) Colunas p-1 SQ(Col.) QM(Col.) Tratamentos p-1 SQ(Tr.) QM(Tr.) Resduo (p-1)(p-2) SQ(Res.) QM(Res.) Total p2-1 SQ(Tot.) F QM(Lin.) / QM(Res.) QM(Col.)/ QM(Res.) QM(Tr.) / QM(Res.) p-value p1 p2 p3
O p-value para tratamentos obtido supondo que a estatstica F em questo tem uma distribuio F central com p-1 e (p-1)(p-2) graus de liberdade. Essa suposio vlida sob a hiptese de normalidade dos erros.
Prtica:
Os passos para uma anlise dos dados de um experimento DQL:
Alan R. Panosso e Euclides B. Malheiros 38 Passo 1: Passo 2: Passo 3: Passo 4:

Definir o modelo. Verificar as pressuposies (Normalidade). Realizar a anlise de Varincia. Comparaes de mdias - Comparaes Mltiplas ou Desdobramento por Contrastes.
Uma rotina para anlise DQL apresentada no scriplt S_DQL.R. Para exemplificar resolver o exerccio da lista disponvel no site.
Aula - Delineamento Quadrado Latino

1. Em um Delineamento em Quadrado Latino 5x5 observaram-se os dados: Colunas 1 2 3 4 1 432(4) 518(1) 458(2) 583(3) 2 724(3) 478(5) 524(1) 550(2) 3 489(5) 384(2) 556(3) 297(4) 500(4) 313(5) 486(1) 4 494(2) 5 515(1) 660(3) 438(4) 394(5) a) Fazer a Anlise da Varincia, verificando as pressuposies dos testes. b) Comparar as mdias dos tratamentos pelo teste de Newman Keuls. c) Concluir.
Linhas
5 331(5) 400(4) 420(1) 501(3) 318(2)
Os dados encontram-se no site, arquivo ASC, de nome A_DQL.txt.

Apostila R

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apostila R

Cargado por

Copyright:

Formatos disponibles

Alan R. Panosso e Euclides B.

TPICOS ESPECIAIS ANLISE DE DADOS NA PRODUO ANIMAL 1. INTRODUO AO SOFTWARE R

Alan R. Panosso e Euclides B. Malheiros c) Ambientes de trabalho

Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal

Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal

# remove os objetos especificados # remove todos os objetos

Descrio das classes de objetos

Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal

Alan R. Panosso e Euclides B. Malheiros

Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal

1.4. Formas de entrada de dados

a) Criando os dados no programa.

Alan R. Panosso e Euclides B. Malheiros Exemplo:

Alan R. Panosso e Euclides B. Malheiros 2. ESTATSTICAS DESCRITIVAS

4. GRFICOS DE DIAGNSTICOS APLICAES NO R

Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal

Alan R. Panosso e Euclides B. Malheiros 14

Regio Crtica (Regio de rejeio de H0) = (-, -2,064) (2,064,+).

Passo 5. Aplicar o critrio do teste.

Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal

Alan R. Panosso e Euclides B. Malheiros 16

6. TESTES DE NORMALIDADE APLICAES NO R

Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal

Alan R. Panosso e Euclides B. Malheiros 17

Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal

Alan R. Panosso e Euclides B. Malheiros 18

7. TESTES PARA MDIAS, VARINCIAS E PROPORES

a) Teste para mdia varincia conhecida (uma amostra)

z.test(v, mu=media, stdev=desvio_padro, greater | less], [conf.level=1-alfa])

t.test(v, mu=media, [alternative=two-sided | greater | less], [conf.level=1-alfa])

sigma.test(v, sigma=desv_pad, alternative=two-sided | greater | less], [conf.level=1-alfa])

var.test([v1, v2] | [v~cl]), [alternative=two-sided | greater | less], [conf.level=1-alfa])

e) Teste para comparar duas mdias (pareadas ou no).

Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal

Alan R. Panosso e Euclides B. Malheiros 20

f) Teste para propores (uma amostra)

[prop.test | binom.test] (ns, ta, [p=prop], [alternative=two-sided | greater | less], [conf.level=1-alfa])

g) Teste para propores (duas ou mais amostras)

[prop.test] (c(ns1,ns2,ns3,), c(ta1,ta2,ta3,), [alternative=two-sided | greater | less], [conf.level=1-alfa])

Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal

Alan R. Panosso e Euclides B. Malheiros 21 LISTA DE EXERCCIOS TESTES DE HIPTESES

Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal

Alan R. Panosso e Euclides B. Malheiros 22

Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal

Alan R. Panosso e Euclides B. Malheiros 23

> binom.test(104,200,p=0.6, alternative="l", conf.level=0.90) Concluso:

Resoluo: Usando a normal aproximada). > prop.test(c(25,45),c(100,120), alternative=t, conf.level=0.95) Concluso:

Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal

Alan R. Panosso e Euclides B. Malheiros 24 8. TESTE QUI-QUADRADO PARA TABELAS DE CONTINGNCIA

b) Teste Exato de Fisher

Exemplo 1 Quando se tem a tabela de frequncias

Fazer um teste de hipteses para testar se a presena da doena independe ou no da espcie.

Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal

Alan R. Panosso e Euclides B. Malheiros 25

> fisher.test(mx) Concluso:

Exemplo 2 Quando se tem os registros.

Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal

Comando R para colocar legendas num plot.

legend("posio",title="ttulo_legenda",legend=levels(tr), [col=cor | nnero_da_cor] [pch=smbolo | nmero_do_smbolo], [lwd=nmero_espessura_da_linha], [lty=efeito_da_linha]

Comando R para configurar as escalas dos eixos.

Comando R para incluir linhas, retas, pontos, segmentos no grfico.

Departamento de Cincias Exatas FCAV / UNESP campus de Jaboticabal