Documentos de Académico
Documentos de Profesional
Documentos de Cultura
RESUMO: O presente trabalho est na interface da Linguistica de Corpus e os textos produzidos por aprendizes.
Primeiramente, problematiza-se a pesquisa lingstica sobre corpus de aprendiz, relacionando-a a uma discusso
sobre a natureza do erro em escrita em lngua estrangeira. Em seguida, o trabalho d um exemplo prtico de
abordagem indutiva a dois corpora, compilados em condies semelhantes, os quais contm textos em ingls
como lnguas materna e estrangeira, respectivamente. mostrado um passo a passo de uma abordagem indutiva,
como modo de lidar com a anlise de n-gramas, ou agrupamentos lexicais. Por fim, o trabalho foca na produo
de materiais pedaggicos a partir de corpora de aprendizes no Brasil.
Palavras-chave: Lingustica de Corpus; abordagem dirigida pelo corpus; corpora de aprendiz; n-gramas
Introduo
O presente estudo contrasta e compara as escolhas lexicais em ingls feitas coletivamente em
dois corpora eletrnicos. Utilizando o ferramental e a conceituao do lxico que embasa a
Lingustica de Corpus, o trabalho tem como objetivo contrastar um corpus escrito de aprendiz
de lngua estrangeira que consiste de redaes de alunos universitrios, aprendizes de ingls
de nvel avanado com um segundo corpus, que consiste de essays de universitrios e
vestibulandos cuja lngua materna o ingls. Ambos os corpora se encaixam na definio de
Scott e Tribble (2006: 133) para corpora de aprendiz, ou seja, uma compilao de textos
escritos, no publicados, produzidos num ambiente de ensino ou treinamento, geralmente para
serem avaliados.
Para atingir este objetivo, o artigo apresenta primeiramente um breve histrico da pesquisa de
textos eletrnicos produzidos por aprendizes de lngua estrangeira, rea da Lingustica de
Corpus tambm chamada de pesquisa em corpora de aprendiz. Logo em seguida, discute a
relao entre texto de aprendiz e erro dentro da pesquisa sobre corpus de aprendiz de lngua
estrangeira, para depois discutir as vises de linguagem que perpassam a Lingustica de
---------------------------------------------------------------------------VEREDAS ON-LINE LINGUSTICA DE CORPUS E COMPUTACIONAL 2/2009, P. 100-116 PPG LINGUSTICA/UFJF JUIZ
DE FOR A ISSN 1982-2243
100
Corpus em geral e a pesquisa sobre corpora de aprendiz em particular. A anlise dos dados se
fixa em unidades que so maiores do que a palavra, visto que parte da premissa de Sinclair
(2004: 148) de que a palavra no o melhor ponto de partida para a descrio de significado,
porque o significado o resultado de combinaes de palavras 1. Na parte final do artigo,
apresentam-se os resultados da pesquisa lexical de unidades maiores do que a palavra, bem
como uma tentativa de apontar caminhos dentro dessa seara promissora de investigao que
o corpus de aprendiz de lngua estrangeira.
1. Justificativa
Datam da dcada de sessenta, o uso de computadores na pesquisa lingustica, a compilao do
primeiro corpus eletrnico e a avaliao de parmetros estatsticos para a comparao de
dados lingusticos. Com a recente publicao do relatrio sobre a pesquisa lexical realizada
entre 1967 e 1969 para o Office for Scientific and Technical Information da Gr-Bretanha, ou
relatrio OSTI, (KRISHNAMURTHY, 2004), jamais divulgado anteriormente, sabe-se
tambm que data dessa poca a formalizao pioneira de critrios para a investigao de
relaes sintagmticas entre itens lexicais. Essa investigao concretizaria o que, na dcada
anterior, Firth (1957) j dizia sobre a co-ocorrncia de dois itens lexicais, ou seja, que essa coocorrncia poderia ser prevista por critrios outros que no suas classes gramaticais ou regras
sintticas.
Desde ento, muitos tm sido os trabalhos sobre o lxico, a partir do que se convencionou
chamar de Lingustica de Corpus o estudo de textos eletrnicos com o auxilio de
computador. Inmeros so tambm os corpora formados de textos eletrnicos disponveis
tanto comercialmente quanto gratuitamente2.
Enquanto os estudos descritivos sobre o lxico das mais diversas lnguas j tm uma histria e
pesquisa de vulto, os corpora contendo textos digitalizados produzidos por aprendizes de
lngua estrangeira comearam a ser explorados somente por volta da dcada de noventa
(HYLAND, 2002: 176). Esses corpora nos fornecem evidncia dos recursos lxicogramaticais e discursivos utilizados por grupos de falantes nativos de uma lngua A, ao se
expressarem numa determinada lngua B. Dada a facilidade e rapidez de poder vasculhar
enormes quantidades de dados lingusticos autnticos, pode-se examinar com segurana e
confiabilidade, o que usado de forma coletiva por esses grupos de usurios, o que usado
em demasia e o que pouco ou nada usado.
Essa fonte de investigao para os linguistas aplicados tem uma interface com a Anlise de
Erros (AE). Entretanto, nem os dados da AE seguiam princpios de compilao e desenho
rigoroso, sendo invariavelmente de tamanho reduzido, nem a pesquisa da AE inclua outros
itens alm dos erros, sendo a Anlise de Erros uma rea altamente prescritiva. Alm dessa
prescrio inerente Anlise de Erros, outra diferena entre essa rea e as pesquisas em
corpora computadorizados de aprendiz que uma vez identificados os erros e analisados fora
de seus contextos originais (cf. GRANGER, 1998a: 6), os textos da AE eram descartados.
O que acontece hoje que o mesmo corpus, compilado e armazenado sob critrios prestabelecidos, pode ser fonte inesgotvel para anlise do perfil coletivo da linguagem utilizada
1
Esta e as demais tradues de citaes originariamente feitas em lngua inglesa so de minha responsabilidade.
Como exemplo podem ser citadas trs iniciativas de Berber Sardinha: o Banco de Ingls, com 193 milhes de
palavras, o Banco de Portugus, com 750 milhes de palavras, e o Corpus Brasileiro (em construo) com um
bilho de palavras (vide http://www2.lael.pucsp.br/corpora para maiores informaes).
2
---------------------------------------------------------------------------VEREDAS ON-LINE LINGUSTICA DE CORPUS E COMPUTACIONAL 2/2009, P. 100-116 PPG LINGUSTICA/UFJF JUIZ
DE FOR A ISSN 1982-2243
101
O termo infelicity empregado por Granger e colaboradores ao categorizar erros de base lexical.
---------------------------------------------------------------------------VEREDAS ON-LINE LINGUSTICA DE CORPUS E COMPUTACIONAL 2/2009, P. 100-116 PPG LINGUSTICA/UFJF JUIZ
DE FOR A ISSN 1982-2243
102
um erro srio dependeria da lngua materna daquele que avalia o erro. Por exemplo, erros em
ingls como lngua estrangeira so corrigidos com maior tolerncia se aquele que corrige tem
o ingls como lngua materna.
A nfase dos estudos de corpora eletrnicos no lxico, sua frequncia e sua co-ocorrncia
mudou o foco do estudo sobre a produo de aprendizes do individual para o coletivo, do erro
atribudo a uma possvel interferncia da lngua materna, para uso real da lngua, uso esse
circunscrito a textos e gneros textuais produzidos em condies semelhantes, alm de, em
contrapartida, focar nos acertos, tambm.
E por que avaliar o uso coletivo a partir de corpora de aprendiz? Existem posies
consagradas sobre a lngua como marcador de identidade, seja ela tnica ou racial. Existem
tambm argumentos em favor do uso da linguagem como marcador de perfil coletivo de um
grupo. Fairclough, (2003:15), por exemplo, acredita que, em suas interaes sociais, os seres
humanos compartilham modos de falar que os identificam como grupo, isto , o
compartilhamento do como pode identificar um grupo coletivamente. Alm dessa posio,
h tambm aqueles que, como Telya et al. (1998) entendem que qualquer anlise do coletivo
na linguagem implica a anlise do lxico empregado em interaes sociais: desde unidades
lexicais simples ou de unidades compostas por mltiplos itens. Em outras palavras, a
descrio de unidades lexicais recorrentes pode levar a identificar os modos preferidos de
um grupo de dizer as coisas. Desta forma, entende-se que analisar corpora de aprendiz
atravs da abordagem e preceitos da Lingustica de Corpus implica necessariamente a anlise
de unidades lexicais usadas com menor ou maior frequncia por esse grupo.
---------------------------------------------------------------------------VEREDAS ON-LINE LINGUSTICA DE CORPUS E COMPUTACIONAL 2/2009, P. 100-116 PPG LINGUSTICA/UFJF JUIZ
DE FOR A ISSN 1982-2243
103
segundo Granger (2002: 12) fazer comparaes entre a linguagem de nativos e no nativos,
ou entre a norma e a no norma para deixar em evidncia tudo aquilo que confere
estranheza ao no nativo, incluindo-se a os erros, o uso em excesso e econmico de palavras,
expresses (o lxico) e estruturas (a sintaxe). Se a investigao detalhada pode-se ainda,
segundo a mesma autora, entender o sistema subjacente linguagem do aprendiz e ao
mesmo tempo, ou em seguida, comparar sua interlngua com as normas de uso nativo para
avaliar a extenso do desvio.
Granger (2002: 12) admite que sofre crticas ao estudar interlngua comparando os desvios
do aprendiz e as normas do nativo, porque alguns linguistas entendem que a interlngua
deveria ser estudada em separado, e no como algo deficiente se comparado a normas
nativas.
Por outro lado, a abordagem dirigida pelo corpus, a segunda das abordagens rotuladas por
Tognini-Bonelli (2001), se deve, segundo Sinclair (2004: xviii) ausncia de uma teoria que
desse conta do lxico, na gnese dos trabalhos com corpora eletrnicos. Como explica ainda
Sinclair, nos anos sessenta trabalhava-se com o lxico em termos de significado, no havendo
teoria que explicasse a ocorrncia, frequncia e padronizao lexicais, alm da preferncia de
certas palavras por outras (e tambm da rejeio).
A abordagem ditada pelo corpus, portanto, visa observao de padres e frequncias lexicais.
A observao leva hiptese, que pode levar generalizao. Em outras palavras, os dados
obtidos dos corpora podem ser usados para a formulao de descries lxico-gramaticais.
Os trabalhos que tm o ponto de entrada dirigido pelo corpus propriamente dito se
concentram, em sua grande maioria, em corpora de no aprendizes e de usurios da lngua
materna. Ainda assim, em 2001, Stubbs afirmava que, entretanto, eram poucos os trabalhos
que olhavam para o corpus eletrnico em termos de extrao e anlise de grupos polilexicais
ou n-gramas.
A investigao de unidades formadas por vrios itens lexicais pode enfocar blocos
relativamente fixos ou blocos cujos componentes podem variar. A pesquisa desses dois tipos
de bloco lexical em lngua inglesa conta com bibliografia extensa a partir de corpora
eletrnicos ou no.
Se os blocos so relativamente fixos, a terminologia de referncia a essas sequncias pode
incluir formulas, rotinas, padres pr-fabricados (prefabs, GRANGER, 1998b),
phrasicon (DE COCK et al. 1998), lexemas frasais (MOON, 1998), enquadramentos
colocacionais (RENOUF & SINCLAIR, 1991), refletindo-se em cada estudo o modo de ver
esses aglomerados como blocos composicionais que oferecem pouca ou nenhuma escolha
lingustica ao falante. (cf. ELLIS, 1994)4. Se os blocos contm elementos que so corpusdependentes,
podem
ser
chamados
de
n-gramas
(SINCLAI,
2004),
agrupamentos( clusters), pacotes ou feixes lexicais (BIBER, 2004 e BIBER, CONRAD &
CORTES, 2004). Segundo Scott e Tribble (2006: 131), um agrupamento lexical (ou n-grama
ou feixe lexical) nada mais do que um produto artificial oriundo de programas extratores.
Na verdade, segundo esses autores, o agrupamento lexical existe com base em critrios
puramente distributivos, ou seja, dada uma combinao de dois, trs ou quatro itens lexicais,
se essa combinao ocorrer em um nmero mnimo de vezes dentro de um texto ou coletnea
de textos, ela configurar um agrupamento ou feixe lexical.
4
---------------------------------------------------------------------------VEREDAS ON-LINE LINGUSTICA DE CORPUS E COMPUTACIONAL 2/2009, P. 100-116 PPG LINGUSTICA/UFJF JUIZ
DE FOR A ISSN 1982-2243
104
O Corpus Br-ICLE no atingiu a meta de 250 mil palavras, portanto est ainda em processo de coleta. As
composies coletadas so digitadas exatamente da forma original em que foram submetidas. Erros de
ortografia so preservados. Entendemos que o aumento do Br-ICLE pode vir a modificar algumas das posies
em que determinadas escolhas de lxico aparecem na listagem final. Entretanto, no invalida o fato de que
estamos estudando a linguagem do aprendiz enquanto probabilidade combinatria de determinados itens.
---------------------------------------------------------------------------VEREDAS ON-LINE LINGUSTICA DE CORPUS E COMPUTACIONAL 2/2009, P. 100-116 PPG LINGUSTICA/UFJF JUIZ
DE FOR A ISSN 1982-2243
105
O corpus comparvel, ou seja, o corpus que serve de comparao para o corpus de estudo o
LOCNESS (Louvain Corpus of Native Speaker Essays), que consiste de 324 194 palavras
escritas por populao semelhante populao do corpus de estudo. Esse corpus de tamanho
mdio, segundo os mesmos critrios acima, pode ser adquirido comercialmente. O corpus,
que necessariamente pelo menos trs vezes maior do que o corpus de estudo, contem a
seguinte distribuio: 60 221 palavras oriundas de textos argumentativos de vestibulandos
ingleses, 95 447 palavras de textos argumentativos e comentrios literrios de universitrios
ingleses, 149 833 palavras de textos argumentativos de universitrios americanos e 18 633
palavras de textos variados produzidos por universitrios americanos.
Ainda que se possa levantar crticas utilizao de um corpus comparvel contendo as
variedades americana e britnica do ingls como lngua materna, o Projeto ICLE, que
preparou o corpus comparvel, alega que a diferena lexical nos essays argumentativos
contidos no LOCNESS no chega a prejudicar os resultados finais o LOCNESS vem sendo
usado com sucesso em mltiplos estudos constrastivos, iluminando a natureza no nativa
dos corpora de estudo.
O presente trabalho adota a abordagem dirigida pelo corpus, isto , no lana mo de
categorias lingusticas pr-estabelecidas para confirmao de hipteses. Alis, no incio da
atual pesquisa, pouco ou nada se sabia em relao populao de estudo e seus hbitos de
escrita, em termos de preferncias lexicais.
O estudo segue os preceitos de Scott e Tribble (2006) para a anlise de corpora de aprendiz:
mais do que fornecer indicativos da interlngua dos aprendizes, a anlise procura desenvolver
meios para descrever as estratgias usadas ou no usadas pelos aprendizes com a finalidade de
ajud-los e de, no futuro, informar a prtica pedaggica (meu grifo).
Para lidar com os dados, usado o programa Wordsmith Tools v.3. (Scott, 1999) e duas de
suas ferramentas mais bsicas: um listador de palavras e um concordanciador, ilustrado
abaixo no Quadro 2. Nenhum dos dois corpora foi anotado, j que seria difcil uma anotao
automatizada confivel em corpus contendo possveis erros.
Como modo de entrada nos dados, e seguindo a abordagem proposta por Scott e Tribble
(2006) so extradas sucessivamente listas de palavras mais frequentes, bigramas mais
frequentes e por fim trigramas e quadrigramas mais frequentes, assim como de palavras-chave.
Os autores alegam que um exame detalhado dessas listas ajuda a iluminar no s a preferncia
por determinados itens lexicais por determinados grupos de escritores ou falantes , mas
tambm a fraseologia inerente a determinados tipos de registros.
BrICLE
1
2
3
4
5
6
7
8
9
10
11
12
13
Item
THE
TO
OF
AND
IN
A
IS
THAT
IT
ARE
BE
NOT
FOR
Freq.
%
3.965 6,07
2.285
3,5
2.172 3,33
1.801 2,76
1.543 2,36
1.394 2,13
1.318 2,02
1.062 1,63
800 1,23
726 1,11
701 1,07
672 1,03
630 0,96
LOCNESS Item
1
2
3
4
5
6
7
8
9
10
11
12
13
THE
TO
OF
AND
A
IN
IS
THAT
IT
BE
FOR
AS
THIS
Freq.
%
21.118
10.758
10.730
8.327
6.854
6.370
6.313
4.924
3.221
3.197
3.145
2.837
2.807
6,51
3,32
3,31
2,57
2,11
1,96
1,95
1,52
0,99
0,99
0,97
0,88
0,87
---------------------------------------------------------------------------VEREDAS ON-LINE LINGUSTICA DE CORPUS E COMPUTACIONAL 2/2009, P. 100-116 PPG LINGUSTICA/UFJF JUIZ
DE FOR A ISSN 1982-2243
106
14
15
16
17
18
19
20
21
22
PEOPLE
AS
THEY
THIS
HAVE
THEIR
WE
ALL
WITH
Quadro 1:
619
530
524
512
507
430
361
322
317
0,95
0,81
0,8
0,78
0,78
0,66
0,55
0,49
0,49
14
15
16
17
18
19
20
21
22
ARE
NOT
HE
THEY
HAVE
WITH
ON
BY
PEOPLE
2.557
2.407
2.186
2.080
2.048
1.909
1.796
1.704
1.569
0,79
0,74
0,67
0,64
0,63
0,59
0,55
0,53
0,48
Uma breve anlise das 22 6 palavras mais frequentes dos dois corpora evidencia uma
coincidncia de itens como artigos definidos, pronomes pessoais demonstrativos e
preposies, todas essas, formas frequentes na lngua inglesa em geral. Entretanto, chama a
ateno o item people, usado no BrICLE quase duas vezes mais usado do que no corpus
LOCNESS. O prximo passo uma investigao mais detalhada dessa palavra e as opes
combinatrias feitas pelos dois grupos, atravs das linhas de concordncia com a palavra de
busca people, obtidas com o auxlio do programa Wordsmith Tools. O exame cuidadoso
busca padres frequentes tanto direita, quanto esquerda em ambos os corpora e os
compara.
N
Concordance
123
124
125
126
130
131
132
133
134
139
140
141
142
143
144
145
146
150
151
152
153
people
people
people
people
people
people
people
people
people
people
people
people
people
people
people
people
people
people
people
people
people
O nmero de 22 itens aleatrio. Escolhi trabalhar com poucos itens devido a problemas de espao.
---------------------------------------------------------------------------VEREDAS ON-LINE LINGUSTICA DE CORPUS E COMPUTACIONAL 2/2009, P. 100-116 PPG LINGUSTICA/UFJF JUIZ
DE FOR A ISSN 1982-2243
107
A coligao significa os padres gramaticais em que um item lexical aparece, ou sua frequente co-ocorrncia
com determinados itens gramaticais.
8
O termo processo usado aqui no sentido da gramtica sistmico-funcional.
---------------------------------------------------------------------------VEREDAS ON-LINE LINGUSTICA DE CORPUS E COMPUTACIONAL 2/2009, P. 100-116 PPG LINGUSTICA/UFJF JUIZ
DE FOR A ISSN 1982-2243
108
This is usado no LOCNESS, com padres recorrentes direita como This is why/
where/how/ because, um recurso para elaborao de tpico. Com esse padres explicam-se
causas e consequncias, lugares e meios atravs dos quais algo anteriormente mencionado no
discurso aconteceu. Alm desse recurso de elaborao, os sujeitos do LOCNESS usam this is
com a seguinte coligao This is + (artigo) + adjetivo + substantivo, como em this is a
positive aspect, this is a welcome solution, um padro usado como recurso avaliativo, como
expresso da voz autoral. A ausncia no corpus brasileiro desse padro seja compensada,
talvez, pelo uso de I think , um bigrama frequente nesse corpus, mas tambm o mais frequente
no corpus Camcode, corpus de ingls oral estudado em O`Keefe et al.(2007).
O prximo passo da proposta de anlise se concentra em trigramas, ou agrupamentos de trs
itens obtidos pelo programa extrator. Como dizem Scott e Tribble (2006: 132), o estudo de
agrupamentos lexicais ou n-gramas em coletneas relevantes de textos nos fornece insights da
fraseologia desses mesmos textos. No caso de textos de autores publicados e de aprendizes, o
estudo tem o potencial de aumentar o nosso entendimento (e dos aprendizes) sobre a
fraseologia que usada e aquela que deveria ser preterida nos mesmos textos.
BR
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Word
IN ORDER TO
THE FACT THAT
IT IS NOT
AS WELL AS
ON THE OTHER
ONE OF THE
THE OTHER HAND
THERE IS NO
THEY DO NOT
THE END OF
IT IS A
MORE AND MORE
THE NUMBER OF
THE ONES WHO
BE ABLE TO
IN OTHER WORDS
THERE IS A
AT THE SAME
IT IS POSSIBLE
OF THE WORLD
Freq.
79
35
34
33
32
28
28
25
25
22
21
19
19
19
18
18
18
17
17
17
%
0,12
0,05
0,05
0,05
0,05
0,04
0,04
0,04
0,04
0,03
0,03
0,03
0,03
0,03
0,03
0,03
0,03
0,03
0,03
0,03
Locness
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Word
THE FACT THAT
IN ORDER TO
ONE OF THE
THAT IT IS
BE ABLE TO
THERE IS NO
THE RIGHT TO
IT IS NOT
DUE TO THE
THE END OF
BECAUSE OF THE
THERE IS A
THE IDEA OF
AS WELL AS
END OF THE
IT IS A
THE USE OF
THIS IS A
SHOULD NOT BE
THE NUMBER OF
Freq. %
162
0,05
130
0,04
123
0,04
105
0,03
94
0,03
94
0,03
85
0,03
84
0,03
82
0,03
82
0,03
80
0,02
78
0,02
77
0,02
76
0,02
70
0,02
70
0,02
69
0,02
68
0,02
66
0,02
65
0,02
Quadro 3: Lista dos 20 trigramas mais frequentes nos corpora Br-ICLE e LOCNESS
H vrios modos de lidar com trigramas, que incluem todos os trigramas dos corpora e/ou
somente os mais frequentes, como no quadro acima. O primeiro seria extrair os trigramaschave que caracterizam o corpus Br-ICLE. Estes so calculados pelo programa extrator e se
apresentam nesta ordem de importncia, ou seja, estes so usados com mais frequncia no
corpus de estudo do que se espera, ao contrastar o corpus de estudo com o corpus comparvel:
in order to, the ones who, to sum up, in other words, is necessary to, a great number, point of
view. Uma vez extrados, faz-se uma anlise manual dos mesmos, estendendo a busca tanto
para a direita quanto para a esquerda nos dois corpora para averiguar as diferentes
---------------------------------------------------------------------------VEREDAS ON-LINE LINGUSTICA DE CORPUS E COMPUTACIONAL 2/2009, P. 100-116 PPG LINGUSTICA/UFJF JUIZ
DE FOR A ISSN 1982-2243
109
Freq
LOCNESS
Freq.
28
0,04
67
0,02
2 IT IS POSSIBLE TO
16
0,02
50
0,02
15
0,02
3 AT THE END OF
42
0,01
13
0,02
31
12
0,02
5 AS A RESULT OF
30
12
0,02
6 IS ONE OF THE
30
7 IT IS IMPORTANT TO
11
0,02
7 IN THE CASE OF
28
8 IT IS NECESSARY TO
10
0,02
28
10
0,02
9
8
12 A great number of
13 THAT THERE IS NO
THERE WILL ALWAYS
14 BE
0,01
24
0,01
24
0,01
12 AT THE BEGINNING OF
22
0,01
21
0,01
21
0,01
21
16 WE LIVE IN A
0,01
16 A GREAT DEAL OF
20
11 AS WELL AS THE
25
---------------------------------------------------------------------------VEREDAS ON-LINE LINGUSTICA DE CORPUS E COMPUTACIONAL 2/2009, P. 100-116 PPG LINGUSTICA/UFJF JUIZ
DE FOR A ISSN 1982-2243
110
Um outro fato interessante que pode ser depreendido da pequena lista acima, que h
evidncia de escolha do enquadramento colocacional it is + possible/ important/ necessary +
to, no corpus Br-ICLE, como forma preferida para expressar uma atitude autoral. Este
enquadramento, no escolhido como alternativa frequente pelos universitrios americanos ou
britnicos do corpus LOCNESS, encontrado, em contrapartida, como forma preferida em
textos de reas acadmicas 9 em lngua inglesa (ver Anexo 2). Tal fato, que necessita ser
explorado com mais profundidade, pode configurar ou a adoo de escolhas mais informais
para os essays escritos pelos sujeitos do LOCNESS, ou escolhas mais formais pelos sujeitos
do corpus Br-ICLE.
Concluso
O presente trabalho apresenta uma anlise baseadas em n-gramas, extrados de corpora de
aprendiz. Alinhando-se a Scott e Tribble (2006), o estudo entende que o foco em corpora
pequenos, mas representativos de populaes de aprendizes, pode fornecer recursos prticos
para melhor observar as opes lxico-gramaticais desses grupos.
A despeito da simplicidade do presente estudo de natureza indutiva, possvel concluir a
partir de um exame das freqncias de que o componente lexical do ensino de escrita
argumentativa em lngua inglesa para universitrios brasileiros poderia incluir alguma
conscientizao sobre:
a) palavras ditas vagas como people,
b) modos de incluso de outras vozes na argumentao,
c) sinonmia para processos verbais e mentais,
d) as possibilidades anafricas do pronome this;
e) substantivos abstratos anafricos, entre outros tpicos.
Entretanto, h uma grande distncia entre se conscientizar e internalizar.
Nesta parte final do artigo, portanto, retoma-se a discusso proposta por Scott e Tribble
(2006) sobre a necessidade de a anlise de corpora de aprendiz dar algum retorno pratica
pedaggica, retorno esse que, no momento, parece remoto.
Sabemos hoje em dia que o plano inicial para que os resultados das pesquisas em Lingustica
de Corpus levassem automaticamente criao de atividades de ensino e aprendizagem
baseados em corpora no se concretizou (BRAUN et al., 2006: 1). Um breve levantamento
desse possvel retorno pedaggico de dados oriundos de corpora se mostra incipiente (ver
Mukkerjee, 2006, para o estado da arte na prtica pedaggica baseada em corpus). A
produo materiais para a sala de aula de lngua inglesa, por exemplo, se restringe s
atividades em DDL (data-driven learning) criadas e defendidas por Johns (1986) para o
ensino de ingls com fins especficos. Essas atividades, que exploram formas e significados
de itens lexicais atravs de linhas de concordncia fornecidas aos aprendizes, foram adaptadas
em alguns livros didticos, como por exemplo, aqueles produzidos no projeto Cobuild para o
ensino de ingls geral. Outras tentativas de aproveitamento consistem em sries de livros
didticos que apregoam uma base em corpus, mas que se restringem a utilizar o corpus para,
baseando-se em frequncias extradas de corpora, selecionar itens lexicais para o ensino de
ingls geral.
9
Este enquadramento faz parte dos quadrigramas mais frequentes no sub-corpus de linguagem acadmica do
British National Corpus (ver
http://site.ebrary.com/pub/benjamins/docDetail.action?docID=10126062&p00=scott%20tribble
---------------------------------------------------------------------------VEREDAS ON-LINE LINGUSTICA DE CORPUS E COMPUTACIONAL 2/2009, P. 100-116 PPG LINGUSTICA/UFJF JUIZ
DE FOR A ISSN 1982-2243
111
No Brasil, o Grupo GELC (Grupo de Estudos em Lingustica de Corpus) vem, desde 2002,
produzindo trabalhos acadmicos voltados para a interface Lingustica de Corpus e Prtica
Pedaggica10, com especial destaque a Veirano (2008), Boscariol-Bertolino (2008) e Moreira
Filho (2008). Em 2008 ainda, Moreira Filho tambm criou software dirigido ao professor de
lngua inglesa e espanhola para preparao semi-automtica de atividades de leitura com a
ajuda de corpora11. Na rea de corpora para a sala de aula de ingls com fins especficos, h
Perroti-Garcia e Rebechi (2007) e Perroti-Garcia (no prelo). H ainda, em desenvolvimento,
software para correo automtica de erros em ingls baseados em etiquetao de erros
frequentes ocorridos no corpus Br-ICLE (BERBER-SARDINHA e SHEPHERD, 2008).
A despeito desses esforos, os trabalhos com corpus de aprendiz e corpora em geral
permanecem na rea descritiva e fazem pouco investimento no pedaggico.
Abstract: The present work lies at the interface between Corpus Linguistics and texts produced by learners. An
attempt is made to problematise linguistic research using learner corpora and relate it to a discussion on the
nature of errors in foreign language writing. The work thus provides a practical example of an inductive
approach to two corpora, compiled in comparable settings, containing written texts in English as a mother
tongue and as a foreign language. A step by step procedure is suggested as a means of coping with both the
analysis of units which incorporate n-grams, i.e., lexical bundles. Finally, the work focuses on the production of
pedagogical materials in Brazil, which stem from the analyses of learner corpora in Brazil.
Key-words: Corpus Linguistics; corpus-driven analysis; learner corpora; n-grams
Referencias bibliogrficas
AIJMER, K. English Discourse Particles: evidence from a corpus. Amsterdam: John
Benjamins, 2002. 299p.
ALTENBERG, B. Using bilingual corpus evidence in learner corpus research. In.:
GRANGER, S.; HUNG, J.; PETCH-TYSON, S. (eds.) Computer learner corpora, second
language acquisition and foreign language teaching. Amsterdam: John Benjamins, 2002. p3754.
ALMEIDA, M.I.A. Trabalhando com o computador na pesquisa lingustica: o uso do modal
can por brasileiros e ingleses. In.: VASCONCELLOS, Z.; AUGUSTO, M.; SHEPHERD,
T.M.G.. (Orgs.). Linguagem, Teoria, Anlise e Aplicaes (3). Rio de Janeiro: Editora Letra
Capital, 2007.
BARLOW, M. Computer-based analyses of learner language. In.: Ellis, R.; Barkhuizen, G.
(eds.). Analysing Learner Language. Oxford: Oxford University Press, 2005. p. 335-357,.
BERBER SARDINHA, T. A. Lingustica de Corpus. So Paulo: Manole, 2004. 410p.
BERBER SARDINHA, T. A.; XXXXXXX. An online system of error identification in
Brazilian learner English. Proceedings of the 8th Teaching and Language Corpora
Conference. Lisboa: Associao de Estudos e de Investigao Cientfica do ISLA, 2008.
p.257-263.
BIBER, D.; CONRAD, S.; CORTES, V. If you look at: lexical bundles in university
teaching and textbooks. Applied Linguistics, v. 25, n. 3, p. 371-405,. 2004.
10
Consultar http://www.pucsp.br/pos/lael/lael-inf/def_teses.html
Disponvel em http://www.maxwell.lambda.ele.puc-rio.br/cgibin/db2www/PRG_1440.D2W/REPORT1?CdLinPrg=pt&NrSeqFas=58
11
---------------------------------------------------------------------------VEREDAS ON-LINE LINGUSTICA DE CORPUS E COMPUTACIONAL 2/2009, P. 100-116 PPG LINGUSTICA/UFJF JUIZ
DE FOR A ISSN 1982-2243
112
BIBER, D. Lexical bundles in academic speech and writing. In.: LEWANDOWSKATOMASZCZYK, B. (ed.). Practical applications in language and computers. Frankfurt:
Peter Lang, 2004. p.165-178.
BIBER, D. et al. Longman grammar of spoken and written English. London: Longman, 1999.
BOSCARIOL-BERTOLINO, M. A linguagem dos RPGs eletrnicos e o ensino de ingls.
2008. Dissertao (Mestrado em Lingustica Aplicada e Estudos da Linguagem) Pontifcia
Universidade Catlica de So Paulo. So Paulo, 2008.
DE COCK, S. et al. An automated approach to the phrasicon of EFL learners. In.:
GRANGER, S. (Ed.). Learner English on computer. London: Longman, 1998c. p. 67-79.
GRANGER, S.; HUNG, J.; PETCH-TYSON, S. (eds.) Computer learner corpora, second
language acquisition and foreign language teaching. Amsterdam: John Benjamins, 2002. 257p.
ELLIS, R. The study of second language acquisition. Oxford: Oxford University Press. 1994.
824p.
ERMAN, B.; WARREN, B.. The idiom principle and the open choice principle. Text 20.1,
29-62, 2000.
FAIRCLOUGH, N (2003) Analysing discourse: textual analysis for social research. London;
New York: Routledge, 2003
FERRIS, D. Treatment of error in second language student writing. Ann Arbor: The
University of Michigan Press, 2004.
FIRTH, J R. (1957) Modes of meaning. Essays and Studies. The English Association, 118149.
GRANGER, S. The computer learner corpus: a versatile new source of data for SLA research.
In.: ______ (ed.). Learner English on computer. London: Longman, 1998a. p. 3-18.
GRANGER, S. Prefabricated patterns in advanced EFL writing: collocations and formulae.
In.: COWIE, A. P. (Ed.). Phraseology: theory, analysis and applications. Oxford: Oxford
University Press, 1998b. p. 145-160.
GRANGER, S. (ed.). Learner English on computer. London: Longman, 1998c. 228p
GRANGER, S.; HUNG, J. PETCH-TYSON, S. (eds.) Computer Learner Corpora, Second
Language Acquisition and Foreign Language Teaching. Amsterdam: John Benjamins, 2002.
246p.
HUGHES, A.; LASCARATOU, C. Competing criteria for error gravity. ELT Journal, 36/3,
p.175-182, 1983.
HYLAND, K. As can be seen: lexical bundles and disciplinary variation. English for
Specific Purposes. 27, 4-21, 2008.
HYLAND, K. Teaching and researching: Writing. Harlow: Longman, 2002. 248p.
HYLAND, K; ANAN, E. Teachers perceptions of error: the effects of first language and
experience. Syste, v4-34, p509-520, 2006.
HUNSTON, S. Corpora in applied linguistics. Cambridge: Cambridge University Press,
2002. 241p.
KNOBLAUCH, C.H; BRANNON, L. Rhetorical Traditions and the Teaching of Writing.
Upper Montclair, NJ, Boynton/Cook, 1984.184p.
KRISHNAMURTHY, R. (ed.) English Collocation Studies: the OSTI Report. London:
Continuum, 2004. 208p.
JOHNS, T. From printout to handout: grammar and vocabulary teaching in the context of
data-driven Learning." In.: ODLIN, T (ed.) Perspectives on Pedagogical Grammar. New
York: Cambridge University Press, 1994. p.293-313.
---------------------------------------------------------------------------VEREDAS ON-LINE LINGUSTICA DE CORPUS E COMPUTACIONAL 2/2009, P. 100-116 PPG LINGUSTICA/UFJF JUIZ
DE FOR A ISSN 1982-2243
113
---------------------------------------------------------------------------VEREDAS ON-LINE LINGUSTICA DE CORPUS E COMPUTACIONAL 2/2009, P. 100-116 PPG LINGUSTICA/UFJF JUIZ
DE FOR A ISSN 1982-2243
114
Br-ICLE
10
20
30
40
50
can be
at the
what is
have a
the same
that the
have to
to have
with the
is not
as a
the world
do not
in a
they are
there are
from the
of a
could be
with the
has been
by the
such as
is the
should be
there is
this is
the
for the
and the
on the
that the
would be
to be
is a
to the
it is
in the
of the
LOCNESS
10
20
30
40
50
60
70
80
---------------------------------------------------------------------------VEREDAS ON-LINE LINGUSTICA DE CORPUS E COMPUTACIONAL 2/2009, P. 100-116 PPG LINGUSTICA/UFJF JUIZ
DE FOR A ISSN 1982-2243
115
---------------------------------------------------------------------------VEREDAS ON-LINE LINGUSTICA DE CORPUS E COMPUTACIONAL 2/2009, P. 100-116 PPG LINGUSTICA/UFJF JUIZ
DE FOR A ISSN 1982-2243
116