Está en la página 1de 9

PROCEDIMENTOS E FERRAMENTAS

APLICADOS AOS ESTUDOS

memria cientfica
BIBLIOMTRICOS1

Samile Andra de Souza Vanz*


Ida Regina Chitt Stumpf**

RESUMO Discute os processos de avaliao da produo cientfica e a


necessria criao de indicadores para este fim. Apresenta
fontes de coleta de dados para desenvolvimento de
indicadores desta produo e apresenta os procedimentos
para a limpeza/padronizao e organizao dos dados * Professora adjunta do Departamen-
to de Cincias da Informao da
bibliomtricos. Descreve softwares livres para anlise Universidade Federal do Rio Grande
bibliomtrica e a importncia do uso de indicadores relativos. do Sul.
Discute alguns procedimentos adotados pela comunidade E-mail: samilevanz@terra.com.br

cientfica internacional para anlise multivariada de dados ** Professora titular do Departamen-


bibliomtricos. to de Cincias da Informao e do
Programa de Ps-graduao em
Comunicao e Informao da Uni-
Palavras-chave: Bibliometria. Cientometria. Anlise quantitativa. Bibexcel. versidade Federal do Rio Grande do
Sul.
Medidas de similaridade. E-mail: irstumpf@ufrgs.br

1 INTRODUO1 de Cincia e Tecnologia (C&T) fez com que o


Brasil trabalhasse na criao de diferentes tipos

A
avaliao da produo cientfica um de bases de dados e indicadores. As bases de
processo fundamental para garantir o dados tambm do suporte para a desejada
investimento financeiro em pesquisa visibilidade da produo cientfica nacional, a
e a participao da Cincia na consecuo dos partir de resultados de pesquisa, pesquisadores
objetivos econmicos, sociais e polticos do pas e instituies. Entre os exemplos de amplo
(VELHO, 1986). Quanto mais ativo e produtivo o reconhecimento est a SCIELO, a Plataforma
ambiente cientfico, mais freqentes e rigorosas so Lattes, o Diretrio dos Grupos de Pesquisa e
as rotinas de avaliao vigentes. Estes processos a Base de Patentes produzida pelo Instituto
avaliativos se fundamentam, principalmente, em Nacional de Propriedade Industrial (INPI).
duas metodologias: a avaliao qualitativa, feita Alm da criao das bases de dados para coleta
pelos pares, fortemente ancorada na reputao e organizao de dados relativos C&T, diversos
adquirida pelo avaliado; e a que se deriva de pesquisadores e instituies tm trabalhado
critrios quantitativos, baseados em mtodos na prospeco de indicadores de input e output
bibliomtricos e cientomtricos. da Cincia nacional, como a produtividade de
As tcnicas quantitativas de medio da instituies e reas do conhecimento, fator de
produo cientfica tm algumas dcadas de impacto dos peridicos, colaborao cientfica e
existncia, mas no esto, ainda, completamente investimentos em pesquisa.
consolidadas (SPINAK, 1998; SANCHO, Nas naes mais produtivas da Europa e
1990). Sua utilizao est em franca expanso nos EUA, a avaliao da produo cientfica uma
em diversos pases, e a preocupao em prtica comum adotada por agncias de fomento,
acompanhar a tendncia mundial de avaliao ministrios e organismos ligados s polticas de
C&T. Tal avaliao tem-se revelado essencial
1 Estudo desenvolvido para realizao da tese de doutorado defendida no para a construo de indicadores e posterior
PPGCOM/UFRGS com auxlio da Coordenao de Aperfeioamento de distribuio de investimentos, desenvolvimento
Pessoal de Nvel Superior (CAPES).

Inf. & Soc.:Est., Joo Pessoa, v.20, n.2, p. 67-75, maio/ago. 2010 67
Samile Andra de Souza Vanz; Ida Regina Chitt Stumpf

de estratgias regionais e institucionais, e artigos e pre-prints de editoras acadmicas,


claro, a avaliao dos resultados de polticas organizaes profissionais, universidades e outras
implementadas. As prticas relacionadas aos entidades (GOOGLE, 2010). Outra importante
indicadores de C&T tm despertado o interesse de fonte de dados, o National Science Indicators,
outras naes, especialmente as que apresentam tambm publicado pelo ISI e comercializado
um rpido crescimento em relao ao output em CD. Seu contedo basei-se no Science Citation
cientfico, como o caso do Brasil. Index Expanded2.
A proposta deste relato apresentar Os indicadores levantados em bases
procedimentos da metodologia quantitativa de dados internacionais so relevantes para
para tratamento da produo cientfica e monitoramento da produo cientfica brasileira
algumas ferramentas disponveis para o internacional, possibilitando uma estimativa de
desenvolvimento de pesquisas bibliomtricas. O como o Brasil contribui com a Cincia mainstream.
texto est organizado em trs partes: a primeira O uso de bases internacionais ainda tem como
aborda os procedimentos de coleta, limpeza e vantagem a possibilidade de comparao dos
organizao dos dados; a segunda parte descreve resultados brasileiros com os resultados obtidos
as ferramentas para anlise bibliomtrica, por outras naes. Porm, o levantamento de
apresentando softwares para este fim e a indicadores de produo cientfica em bases de
importncia dos indicadores relativos e, por fim, dados nacionais fundamental, especialmente
so discutidos alguns procedimentos para anlise em naes perifricas e que no possuem o ingls
multivariada de dados bibliomtricos. como lngua me. No Brasil, a biblioteca eletrnica
de peridicos Scielo desempenha um importante
2 COLETA, LIMPEZA E papel na comunicao cientfica nacional ao
indexar e disponibilizar de forma eletrnica e
ORGANIZAO DOS DADOS gratuita o acesso a 228 peridicos. Apesar de
Os dados quantitativos referentes ainda no disponibilizar publicamente o ndice
produo cientfica esto disponibilizados de citaes, a Scielo oferece alguns indicadores
em bases de dados bibliogrficas gerais bibliomtricos consolidados, baseados na
ou multidisciplinares e em bases de dados literatura cientfica por ela indexada. Entre eles
especializadas, dedicadas a uma grande rea est o indicador de citaes das revistas (citaes
do conhecimento. Entre as bases de dados concedidas e recebidas; fator de impacto) e de co-
especializadas encontram-se o Chemical autoria3.
Abstracts, Compendex, BIDS Embase, Pascal Mesmo consideradas as maiores bases
SciTech e Pubmed, entre outros, que abrangem de dados multidisciplinares, tanto o Google
dados bibliogrficos da rea de Qumica, Acadmico como a Scopus e a Web of Science
Engenharia, Cincias Biomdicas e Medicina, apresentam inconsistncias na grafia de nomes
respectivamente (LETA; CRUZ, 2003). Alm (JACSO, 2005). Entre os problemas mais comuns
destas, os dados podem ser coletados em bases esto as diferentes formas de grafia de nomes
de dados multidisciplinares, como o Web of dos autores. Por exemplo, identifica-se somente a
Science, a Scopus e o Google Acadmico. O inicial do primeiro nome ou ento, as iniciais de
Web of Science (WoS), produzido pelo ISI desde todos os nomes, ou ainda o nome por completo.
a dcada de 60, oferece acesso trs ndices de As homonmias diferentes pessoas identificadas
citaes: Science Citation Index Expanded, Social pelo mesmo nome so comuns nestas bases,
Sciences Citation Index e o Arts & Humanities decorrentes muitas vezes do uso do sobrenome
Citation Index (THOMSON CORPORATION, seguido apenas de uma inicial do nome. Em
2004). De forma similar, a Scopus, produzida relao aos nomes das instituies, os problemas
pela Elsevier desde 2004, oferece ampla cobertura se referem grafia das instituies em diferentes
da literatura cientfica e tcnica publicada a partir lnguas, geralmente em portugus e ingls. Por
do sculo XIX em vrias reas do conhecimento exemplo, a Pontifcia Universidade Catlica
(ELSEVIER, 2010). O Google Acadmico
disponibiliza a pesquisa em documentos no 2 Informao disponibilizada na lista de discusso Sigmetrics, no dia 03 de
maio de 2010, por Jim Testa, da Thomsom Reuters.
indexados em bases bibliogrficas renomadas, 3 Informao disponvel em: <http://www.scielo.br>. Acesso em: 23 mar.
entre eles livros, teses, dissertaes, resumos, 2010.

68 Inf. & Soc.:Est., Joo Pessoa, v.20, n.2, p. 67-75, maio/ago. 2010
Procedimentos e ferramentas aplicados aos estudos bibliomtricos

do Rio Grande do Sul est descrita no ISI por Conhecimento utilizadas pelo Conselho Nacional
inmeras formas (AUTOR, 2009), como PUCRS, de Desenvolvimento Cientfico e Tecnolgico
PUC RS, Rio Grande Sul Pontificial Catholic (CNPq) e CAPES, a saber: Cincias exatas e da
Univ, Pont Univ Cat Rio Grande do Sul, Pont terra; Cincias Biolgicas; Engenharias; Cincias
Univ Catlica Porto Alegre, Pontifical Catholic da Sade; Cincias agrrias; Cincias sociais
Univ Rio Grande Sul, Pontifical University aplicadas; Cincias humanas; Lingstica, letras e
Catholic Rio Grande do Sul, entre outras. Estas artes; Outros.
diferentes grafias alteram o resultado de rankings Quanto atribuio de valores para a
de produtividade, estudos de co-ocorrncia, como quantificao da produo cientfica, os estudos
co-autoria entre pesquisadores e instituies, e bibliomtricos vem atribuindo o valor de um
como co-citao. artigo/citao para cada autor, instituio e
A constatao destas inconsistncias torna pas envolvido no artigo. Desta maneira, os
necessria a padronizao/limpeza de nomes de totais de ocorrncia de autores, instituies,
autores, instituies de filiao, ttulos das obras, pases e citaes no refletem o total de artigos
entre outros dados, procedimento que precisa publicados, mas o somatrio de ocorrncias.
ser realizado imediatamente aps o download Esta estratgia vem sendo utilizada por diversos
dos arquivos. Apesar de geralmente demandar autores (LUUKKONEN; PERSSON; SIVERTSEN,
o maior tempo da pesquisa bibliomtrica, o 1992; PACKER; MENEGHINI, 2006; LIMA;
procedimento vem sendo aplicado por diversos VELHO; FARIA, 2007; VILAN FILHO; SOUZA;
pesquisadores para garantir maior fidedignidade MUELLER, 2008). A metodologia oposta,
dos dados (MUGNAINI; JANNUZZI; chamada de fracionamento, atribui meio artigo
QUONIAM, 2004; LETA; GLNZEL; THIJS, para cada autor no caso de um artigo publicado
2006; HOU; KRETSCHMER; LIU, 2008). Alguns por dois autores, um tero de artigo no caso de
autores, entretanto, tm dispensado o processo de trs autores, e assim sucessivamente.
limpeza/padronizao de nomes de autores por
considerar que o erro ocasionado pela homonmia
percentualmente muito baixo e no altera 3 FERRAMENTAS PARA ANLISE
significativamente o resultado final (NEWMAN, BIBLIOMTRICA: SOFTWARES E
2001a; WAGNER; LEYDESDORFF, 2005). NDICES RELATIVOS
Outro procedimento que pode ser
realizado a organizao da produo cientfica Os dados bibliogrficos importados
em grandes reas de publicao, de forma a evitar das bases de dados podem ser organizados
a sobreposio de assuntos e permitir a avaliao e analisados atravs de diferentes softwares
e comparao entre diferentes sries de dados. para anlise bibliomtrica, como o conjunto de
Uma das propostas para evitar a sobreposio aplicativos desenvolvido por Loet Leydesdorff4 e
o esquema de classificao de reas do o Bibexcel5, desenvolvido por Olle Person. Ambos
conhecimento definido por Glnzel e Schubert so livres e disponibilizam ferramentas para
(2003), que relaciona as reas de publicao do anlise descritiva de produtividade e citaes,
ISI em 15 grandes reas do conhecimento, a entre outras, alm de anlise de co-autoria6,
saber: Agricultura e meio ambiente; Biologia; co-citao7, co-words8, anlises multivariadas e
Biocincias; Pesquisa biomdica; Medicina anlises de redes.
clnica e experimental I; Medicina clnica e O Bibexcel apresenta-se como um
experimental II; Neurocincia e comportamento; software flexvel para o usurio, bastando,
Qumica; Fsica; Geocincias e cincias espaciais;
Engenharias; Matemtica; Cincias sociais I; 4 Disponvel em http://users.fmg.uva.nl/lleydesdorff/software.htm
Cincias sociais II; Artes e humanidades. O 5 Disponvel em http://www.umu.se/inforsk/Bibexcel
esquema vem sendo usado com sucesso por 6 A anlise de co-autoria baseia-se nos nomes dos autores de um artigo
cientfico. considerada uma das formas de se medir a colaborao cientfica
alguns pesquisadores em anlises bibliomtricas e pode se referir a pesquisadores, instituies e pases, estes dois ltimos
(GLNZEL; LETA; THIJS, 2006; MOURA, 2009; atravs da vinculao institucional dos autores.
7 Co-citao define-se como a anlise que estuda as relaes e freqncias de
AUTOR, 2009). Outra possibilidade adequar pares de documentos que so citados por um terceiro documento. Pode ser
as categorias de assunto do ISI presentes relativa a documentos, autores e peridicos.
8 Co-words define-se como a anlise que estuda as relaes e freqncias de
no campo SC s Tabelas das reas do pares de palavras presentes em ttulos e abstracts de documentos.

Inf. & Soc.:Est., Joo Pessoa, v.20, n.2, p. 67-75, maio/ago. 2010 69
Samile Andra de Souza Vanz; Ida Regina Chitt Stumpf

para isso, entender a estrutura bsica dos relativos e normalizados pode revelar aspectos
arquivos e os procedimentos e comandos para subjacentes at ento invisveis nos dados
as anlises. Entre as suas funcionalidades est brutos. Na anlise de co-autoria, por exemplo,
a organizao de dados em arquivos de texto os nmeros absolutos indicam o total de artigos
ou planilha, o que possibilita ao pesquisador a em co-autoria sem considerar o tamanho dos
utilizao de outros softwares para as anlises autores envolvidos na colaborao medido
e tambm a importao de diferentes tipos de pelo total de artigos publicados. Para estimar
dados, alm dos bibliogrficos importados da propenses ou intensidade de co-autoria, faz-
Web of Science ou Scopus. A familiaridade com se necessrio recorrer a indicadores relativos
registros bibliogrficos fundamental, pois que levem em considerao o tamanho da
o Bibexcel funciona com base nos registros e produo cientfica de um autor, instituio ou
delimitadores de campos. Assim, para iniciar a pas. Luukkonen e outros (1993), ao avaliarem
anlise bibliomtrica necessrio informar qual a colaborao cientfica internacional, afirmam
o campo a ser analisado e qual o delimitador que o total de artigos publicados em co-autoria
usado naquele campo. Para analisar autores, entre dois pases deve ser analisado em relao
por exemplo, necessrio informar ao Bibexcel ao total da produo cientfica de cada um dos
a sigla AU na janela Old Tag e tambm que pases. No caso de um pas ser muito produtivo
o campo de autor delimitado por ponto e e outro pouco produtivo, a colaborao entre os
vrgula, ou seja, todas as expresses presentes dois pode no ser muito significativa quando
entre ponto e vrgula representam nomes de comparada produo total do pas produtivo,
autores. Se o interesse do pesquisador recair e ao contrrio, ser bem significativa se
na anlise de citaes, o campo informado o comparada ao total publicado pelo pas menor.
CD, o qual tambm delimitado por ponto e Analogamente, a anlise de colaborao entre
vrgula. instituies deve seguir o mesmo procedimento,
Outra funcionalidade do Bibexcel a visto que elas tambm se diferenciam quanto
gerao de rankings de produtividade e citao. ao tamanho e produtividade. Nesse sentido,
As anlises descritivas podem ser realizadas Luukkonen e outros afirmam:
com o auxlio do Excel e sua ferramenta de
Tabela Dinmica. O Bibexcel oferece ainda a [...] na anlise de relaes de
possibilidade de criao das matrizes de co- colaborao, essencial usar ambas
ocorrncia que posteriormente, servem de input as medidas absolutas e relativas. A
em anlises multivariadas como o Escalonamento ltima normaliza diferenas de tamanho
dos pases. Cada uma carrega tipos
Multidimensional (EMD), Anlise Fatorial,
diferentes de informao. Medidas
Anlise de Correspondncia e Anlise de absolutas carregam respostas a questes
Agrupamentos (Clusters) (PERSSON, DANELL; como quais so os pases centrais na
SCHNEIDER, 2009). Algumas destas podem rede internacional da cincia, se relaes
ser realizadas pelo prprio software. Como de colaborao revelam um centro
relaes perifricas, e que pases so os
opo, as matrizes podem ser analisadas com
parceiros mais importantes de outros.
auxlio de outros softwares, como o Statistics Medidas relativas oferecem respostas
Packet for Social Science (SPSS) ou o Microsoft a questes de intensidade das relaes
Excel. As mesmas matrizes tambm podem ser de colaborao ( LUUKKONEN, 1993,
visualizadas a partir de softwares para Anlise p.15, traduo nossa)
de Redes Sociais, como o Pajek9 e Ucinet10.
As matrizes de co-ocorrncia geradas pelo Com o objetivo de possibilitar diferentes
Bibexcel so baseadas nos totais de ocorrncia interpretaes, Luukkonen, Persson e Sivertsen
de um indicador. O uso destes indicadores (1992) propuseram uma frmula que calcula a
absolutos (totais de ocorrncia) amplamente freqncia esperada, a partir de uma distribuio
aceito como ferramenta til na mensurao do aleatria dos valores da diagonal da matriz
desempenho cientfico. Entretanto, a anlise entre todas as clulas. A freqncia esperada
bibliomtrica baseada no uso de indicadores relacionada freqncia observada, conforme a
frmula abaixo, desenvolvida no contexto de co-
9 Disponvel em http://www.vlado.fmf.uni-lj.si/pub/networks/pajek/
10 Disponvel em http://www.analytictech.com/downloaduc6.htm autoria entre pases:

70 Inf. & Soc.:Est., Joo Pessoa, v.20, n.2, p. 67-75, maio/ago. 2010
Procedimentos e ferramentas aplicados aos estudos bibliomtricos

Cx,y x T O uso destas frmulas pode ser feito


___________________ atravs do Excel, com base nas matrizes de dados
onde, brutos criadas pelo Bibexcel.
Cx X Cy
4 ANLISES MULTIVARIADAS
Cx,y = total de co-autorias entre o pas X e Y
Alm das anlises descritivas e do uso de
T = total de co-autorias da matriz
indicadores relativos pode-se aplicar anlises
Cx = total de co-autorias o pas X possui na matriz multivariadas aos dados bibliomtricos, como
Cy= total de co-autorias o pas Y possui na matriz o Escalonamento Multidimensional (EMD),
Anlise Fatorial, Anlise de Correspondncia
e Anlise de Agrupamentos (Clusters). Para
proceder s anlises multivariadas em dados
Segundo orientao dos autores, o ndice bibliomtricos, especialmente aqueles presentes
deve ser calculado com base em uma matriz em matrizes simtricas e assimtricas, buscou-se
completa, ou seja, com a diagonal 0. ndice embasamento metodolgico na literatura da rea
igual a 1 indica uma colaborao observada de de Cincia da Informao. O peridico Journal of
acordo com a esperada. Resultados menores que the American Society for Information Science
1 indicam que a colaborao menor do que a and Technology (JASIST) publica h alguns anos
esperada. Os maiores que 1 indicam uma relao uma discusso sobre a metodologia adequada
de colaborao mais forte do que o esperado. anlise das matrizes de co-ocorrncia, como por
Outro ndice que vem sendo utilizado na exemplo, co-citaes, co-words, co-autoria, co-
literatura o Cosseno de Salton, que pode ser membership, co-classification e co-participation.
calculado a partir da matriz de co-ocorrncia As matrizes simtricas de co-ocorrncia
bruta, conforme a frmula de Luukkonen e - como as matrizes de co-autoria - so
outros (1993): consideradas matrizes de proximidade do tipo
similaridade, pois indicam o quo similar dois
C xy
autores (ou instituies autoras) se apresentam
Sxy = ___________________
onde, (LEYDESDORFF; VAUGHAN, 2006; ECK e
WALTMAN, 2007). Assim, quanto maior o
Cx X Cy
nmero na clula de interseo entre uma linha
(um autor) e uma coluna (outro autor), mais
Cxy = total de artigos publicados por x e y artigos publicados em co-autoria os dois autores
Cx= total de artigos publicados por x possuem e, portanto, mais similares os dois
Cy= total de artigos publicados por y autores se mostram.
Segundo Ahlgren, Jarneving e Rousseau
A frmula do Cosseno de Salton se (2003), a metodologia utilizada para anlise de co-
apresenta em outros formatos. A seguir, o citaes segue quatro passos. Primeiro, a matriz
formato usado por Hamers e outros (1989), no de dados brutos compilada; depois, feita
contexto da co-citao de autores, e Arunachalam uma converso dessa matriz para uma matriz
(2000), para anlise de co-autoria entre pases: de proximidade, associao ou similaridade.
O terceiro passo a anlise multivariada das
relaes entre os autores presentes na matriz.
coc (i, j)
Nesse passo, algumas anlises vm sendo
Ss (i, j) = ______________________
onde, usadas: anlise de agrupamentos, escalonamento
(cit (i) cit (j))
.
multidimensional (EMD), anlise fatorial e
anlise de correspondncia. Aps as anlises,
ocorre a ltima etapa do processo, a interpretao
dos dados. Os autores afirmam que, apesar de
coc (i, j) = total de co-ocorrncias do autor i e j
existirem necessidades especficas de acordo
cit (i) = total de citaes recebidas pelo autor i com os objetivos da investigao, no existem
cit (j) = total de citaes recebidas pelo autor j diferenas tericas e/ou matemticas entre

Inf. & Soc.:Est., Joo Pessoa, v.20, n.2, p. 67-75, maio/ago. 2010 71
Samile Andra de Souza Vanz; Ida Regina Chitt Stumpf

anlise de co-citaes, co-words, co-autoria, co- podem continuar preferindo aplicar a medida
membership, co-classification e co-participation, de similaridade matriz de co-ocorrncia, com
A metodologia desenvolvida inclui a o objetivo de comparar padres de co-autoria ao
gerao de uma matriz de similaridade a partir da invs de comparar a contagem de artigos em co-
matriz de dados brutos, com base em diferentes autoria. Schneider e Borlund (2007) consideram
medidas. A questo de qual medida usar tem sido no existir nenhum problema estatstico na
discutida h algum tempo e encontra respostas prtica de aplicar medida de similaridade s
diversificadas na literatura. Segundo Luukkonen matrizes de co-ocorrncia.
e outros (1993), a resposta depende do aspecto Posteriormente, no mesmo peridico,
que se quer avaliar. Os autores explicam que h Waltman e Eck (2007) tambm se pronunciaram,
dois tipos de medidas de associao: as medidas afirmando que as anlises multivariadas podem
de similaridade bilaterais e as multilaterais. A ser feitas em matrizes simtricas convertidas
primeira deve ser usada se o objetivo comparar por diversas medidas de proximidade, sendo
relaes entre pares de pases e instituies sugesto dos autores a Jansen-Shannon, a
separadamente, e, entre elas, esto a medida de Bhattacharyya e o Cosseno. Os autores atribuem
Salton e Jaccard. As medidas multilaterais, como ao SPSS um defeito de programao, que teria
a freqncia esperada e Correlao de Person, levado Leydesdorff e Vaughan (2006) a concluir
relaciona a co-autoria entre um par de autores que o mapa distorcido era conseqncia da
com todos os outros autores envolvidos na converso da matriz de dados brutos para uma
anlise. matriz de similaridades. Waltman e Eck (2007)
Na opinio de Ahlgren, Jarneving e avaliam que o problema pode ser contornado, e o
Rousseau (2003), a medida de similaridade mapa adequado gerado a partir de uma rotina
denominada Cosseno de Salton a mais indicada que utiliza o modelo Spline para anlise EMD (na
quando o objetivo do pesquisador concentra- verso 14.0 ou inferior do SPSS).
se na visualizao da estrutura, seja atravs Dando continuidade discusso no
de Anlise de Redes Sociais ou EMD, visto JASIST, Leydesdorff (2008, p. 79, traduo
que uma medida definida geometricamente. nossa) afirma que: Em princpio, pode-se
J White (2003) defende o uso da Correlao normalizar tanto matrizes simtricas quanto
de Pearson com o argumento de que as assimtricas atravs de vrias medidas.
diferenas entre o uso de diferentes medidas Formalmente, Person e Cosseno so
de similaridade podem ser negligenciadas na equivalentes, com exceo de que Pearson
prtica de pesquisa. O autor testa as medidas de normaliza atravs da mdia aritmtica,
Correlao de Person, Cosseno de Salton e Chi- enquanto o Cosseno utiliza como parmetro
Quadrado e afirma que as trs medidas podem a mdia geomtrica. Ou seja, o Cosseno mede
revelar uma resposta muito parecida. Bensman a similaridade entre dois vetores usando
(2004) tambm se apresenta favorvel ao uso o ngulo entre eles. Eck e Waltman (2008)
da Correlao de Person para normalizao concluem que a Correlao de Pearson no
quando o objetivo so as anlises estatsticas apresenta resultados satisfatrios quando
multivariadas. usada para medir a similaridade entre padres
Leydesdorff e Vaughan (2006) de co-citao de autores porque uma medida
argumentam que matrizes de co-autoria so apropriada para medir a correlao linear
matrizes de proximidade do tipo similaridade entre duas variveis. O Cosseno e, tambm, a
que no requerem normalizao antes de medida de divergncia Jensen-Shannon e a de
anlises EMD. Para fazer a normalizao, os Distncia de Bhattacharyya, so as medidas
autores afirmaram ser mais adequado usar mais adequadas na opinio dos autores. Alm
a matriz assimtrica (matriz de ocorrncia), disso, Eck e Waltman (2008), contrariando
subjacente a matriz de co-ocorrncia, como opinies anteriores, defendem que a escolha
base para anlise multivariada. Entretanto, de uma medida de similaridade apropriada
Leydesdorff e Vaughan (2006) divulgam a tem relevncia prtica e no s terica, visto
opinio de um dos avaliadores do peridico que os resultados encontrados divergem,
em que o artigo foi publicado, cuja sugesto especialmente quando mapeados atravs de
que, por razes tericas, os pesquisadores tcnicas EMD. Egghe e Leydesdorff (2009) do

72 Inf. & Soc.:Est., Joo Pessoa, v.20, n.2, p. 67-75, maio/ago. 2010
Procedimentos e ferramentas aplicados aos estudos bibliomtricos

a ltima palavra na discusso, dizendo que, 5 CONSIDERAES FINAIS


apesar das diferenas entre Salton e Pearson
serem mnimas, ningum pode estimar a sua A pesquisa bibliomtrica e o uso de
significncia, e indicam a preferncia pelo indicadores da produo cientfica vem sendo
Cosseno de Salton para anlise e visualizao alvo do trabalho e das pesquisas de diversos
de similaridades. autores. Inmeras discusses vem sendo
Como relatado, a literatura no apresenta propostas entre a comunidade cientfica mundial
concluses sobre o assunto e os procedimentos, e, sem dvida, elas fundamentam e contribuem
apesar de estarem em uso desde o incio dos anos com as pesquisas realizadas aqui no Brasil.
1990, ainda no esto plenamente consolidados. Entretanto, temos conscincia da necessidade
Muitos estudos ainda esto sendo feitos para de desenvolvermos indicadores e metodologias
definir a necessidade de converso da matriz de adequadas a realidade nacional.
dados brutos para uma matriz de similaridades, A criao de bancos de dados contendo a
e, a partir da, definir qual medida mais produo cientfica nacional, alm de informaes
adequada; e ainda, para definir qual a matriz sobre pesquisadores, instituies e grupos de
mais adequada para anlise, se a de ocorrncia pesquisa brasileiros j iniciou h alguns anos e
ou a matriz quadrada de co-ocorrncia. a comunidade cientfica e agncias de fomento
Alguns tipos de anlises bibliomtricas contam hoje com ferramentas consolidadas.
no resultam em matrizes de co-ocorrncia, Agora, preciso desenvolver indicadores a partir
como por exemplo, a anlise de citaes. Nesta destes bancos de dados. Assim, de maneira
anlise o pesquisador tem duas variveis: um simultnea ao desenvolvimento das ferramentas
documento citante e o autor ou documento de pesquisa, fundamental que os pesquisadores
citado. Neste caso, por conter uma varivel brasileiros aprofundem o conhecimento sobre
nominal (autor), a Anlise de Correspondncia os procedimentos aplicados na pesquisa
indicada e vem sendo usada para medir possveis bibliomtrica para que a rea avance e tenhamos
relacionamentos e proximidades entre citantes e condies de propor indicadores mais adequados
citados (AUTOR, 2008). para medir a produtividade cientfica nacional.

PROCEDURES AND TOOLS APPLIED TO BIBLIOMETRIC STUDIES

Abstract Discusses the process of scientific prodution evaluation and the necessary development of
indicators for this purpose. Presents sources for data collection for development of scientific
production indicators and presents the procedures for cleaning/standardization and organization
of bibliometric data. Describes free softwares for bibliometric analysis and the importance of using
relative indicators. Discusses some procedures adopted by the international scientific community
for multivariate analysis of bibliometric data.

Key-words: Bibliometrics. Scientometrics. Quantitative analysis. Bibexcel. Similarities measures.

Artigo recebido em 09/06/2010 e aceito para publicao em 07/09/2010

Inf. & Soc.:Est., Joo Pessoa, v.20, n.2, p. 67-75, maio/ago. 2010 73
Samile Andra de Souza Vanz; Ida Regina Chitt Stumpf

REFERNCIAS HOU, H.; KRETSCHMER, H.; LIU, Z. The


structure of scientific collaboration networks in
AHLGREN, P.; JARNEVING, B.; ROUSSEAU, R. Scientometrics. Scientometrics, Amsterdam, v.
Requirements for a cocitation similarity measure, 75, n. 2, p. 189-202, 2008.
with special reference to Pearsons Correlation
Coefficient. Journal of the American Society of LETA, J.; GLNZEL, W.; THIJS, B. Science in
Information Science & Technology, New York, Brazil. Scientometrics, Amsterdam v. 67, n. 1, p.
v. 54, n. 6, p. 1616-1628, 2006. 87-105, 2006.

BENSMAN, S. J. Persons r and author cocitation LEYDESDORFF, L. The mutual information


analysis: a commentary on the controversy. of university-industry-government relations:
Journal of the American Society of Information an indicator of the Triple Helix dynamics.
Science & Technology, New York, v. 55, n. 10, p. Scientometrics, Amsterdam, v. 58, n. 2, p. 445-
935-936, 2004. 467. 2003.

ECK, N. J.; WALTMAN, L. Appropriate similarity LEYDESDORFF, L. Similarity measures, author


measures for author cocitation analysis. 2007. cocitation analysis, and Information Theory.
Journal of the American Society of Information Journal of the American Society of Information
Science & Technology, New York, v. 59, n. 10, p. Science & Technology, New York, v. 56, n. 7, p.
1653-1661, 2008. 769-772, 2005.

EGGHE, L.; LEYDESDORFF, L. The relation LEYDESDORFF, L.; VAUGHAN, L. Co-


between Pearsons correlation coefficient r and occurrence matrices and their applications in
Saltons cosine measure. Journal of the American Information Science: extending ACA to the Web
Society of Information Science & Technology, Environment . Journal of the American Society
New York, v. 60, n. 5, p. 1027-1036, 2009. of Information Science & Technology, New
York, v. 57, n. 12 p. 1616-1628, 2006.
ELSEVIER. Scopus. 2010. Disponvel em: <
http://www.scopus.com/home.url>. Acesso em: LEYDESDORFF, L. On the normalization and
13 abr. 2010. visualization of author co-citation data: Saltons
Cosine versus the Jaccard Index. Journal of the
GLNZEL, W.; SCHUBERT, A. A new American Society of Information Science &
classification scheme of science fields and Technology, New York, v. 59, n. 1, p. 77-85, 2008.
subfields designed for scientometric evaluation
purposes. Scientometrics, Amsterdam, v. 56, n. 3, LIMA, R. A.; VELHO, L. M. L. S.; FARIA, L. I.
p. 357-367, 2003. L.. Indicadores bibliomtricos de cooperao
cientfica internacional em bioprospeco.
GLNZEL, W.; LETA, J.; THIJS, B. Science in Perspectivas em Cincia da Informao, Belo
Brazil. Part 1: a macro-level comparative study. Horizonte, v. 12, n. 1, p. 50-64, jan./abr. 2007.
Scientometrics, Amsterdam, v. 67, n. 1, p. 67-86,
2006. LUUKKONEN, T.; PERSSON, O.; SIVERTSEN, G.
Understanding patterns of international scientific
GOOGLE. Google Acadmico. 2010. Disponvel collaboration. Science, Technology & Human
em: <http://scholar.google.com.br/intl/pt-BR/ Values, Thousand Oaks, v. 17, n.1, Winter, 1992,
scholar/about.html>. Acesso em: 13 abr. 2010. p. 101-126.

HAMERS, L. et al. Similarity measures in LUUKKONEN, T. et al. The measurement


Scientometric Research: the Jaccard Index versus of international scientific collaboration.
Saltons Cosine formula. Information Processing Scientometrics, Amsterdam, v. 28, n.1, p. 15-36,
& Management, New York, v. 25, n. 3, p. 315-318, 1993.
1989.

74 Inf. & Soc.:Est., Joo Pessoa, v.20, n.2, p. 67-75, maio/ago. 2010
Procedimentos e ferramentas aplicados aos estudos bibliomtricos

MOURA, A.M.M. A interao entre artigos THOMSON CORPORATION. Web of Science


e patentes. 2009. 269 f. Tese (Doutorado) - 7.0: education program. 2004. 96 p.
Programa de Ps-Graduao em Comunicao e
Informao, Universidade Federal do Rio Grande VELHO, L. A avaliao do desempenho cientifico.
do Sul, Porto Alegre, 2009. Cadernos USP, So Paulo, n. 1, out. p. 22-40.
1986.
MUGNAINI, R.; JANNUZZI, P.; QUONIAM, L.
Indicadores bibliomtricos da produo cientfica VILAN FILHO, J. L.; SOUZA, H. B.; MUELLER,
brasileira: uma anlise a partir da base Pascal. S. Artigos de peridicos cientficos das reas de
Cincia da Informao, Braslia, v. 33, n.2, p. 123- informao no Brasil. Perspectivas em Cincia
131, maio/ago. 2004. da Informao, Belo Horizonte, v. 13, n.2, p. 2-17,
maio/ago. 2008.
PERSSON, O.; DANELL, R.; SCHNEIDER,
J.W. How to use Bibexcel for various types of WALTMAN, L.; ECK, N. J. Some comments
bibliometric analysis. In: ASTROM, F. et al (ed.). on the question whether co-occurrence
Celebrating scholarly communication studies: a data should be normalized. Journal of the
festschrift for Olle Persoon at his 60th birthday. American Society of Information Science &
ISSI, 2009. p. 9-24. Technology, New York, v. 58, n. 11, p. 1701-
1703, 2007.
SANCHO, R. Indicadores Bibliometricos
Utilizados en la Evaluacin de la Cincia y WHITE, H. D. Author cocitation analysis and
la Tecnologia: revision bibliogrfica. Revista Pearsons r. Journal of the American Society of
Espaola de Documentacin Cientfica, Madrid, Information Science & Technology, New York,
v. 13, n. 3-4, p. 842-65, 1990. v. 54, n. 13, p. 1250-1259, 2003.

SPINAK, E. Indicadores cienciomtricos. Cincia ZIMBA, H.F.; MUELLER, S.P.M. Parcerias na


da Informao, Braslia, v. 27, n.2, p.141-148, cincia. Datagramazero, Rio de Janeiro, v. 5, n. 1,
maio/ago. 1998. art.4, 2004.

Inf. & Soc.:Est., Joo Pessoa, v.20, n.2, p. 67-75, maio/ago. 2010 75

También podría gustarte