Está en la página 1de 18

Machine Translated by Google

cienciometria

https://doi.org/10.1007/s11192­020­03647­7

Tamaño de muestra en análisis bibliométrico

Gordon Rogers1 ∙ Martin Szomszor1 ∙ Jonathan Adams1,2

Recibido: 11 de mayo de 2020


© El autor (es) 2020

Abstracto

Si bien el análisis bibliométrico normalmente puede basarse en conjuntos de publicaciones completos, este no es el caso
en todos los casos. Por ejemplo, Australia (en ERA) y el Reino Unido (en RAE/REF) utilizan evaluaciones de investigación
institucionales que pueden depender de partes pequeñas o fraccionarias de la producción de los investigadores. Utilizando
la categoría Impacto normalizado de citas (CNCI) para las publicaciones de diez universidades con producción similar (21
000 a 28 000 artículos y reseñas) indexadas en Web of Science para 2014­2018, exploramos hasta qué punto una "muestra"
de datos institucionales puede representar con precisión los promedios y/o el estado relativo correcto de los CNCI de la
población. Comenzando con datos institucionales completos, encontramos una alta variación en el CNCI promedio en
10,000 muestras institucionales de menos de 200 artículos, lo que sugerimos puede ser un mínimo analítico, aunque
muestras más pequeñas pueden ser aceptables para una revisión cualitativa.

Al considerar el artículo 'principal' del CNCI en los conjuntos de investigadores representados por los grupos DAIS­ID,
encontramos que las muestras de 1000 artículos proporcionan una buena guía para el desempeño relativo (pero no
absoluto) de las citas institucionales, que está impulsado por la abundancia de alto nivel de citas. individuos ejecutantes.
Sin embargo, estas muestras pueden verse perturbadas por la escasez de artículos "altamente citados" en unidades más
pequeñas o menos intensivas en investigación. Llamamos la atención sobre la importancia de esto para los procesos de
evaluación y la evidencia adicional de que las clasificaciones universitarias son innatamente inestables y generalmente
poco confiables.

Palabras clave Muestreo bibliométrico ∙ CNCI ∙ Impacto de las citas ∙ Evaluación de la investigación ∙
Clasificación universitaria

Introducción

¿Cuál es el número mínimo de observaciones necesarias para hacer una estimación aceptablemente precisa del verdadero
impacto medio de las citas o describir las medias relativas de varios conjuntos de datos? El muestreo para estimar la media
poblacional es un problema generalizado en muchas áreas de investigación (por ejemplo, Adams, 1980), pero es menos
común cuando se estima el impacto de las citas en bibliometría porque a menudo es posible hacer uso de datos completos.

* Jonathan Adams

jonathan.adams@kcl.ac.uk

1
Instituto de Información Científica, Clarivate Analytics, 160 Blackfriars Road, Londres SE1 8EZ,
Reino Unido

2
The Policy Institute, King's College London, 22 Kingsway, Londres WC2B 6LE, Reino Unido

13
Vol.:(0123456789)
Machine Translated by Google

cienciometria

datos, es decir, el conjunto de publicaciones completo para una o más entidades. Por supuesto, hacemos la
advertencia de que este es un conjunto de datos completo sólo en la medida en que lo sea para una fuente
particular como Web of Science. Generalmente existen otras publicaciones, pero no registradas.
Pueden surgir circunstancias en la evaluación de la investigación en las que el análisis de todos los datos
de publicación disponibles no sea o no pueda realizarse, en cuyo caso es necesario arrojar alguna luz sobre la
aceptabilidad del muestreo. Hemos buscado explorar esto porque es un desafío que nos plantean muchos
usuarios del análisis bibliométrico. Es una perogrullada que las muestras más grandes reducen la varianza de
la media, pero ¿a qué tamaño de muestra la diferenciación entre una serie de conjuntos de datos se vuelve lo
suficientemente clara para satisfacer los requisitos de evaluación?
Moed et al. (1985) analizaron las consecuencias de operar con datos bibliométricos incompletos en la
evaluación de la investigación. Concluyeron que “se propone como estándar un porcentaje de completitud del
99% para los datos de publicación en las evaluaciones del desempeño de pequeños grupos de investigación
universitarios”. Este parece un límite alto, pero Glaser et al. (2004) también se refieren a la 'unidad menos
evaluable (LEU)' en la evaluación de la investigación organizacional y comentan que “los principales obstáculos
para una mayor desagregación por debajo de la LEU son que los indicadores pierden su validez estadística
debido al bajo número de publicaciones y que el desempeño de las subunidades no puede medirse
independientemente”. Calatrava Moreno et al. (2016) encontraron que “los indicadores de interdisciplinariedad
no son capaces de reflejar las imprecisiones introducidas por registros incorrectos e incompletos porque rara
vez se pueden obtener datos bibliográficos correctos y completos”.

Glänzel y Moed (2013) han analizado la cuestión de la coherencia de los indicadores. Señalan que “como
regla general, se sugiere un valor de 50 como valor mínimo para propiedades aproximadas como la 'normalidad'
de la distribución de medias y frecuencias relativas. En [un ejemplo elaborado de datos bibliométricos belgas],
se utilizó un tamaño de muestra del orden de magnitud de 100 y proporcionó resultados aceptables”. Seglen
(1994) estudió la coherencia de la relación entre la citación de un artículo y el impacto de la revista para
investigadores biomédicos noruegos. Encontró que “para obtener buenas correlaciones era necesario agrupar
una gran cantidad de artículos (50 a 100), por lo que los grupos por encima del nivel de autor eran obligatorios.
Shen et al. (2019) presentan un método para estimar el tamaño mínimo de muestra para una clasificación
bibliométrica precisa, pero su algoritmo es aplicable a conjuntos de datos pareados, ejemplificados con revistas
que tienen factores de impacto similares.

En general, es cierto que los analistas disponen de muestras mucho más grandes, pero se producen
excepciones, particularmente cuando la evaluación de la investigación cuantitativa y cualitativa están vinculadas
en procesos de evaluación práctica. Esto puede entonces influir en el número de resultados disponibles para el
análisis. Por ejemplo, en la Excelencia Australiana en Investigación para Australia (ERA), la consideración de
un tamaño de muestra que podría considerarse adecuadamente representativo del trabajo de una unidad llevó
al Grupo de Desarrollo de Indicadores de 2008 a recomendar un umbral de volumen bajo (ERA 2018) que se
fijó en 50 resultados evaluables. Una situación diferente se encuentra cuando hay selectividad intencional. El
número de publicaciones que se revisan en el Ejercicio de Evaluación de la Investigación del Reino Unido
(RAE, más tarde Marco de Excelencia en la Investigación o REF) está limitado por consideraciones prácticas
sobre la carga de trabajo razonable para un panel de revisión por pares.
Hasta ahora, cada investigador evaluable de la RAE ha presentado cuatro resultados de su cartera durante un
período censal de varios años (HEFCE 2014), pero este sistema está cambiando. Para el próximo REF debe
haber un mínimo de un resultado por cada investigador presentado más resultados adicionales hasta un
múltiplo de 2,5 para el recuento del personal presentado con un máximo de cinco resultados atribuidos a
cualquier individuo (REF 2019) . Este 'pick­and­mix' podría tener consecuencias significativas para diferentes
unidades según el equilibrio de personal.
La noción de muestreo y representación requiere algún comentario en este contexto.
La evaluación de la investigación puede enfatizar tanto la proporción de actividad que es "excelente" como la

13
Machine Translated by Google

cienciometria

el rendimiento "promedio" de una unidad (Glänzel y Moed (2013) se refieren a esto como "el nivel alto y el
rendimiento común"). Por ejemplo: en la RAE, es probable que los gestores de investigación quieran presentar
resultados que representen excelencia y se supone que seleccionan resultados que representen la investigación
de mayor impacto de los investigadores (Adams et al. 2020 ). En la evaluación de la investigación brasileña se
hacen supuestos similares (Capparelli y Giacomolli 2017). En ERA, por el contrario, la intención es capturar el
desempeño típico de la unidad.
Un tercer contexto en el que las muestras parciales pueden cubrir sólo parte de la actividad de la unidad
evaluada es el de los rankings universitarios. Esta es un área de cierta sensibilidad en cuanto a la precisión y el
tamaño de la muestra, ya sea en un ejercicio nacional o en un contexto global más amplio. Si la variación de los
posibles resultados es alta, entonces la probabilidad de que el desempeño relativo y el estatus de las instituciones
sean mal interpretados puede hacer que la presentación de informes sea inaceptable. Si bien esto parece poco
probable a nivel de las principales instituciones de investigación, podría ser el caso de los análisis basados en
temas y puede afectar a las instituciones especializadas donde una fracción relativamente grande de la producción
no se encuentra en revistas indexadas. También puede afectar el análisis de instituciones menos intensivas en
investigación que colaboran en estudios globales más grandes que producen una pequeña cantidad de artículos
altamente citados.
De la teoría estadística básica se desprende claramente que muestras más grandes conducen a resultados
analíticos que probablemente sean más "exactos" en el sentido de proporcionar un resultado más cercano a la
verdadera media poblacional. Sin embargo, dada la naturaleza de las distribuciones de citas, que invariablemente
están muy sesgadas (Seglen 1992), ¿es posible determinar un umbral "práctico" razonable para un tamaño de
muestra mínimo aceptable? ¿Qué sucede cuando la estructura del muestreo la determinan los propios
investigadores? Ha habido poco trabajo al respecto ya que la intención general de la evaluación ha sido, como
se señaló anteriormente, capturar la mayor cantidad de información posible en lugar de limitar el análisis a
muestras. Sin embargo, una guía de la relación general entre el tamaño de la muestra y los resultados puede
ser valiosa para orientar las políticas y la implementación de ejercicios nacionales e institucionales, y para evitar
suposiciones erróneas sobre la representatividad.

Debido a que los clientes han planteado con frecuencia la cuestión del tamaño de la muestra al Instituto de
Información Científica (ISI™), hemos considerado la cuestión de cómo un indicador del desempeño de citas de
una institución podría verse afectado por un análisis parcial de su producción. Para hacer esto, analizamos la
categoría de impacto de citas normalizado (CNCI) de un conjunto de instituciones comparables y formulamos
dos preguntas sobre el uso de datos parciales:

• ¿ A qué tamaño de muestra la varianza del CNCI promedio verdadero invalidaría la interpretación?
ción de resultados relativos (el escenario ERA)?
• Si intencionalmente tomamos muestras de elementos más citados para los investigadores, ¿cómo afecta esto
a la varianza y el estado relativo de los resultados (el escenario REF)?

Métodos

Los datos se extraen de la Web of Science Core Collection utilizando el Science Citation Index Expanded, el
Social Science Citation Index y el Arts and Humanities Citation Index (SCIE, SSCI y AHCI) para el período de 5
años 2014­2018. Los documentos para el análisis se limitaron a contribuciones originales de revistas académicas
(es decir, artículos y reseñas) a las que nos referiremos como "artículos".

Debido a que el recuento de citas crece con el tiempo a tasas que dependen del campo (Garfeld 1979),
calculamos el impacto de citas normalizado por categoría (CNCI) para cada artículo individual. Este

13
Machine Translated by Google

cienciometria

Tabla 1 Recuento de artículos (artículo y revisión), impacto promedio de las citas normalizadas por categoría (CNCI) y ciudadanía
de diez instituciones universitarias, clasificadas por volumen de producción utilizando datos de Web of Science Core
Recaudación para el quinquenio 2014­2018

Región Institución Número de artículos Promedio CNCI Rank CNCI % citado

Europa ETH Zúrich 27.869 1,78 2 92,7

Asia Universidad de Nanjing 27.567 1.37 7 90.1

Europa Universidad de Edimburgo 25.965 2.04 1 88,4

Universidad de las Américas de Texas, Austin 25.205 1,69 4 88.3


Asia Universidad Yonsei 24.362 1.12 8 87.1

Universidad de las Américas de Montreal 23.701 1,51 5 88.2

Europa Universidad de Helsinki 23.420 1,76 3 89,3


Américas UNAM 22,112 0,83 10 81,7
Rusia Lomonósov Estado de Moscú 22.083 0,94 9 78,6
Universidad
Universidad de Tel Aviv de Oriente Medio 21.788 1.43 6 85.2

tiene en cuenta el recuento promedio de citas de todos los artículos en una categoría de revistas basada en el tema
y para su año de publicación.
También utilizamos la media aritmética como indicador estándar, aunque conocemos las recomendaciones bien
fundadas de Thelwall (2016; ver también Fairclough y Thelwall 2015) con respecto al uso de la media geométrica
para estos datos asimétricos. Sin embargo, tomando nota de los comentarios de Thelwall sobre la palatabilidad para
los responsables de las políticas y dado el contexto práctico dentro del cual esto debe aplicarse, creemos que las
medias aritméticas son suficientemente satisfactorias e intuitivamente más accesibles para propósitos prácticos.

Para proporcionar un grupo comparativo de instituciones académicas, se seleccionaron diez universidades de


un tamaño de producción similar con una amplia distribución geográfica. El objetivo era asegurar la comparabilidad
del muestreo identificando instituciones que produjeron un recuento similar de alrededor de 20.000 a 30.000 artículos
en cinco años, de los cuales hay 59. De este grupo fue posible seleccionar: tres de las Américas; tres de Europa,
excluida Rusia; dos de Asia y el Pacífico; y uno de Rusia y uno de Medio Oriente. Los límites reales del tamaño de
las instituciones.

Los artículos seleccionados, que oscilaron entre 21.000 y 28.000 durante el período de cinco años, deberían
proporcionar una base sólida para la comparabilidad.
El rango de valores del CNCI en cada una de estas carteras institucionales es, por supuesto, muy amplio y muy
sesgado, con muchos artículos no citados y bajos valores de citación y una larga cola de valores del CNCI mucho
más altos (Glänzel 2013) . Sin embargo, la cuestión no es la precisión del promedio institucional sino el grado en
que nuestros escenarios de muestreo pueden proporcionar una estimación informativa de ese promedio (tamaño de
la muestra) o de la relación ordinal entre los promedios institucionales (artículos muy citados).

Limitar el tamaño de la muestra

Para examinar la varianza debida al tamaño de la muestra, utilizamos un muestreo aleatorio simple (sin reemplazo)
para extraer 10.000 muestras diferentes en un rango de tamaños de muestra. Luego se reemplaza la muestra
completa. Esto significa que, para cualquier muestra, el conjunto total de artículos que se extraerán es el mismo y
cada artículo solo se puede seleccionar una vez. Los tamaños de estas muestras fueron 20, 50, 100, 200, 500, 1000
y 2000 papeles, lo que proporcionó un rango desde aproximadamente

13
Machine Translated by Google

cienciometria

0,1% a 10% de la población total. Para cada muestra, el CNCI medio se calculó utilizando líneas de base
derivadas de la categoría de Web of Science , el año de publicación y el tipo de documento.

Selección de artículos muy citados

Para examinar la variación debida a elecciones selectivas, utilizamos los grupos específicos de
investigadores creados por el Sistema de Identificación de Autores Distintos (DAIS) de Clarivate. DAIS
utiliza una comparación ponderada de grupos de autores basándose en más de veinte puntos de distancia/
similitud de los metadatos de la publicación, incluido el ORCID del autor, el nombre, la categoría temática,
el uso de referencias y el análisis de cocitaciones basado en el autor (Small 1973; White y Grifth 1981),
nombre institucional, etc. Los detalles de la metodología relacionada se encuentran en Levin et al. (2012).
El sistema aplicado a los datos de Web of Science Core Collection también responde a los comentarios de
los usuarios para mejorar la agregación y separación. ISI lo prueba periódicamente con verificación manual
basándose en registros desambiguados y validados de investigadores altamente citados, que indican una
precisión del 99,9 % y una recuperación del 95,5 %.
Para cada conjunto de artículos atribuidos a una institución, extraemos todos los DAIS­ID (es decir,
grupos de artículos asociados con un investigador único) y seleccionamos el artículo con el CNCI más
alto para cada uno. Esto crea un conjunto de artículos "mejores" producidos por la institución. Muchos de
los artículos más citados tienen varios coautores de la misma institución, por lo que se eliminan los
duplicados (es decir, se incluyen solo una vez). Solo se incluyeron DAIS­ID con 4 o más artículos para
filtrar posibles valores atípicos que no estaban adecuadamente desambiguados o que tenían un bajo
rendimiento de publicación. Este subconjunto filtrado da como resultado alrededor de 3000 DAIS­ID para
cada institución. Como se trata de un período de cinco años, la mayoría de los grupos tenían menos de 10
artículos y hubo pocos que excedieran los 25 artículos en cualquier institución. La distribución de estos
valores 'superiores' de CNCI se ilustra en el Apéndice (Fig. 8) y se analiza a continuación.
Se utilizó un muestreo aleatorio simple para extraer 10.000 muestras de 1.000 artículos para cada
institución.

Resultados

Limitar el tamaño de la muestra

Debido al gran número de iteraciones de muestreo, el promedio de los CNCI medios de las muestras fue
similar al CNCI poblacional para todas las instituciones en todos los tamaños de muestra. En todos los
tamaños de muestra, la distribución de medias normalmente se acercó a una distribución normal. El sesgo,
que incluso en muestras de tamaño pequeño era mucho menor que el sesgo de la población de origen,
disminuyó rápidamente. Algunas instituciones tuvieron una distribución bimodal, que se analiza por
separado a continuación.
La estadística de interés no es el valor promedio de una muestra grande y su desviación de
la media poblacional sino la varianza en las medias muestrales (Fig. 1).
La varianza asociada con tamaños de muestra pequeños es muy alta (Fig. 1). El rango de variaciones
está correlacionado con el CNCI promedio de la institución, que obviamente es un derivado de la
distribución de los CNCI en papel individuales. Ninguna institución tiene un conjunto de artículos
uniformemente altamente citados, pero la dispersión (curtosis) de los valores del CNCI de sus artículos
individuales es mayor cuando el CNCI promedio de la institución es más alto. Helsinki y Edimburgo tienen
dos de los tres CNCI promedio más altos y tienen una distribución relativamente platicúrtica (aunque
asimétrica) con una amplia gama de CNCI de papel individuales de los cuales se obtienen muestras.

13
Machine Translated by Google

cienciometria

Fig. 1 Varianza en el valor medio del CNCI calculado a partir de 10 000 muestras iterativas de artículos (artículos y
reseñas) tomadas de la publicación completa de 5 años (2014­2018) de Web of Science Core Collection para diez
universidades de tamaño de cartera similar (consulte la Tabla 1)

puede ser dibujado. La UNAM tiene un CNCI promedio bajo y una gama agrupada de CNCI en papel (más
leptocúrticos) porque tiene un número relativamente menor de artículos altamente citados.
La varianza fue mayor que 1 para siete y mayor que 0,5 para todas las instituciones con un tamaño de
muestra = 20 artículos. Cayó a un rango de alrededor de 1,0 con un tamaño de muestra = 50, y a 0,5 o
menos con un tamaño de muestra = 100. Se puede ver que un aumento en el rango elegido de tamaños de
muestra reduce aproximadamente a la mitad la varianza en cada paso (Fig. 1).
¿En qué puntos de este espectro se superponen ampliamente los rangos de los valores del CNCI de
la muestra y en qué punto la varianza cae a un nivel tal que la probabilidad de que el valor de la muestra se
acerque al verdadero CNCI sugiere que las universidades se pueden distinguir con mayor precisión? ?

En la Fig. 2, los valores promedio poblacionales del CNCI para el conjunto completo de datos de
artículos de las diez instituciones se muestran con un indicador de la magnitud de la desviación estándar
(que debería cubrir un poco más de dos tercios de los puntos de datos) en cada uno de los tres. tamaños
de muestra. Es evidente que un tamaño de muestra de 50 produce una probabilidad relativamente alta de
resultados indistinguibles. En este escenario, el ranking de instituciones por CNCI podría variar
considerablemente
Incluso con tamaños de muestra de 200, existe una probabilidad apreciable de mala interpretación. Si
consideramos la Universidad de Tel Aviv, con un CNCI promedio cercano a la mitad de nuestro conjunto
institucional, entonces podemos ver que una dispersión de otros medios institucionales desde Yonsei hasta
Zurich se encuentran dentro del rango de una desviación estándar. De hecho, los rangos de todas las
desviaciones estándar institucionales todavía se superponen, excepto las instituciones con los dos CNCI
promedio más bajos y los tres más altos. Las instituciones en el rango medio de los CNCI medios son
efectivamente indistinguibles en este nivel de muestreo.

13
Machine Translated by Google

cienciometria

Fig. 2 Rango de valores de muestra (CNCI verdadero ± una desviación estándar) producidos por 10.000 muestras tomadas del
conjunto de publicaciones completo para diez universidades para muestras de 50, 100, 200 y 500 artículos

Selección de artículos muy citados

Una expectativa ingenua, cuando se seleccionan los artículos de mayor impacto (por CNCI) de
cada grupo DAIS­ID, sería que el conjunto de datos más pequeño creado al eliminar los menos citados

13
Machine Translated by Google

cienciometria

Figura 2 (continuación)

Los artículos conducirían a un aumento en el CNCI promedio de una institución y la variación


también disminuiría porque se han eliminado los artículos poco citados. Sin embargo, la
realidad no coincide con esto a nivel institucional agregado, debido a la variación entre los
DAIS­ID, algunos de los cuales son en su mayoría muy citados y otros en su mayoría poco
citados, particularmente entre las ciencias sociales y las artes fuera de América del Norte. Nosotros por lo ta

13
Machine Translated by Google

cienciometria

redujeron el conjunto de datos y tomaron el documento con el CNCI más alto de cada grupo, como se describe
en Métodos.
Para obtener información, se trazaron para cada institución las distribuciones institucionales generales del
subconjunto de los "mejores" artículos del CNCI de los investigadores para DAIS­ID con cuatro o más artículos
(Apéndice: Fig. 7). La difusión de los artículos más impactantes (en términos de CNCI) para el conjunto de
investigadores de estas instituciones está sesgada de manera similar a la distribución general de CNCI. Sin
embargo, es interesante observar la similitud de la distribución entre muchas instituciones, con valores modales
del CNCI de entre 1 y 2 veces el promedio mundial y una cola que se extiende hasta 4 a 8 veces el promedio
mundial. De hecho, las diferencias institucionales en esta cola pueden ser un principal diferenciador (Glänzel
2013).
Existe un acuerdo general en la literatura cienciométrica de que, en promedio, existe una relación amplia
entre los valores promedio del CNCI y otros indicadores cuantitativos (ingresos de investigación) y cualitativos
(revisión por pares) del desempeño de la investigación (revisados en Waltman 2016) . Por lo tanto, la Figura 7
(en el Apéndice) parece sugerir que la población de investigadores de cada institución está compuesta por una
plataforma muy grande de individuos administrados en común (sensu Glänzel y Moed 2013) cuyos artículos
más citados están un poco por encima del promedio mundial. y una cola sesgada hacia la derecha de
investigadores de alto nivel cuyos artículos son mucho más citados para su campo y año. La distribución relativa
de la corriente principal y de los talentosos debe entonces influir en el resultado institucional neto.

Debido a que la población está tan sesgada, la desviación estándar y, por tanto, el error en las medias
muestrales también aumentan. El principal factor de esto es la distribución sesgada residual: aunque se han
eliminado algunos artículos poco citados, todavía hay muchos otros artículos poco citados. La eliminación de
varios artículos poco citados conduce a un aumento en la media; como consecuencia, los artículos restantes
con pocas citas ahora están más lejos de la media y, por lo tanto, la desviación estándar es mayor. Aunque el
CNCI promedio de los trabajos de CNCI más altos en cada grupo DAIS­ID está correlacionado con
aproximadamente 2,5 a 3 veces el CNCI medio general para cada institución (Fig. 3), las medias son
estadísticamente indistinguibles para las distribuciones del CNCI más alto de los investigadores. artículos
(Apéndice: Fig. 8).

Había alrededor de 3.000 artículos (desde Moscú: 2.392 hasta Nanjing: 4.195) en el conjunto de datos de
los artículos "principales" de cada institución. El muestreo de este conjunto de datos, utilizando 10.000 iteraciones
de 1.000 artículos cada una, produce el aumento antes mencionado en el CNCI promedio para cada institución,
ya que se han eliminado muchos artículos poco citados. Las distribuciones de las medias muestrales se
muestran en la Fig. 4. Aunque la distribución subyacente sigue siendo muy sesgada (Apéndice: Fig. 7), la
distribución de las medias muestrales es mucho más pequeña y nuevamente se aproxima a la normalidad.

La distribución de la UNAM en la Fig. 4 tiene un doble pico y claramente no es normal. La Universidad


Lomonosov de Moscú también puede tener un segundo pico emergente. Se llevaron a cabo más investigaciones
(a continuación) para explorar el origen de esta anomalía.
Se puede considerar que las distribuciones de las medias muestrales son relativamente discretas (Fig. 5) y
proporcionan un mejor nivel de discriminación que las muestras de 200 artículos de la población completa (Fig.
2). Como se señaló anteriormente, dado que los picos modales de los valores más altos del CNCI son similares
en todas estas instituciones (Apéndice: Fig. 7), el factor diferenciador que separa los valores máximos mucho
más ajustados debe ser la frecuencia relativa de los valores más altos del CNCI ( ver Glänzel 2013). Por lo tanto,
en los ejercicios de evaluación de investigaciones en los que se apoya la selectividad, la capacidad de
seleccionar dicho material será de importancia crítica para determinar los resultados.

Es factible analizar los datos basándose en el análisis directo de los nombres indicativos de los autores, pero
esto no proporciona ninguna diferencia sustancial en los resultados.

13
Machine Translated by Google

cienciometria

Fig. 3 Relación entre el CNCI promedio de todos los artículos institucionales indexados en Web of Science Core
Collection durante un período de 5 años (2014­2018) y el CNCI promedio del artículo de mayor impacto ('principal')
en cada DAIS­ID grupo con cuatro o más artículos

Distribuciones bimodales

Si bien la distribución de las medias muestrales (para los datos institucionales completos y para los datos de los
artículos "principales") fue típicamente normal, algunas de las instituciones tuvieron un doble pico en la
distribución de sus medias muestrales, particularmente para tamaños de muestra más grandes. Esto se investigó
mediante un muestreo progresivo de los datos de la UNAM (que tiene la bimodalidad más evidente) con un
mayor número de intervalos de tamaño de muestra desde muestras muy pequeñas (20 artículos) hasta muestras
completas (2000 artículos) del conjunto de datos de artículos "superior" de 2714 artículos. para el periodo de 5 años.
La Figura 6 muestra un gráfico de las distribuciones resultantes de esta dispersión de diferentes tamaños de
muestra utilizando 10.000 muestras en cada intervalo. El eje horizontal muestra el rango del CNCI promedio
para las muestras y se fijó en un máximo de 10 veces el promedio mundial, ya que un promedio institucional
válido mayor que este sería extremadamente improbable. La distribución parece unimodal con un tamaño de
muestra muy pequeño de 20 porque el pico modal de la derecha está de hecho por encima de un CNCI de 20
y, por lo tanto, está fuera del marco. A medida que el tamaño de la muestra aumenta a 50, comienza a aparecer
a la derecha de la gráfica. A medida que el ojo avanza a través de tamaños de muestra cada vez mayores, es
evidente que este pico crece en frecuencia y se mueve hacia la izquierda.
¿Por qué pasó esto? Es consecuencia de que un artículo de la UNAM sea particularmente citado en
comparación con el resto de la producción de la institución. Las muestras que incluyeron este artículo tendrían,
por supuesto, un CNCI medio claramente más alto, mientras que la probabilidad de que este artículo se incluyera
en una muestra es una función simple del tamaño de la muestra. Las muestras con y sin este artículo se
aproximaron por separado a distribuciones normales, pero cuando se combinan producen un pico doble. El
artículo de la UNAM más citado tiene un CNCI de ~418; su segundo artículo más citado tiene un CNCI de ~91,
seguido de CNCI progresivamente más cercanos de 73, 70 y 54. El pico de la derecha en la Fig. 6 representa
las muestras que incluyen ese artículo altamente citado, mientras que el pico de la izquierda denota las muestras
que no fueron capturadas. El

13
Machine Translated by Google

cienciometria

Fig. 4 Distribuciones de frecuencia de 10,000 CNCI promedio de muestra para 1000 artículos tomados del artículo CNCI más
alto en conjuntos institucionales DAIS­ID> 4 artículos (ver texto)

El pico de la derecha debe centrarse alrededor de (418 − x )∕n, donde x es la media del pico
izquierdo (alrededor de 2) y n es el tamaño de la muestra. Para un tamaño de muestra de 1000, el pico sería

13
Machine Translated by Google

cienciometria

Fig. 5 Rango de valores de muestra (CNCI ± una desviación estándar) producidos por 10 000 muestras de 1000 artículos
tomados de los artículos de CNCI más altos para conjuntos DAIS­ID para diez universidades

0,416 a la derecha del otro pico, mientras que la desviación estándar de cualquiera de los picos es 0,22 y,
con 2714 artículos en el conjunto de datos de artículos más citados, el pico de la derecha debe tener una
altura de n∕(2, 714 − n ) en comparación con el pico izquierdo (es decir, la probabilidad de que una muestra
de n artículos elegidos al azar incluya el artículo superior frente a la probabilidad de que no lo incluya).

Discusión

Los escenarios y preguntas aquí planteados son puramente experimentales. En la práctica, es poco probable
que alguien sea tan desacertado como para tratar de comparar el rendimiento de las citas de un conjunto
global de instituciones en lo que obviamente son tamaños de muestra relativamente pequeños o en un solo
artículo altamente citado por investigador. Sin embargo, el experimento arroja algo de luz sobre cómo los
responsables de las políticas deberían considerar límites razonables al muestreo de datos bibliométricos y
qué consejos podrían ofrecer los analistas a los usuarios. También podría mejorar el enfoque cauteloso a
la hora de interpretar cualquier análisis que compare grupos o instituciones relativamente similares.
Nuestra noción experimental de "muestreo" se basa en un grupo selecto de instituciones con carteras
de publicaciones similares y relativamente grandes (20.000 a 30.000 artículos en cinco años). Si hubiéramos
elegido instituciones más pequeñas y más grandes, entonces el tamaño de la población fuente habría sido
un factor interactivo adicional. Sabemos, por experiencia práctica, que los indicadores de citas de
instituciones más pequeñas (e incluso de algunos países pequeños) pueden verse sorprendentemente
influenciados por artículos atípicamente muy citados (Potter et al. 2020 ).
No sorprende que la varianza alrededor del CNCI institucional promedio sea muy alta cuando se emplean
tamaños de muestra pequeños y que disminuya rápidamente a medida que aumenta el tamaño de la
muestra (Fig. 1 ). Un tamaño de muestra de 50, e incluso de 100, todavía produce un resultado con pocas
probabilidades de identificar y diferenciar con precisión los verdaderos valores del CNCI para nuestro
conjunto de instituciones. Sólo cuando el tamaño de la muestra llega a 200 se consigue un grado apreciable de

13
Machine Translated by Google

cienciometria

Fig. 6 Las distribuciones del CNCI medio para 10,000 muestras de 2714 artículos 'principales' de grupos DAIS­ID para
investigadores de la UNAM, con tamaños de muestra de 20 a 2000 artículos. El eje horizontal (INC medio) está restringido
a un valor institucional máximo de 10 veces el promedio mundial. Un "segundo pico", causado por un número muy pequeño
de artículos muy citados, se puede observar en muestras superiores a 50 y se mueve progresivamente hacia la izquierda a
medida que aumenta el tamaño de la muestra.

13
Machine Translated by Google

cienciometria

La diferenciación comienza a aparecer (Fig. 2). Desde la perspectiva de un ejercicio de evaluación nacional,
una muestra tan pequeña como 50 (como se utiliza en ERA) parecería insuficiente si se empleara algún
análisis bibliométrico, pero eso no quiere decir que no proporcionaría información valiosa. a un panel de
revisión por pares experto y experimentado.
El enfoque en los artículos más altos del CNCI para cada investigador (representados por los grupos
DAIS­ID) reveló hasta qué punto la distribución de los artículos "mejores" para las poblaciones institucionales
está tan sesgada como la del rendimiento de citación de los artículos mismos (ver también Glänzel 2013).
Hay altas frecuencias de grupos de investigadores citados relativamente poco, incluso en instituciones
líderes con un CNCI promedio alto, por lo que el muestreo entre investigadores produce distribuciones con
un promedio alto pero una varianza mayor porque el promedio se ha alejado incluso de los mejores artículos
de los grupos bajos. citado. Este patrón es captado por Glänzel y Moed (2013) en su referencia a “la gama
alta y lo común”.
En la aplicación, las distribuciones de muestra de los artículos "mejores" del CNCI de los investigadores
estaban bien definidas (Fig. 4) y produjeron una diferenciación entre instituciones que es tan buena como
los tamaños de muestra grandes (Fig. 5). El factor clave que impulsa el CNCI promedio de estos artículos
de investigadores "mejores" es la abundancia relativa de los investigadores más citados, ya que los valores
modales son similares para las diez instituciones analizadas aquí (Apéndice: Fig. 7).
La influencia en el promedio muestral de artículos escasos con recuentos de citas excepcionales se
muestra en los datos de la UNAM analizados en la Figura 6. La probabilidad de que dichos artículos se
incluyan en una muestra depende tanto de la abundancia relativa dentro del portafolio institucional como del
tamaño de la muestra. . Por lo tanto, una muestra pequeña supondría un doble riesgo para el analista
cuando una institución tiene pocos documentos de este tipo. La mayoría de las muestras omitirían elementos
tan raros, pero el CNCI promedio de una muestra que incluyera un artículo de este tipo sería extremadamente,
incluso absurdamente, alto.
El cambio en la metodología de evaluación de la investigación en el Reino Unido para permitir diferentes
números de resultados presentados por investigador (REF 2019) probablemente producirá resultados
analíticos que dependerán significativamente de las estrategias locales. Las instituciones que adoptan un
enfoque inclusivo, donde todos los investigadores presentados están igualmente representados, tenderán a
obtener CNCI promedio más bajos, mientras que aquellas que adoptan un enfoque exclusivo que favorece
a los líderes de investigación y a los más citados tenderán a elevar su posición relativa, aunque posiblemente
a algún costo. a la colegialidad. Esto no habría sido evidente en el proceso histórico que requería un número
igual de resultados para cada investigador presentado. Es una suerte que los debates en el Reino Unido
hayan llevado a la decisión de utilizar la bibliometría sólo en algunos paneles y sólo de manera periférica y
de fondo.
Finalmente, está la cuestión de las clasificaciones internacionales y la posición comparativa de las
instituciones en dichas clasificaciones. Ahora debería ser más evidente que antes que incluso muestras
muy grandes pueden no diferenciar adecuadamente entre las muchas instituciones en el centro de la
distribución del desempeño. Es probable que la élite esté bien diferenciada y también puede verse
claramente una cola de instituciones escasas en investigación. En el medio, sin embargo, es probable que
el grado de cobertura de la base de datos, la cartera de temas y otros factores produzcan resultados que
harían que una institución suba o baje muchos puntos cada año. Incluso la integridad

13
Machine Translated by Google

cienciometria

y la precisión con la que los autores describen su afiliación puede influir en esto. Esta variación puede abordarse en parte
utilizando 'bandas' en lugar de puntos ordinales, pero en última instancia la única manera de juzgar el valor relativo de una
institución es mediante una consideración detallada de la evidencia subyacente.

Agradecimientos Agradecemos a nuestros colegas de ISI por sus consejos y sugerencias durante el desarrollo
de este trabajo.

Cumplimiento de estándares éticos


Conficto de intereses Los autores son empleados del Instituto de Información Científica (ISI), que forma parte de
Clarivate, los propietarios de Web of Science Group.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite
el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé
el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons
e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la
licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material.
Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido
por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos
de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Apéndice

Véanse las figuras. 7, 8.

13
Machine Translated by Google

cienciometria

Fig. 7 Distribución de trabajos CNCI más altos en cada DAIS­ID con cuatro o más trabajos

13
Machine Translated by Google

cienciometria

Fig. 8 Rango de valores de impacto (CNCI ± una desviación estándar promedio) para la distribución de los artículos con el CNCI
más alto ("principales") tomados de grupos DAIS­ID con cuatro o más artículos para cada una de las diez universidades.

Referencias

Adams, J. (1980). El papel de la competencia en la dinámica poblacional del gusano gordo de agua dulce Bdelloceph­ala punctata
(Turbellaria, Tricladida). Revista de ecología animal, 49, 565–579.
Adams, J., Gurney, KA, Loach, T. y Szomszor, M. (2020). Patrones de documentos en evolución en la investigación del Reino Unido
ciclos de evaluación. Fronteras en métricas y análisis de investigación, 5, 2.
Calatrava Moreno, MDC, Auzinger, T. y Werthner, H. (2016). Sobre la incertidumbre de las mediciones interdisciplinares debido a
datos bibliográficos incompletos. Cienciometría, 107(1), 213–232. https://doi.
org/10.1007/s11192­016­1842­4.
Capparelli, B. y Giacomolli, Nueva Jersey (2017). La evaluación del factor de impacto en la publicación científca de procedimiento
penal. Revista Brasileira de Direito Procesal Penal, 3(3), 789–806. https://doi.
org/10.22197/rbdpp.v3i3.108.
ERA. (2018). Excelencia en investigación para Australia: Directrices de presentación, p. 72, © Mancomunidad de
Australia 2017. ISBN: 978­0­9943687­4­4 (en línea).
Fairclough, R. y Thelwall, M. (2015). Métodos más precisos para comparar el impacto de las citas de investigaciones nacionales.
Revista de Informetrics, 9(4), 895–906. https://doi.org/10.1016/j.joi.2015.09.005.
Garfeld, E. (1979). ¿Es el análisis de citas una herramienta de evaluación legítima? Cienciometría, 1(4), 359–375. https://
doi.org/10.1007/BF02019306.
Glänzel, W. (2013). ¿Rendimiento de alto nivel o valor atípico? Evaluación de la cola de distribuciones cienciométricas. Ciencia
entometría, 97 (1), 13­23. https://doi.org/10.1007/s11192­013­1022­8.
Glänzel, W. y Moed, HF (2013). Artículo de opinión: Reflexiones y hechos sobre indicadores bibliométricos. cientifico
métricas, 96 (1), 381–394. https://doi.org/10.1007/s11192­012­0898­z.
Glaser, J., Spurling, TH y Butler, L. (2004). Evaluación intraorganizacional: ¿Existen 'unidades menos evaluables'? Evaluación de la
investigación, 13(1), 19–32.
HEFCE. (2014). REF2014: Criterios de evaluación y definiciones de niveles. http://www.ref.ac.uk/2014/panels/
criteriosdeevaluaciónydefinicionesdenivel/. Consultado por última vez el 6 de abril de 2020.
Levin, M., Krawczyk, S., Bethard, S. y Jurafsky, D. (2012). Arranque basado en citas para la desambiguación de autores a gran
escala. Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información,
63(5), 1030–1047.

13
Machine Translated by Google

cienciometria

Moed, H., Burger, W., Frankfort, J. y Van Raan, A. (1985). La aplicación de indicadores bibliométricos: importantes factores
dependientes del campo y del tiempo a considerar. Cienciometría, 8(3), 177–203. https://
doi.org/10.1007/BF02016935.
Potter, RWK, Szomszor, M. y Adams, J. (2020). Interpretación de los CNCI a escala nacional: el efecto del tipo de colaboración
nacional e internacional. Revista de Informetricia, 14(4), 101075.
ÁRBITRO. (2019). Orientación sobre las presentaciones. Marco de excelencia en investigación 2019/01. https://www.ref.ac.uk/
publicaciones/orientación­sobre­presentaciones­201901/. Consultado por última vez el 15 de abril de 2020.
Seglen, PO (1992). La asimetría de la ciencia. Revista de la Sociedad Estadounidense de Ciencias de la Información,
43(9), 628–638.
Seglen, PO (1994). Relación causal entre la citación de un artículo y el impacto de la revista. Revista de la Sociedad
Estadounidense de Ciencias de la Información, 45(1), 1–11. https://doi.org/10.1002/(sici)1097­4571(19940
1)45:1%3c1:aid­asi1%3e3.0.co;2­y.
Shen, Z., Yang, L., Di, Z. y Wu, J. (2019). Tamaño de muestra lo suficientemente grande como para clasificar dos grupos de
datos de manera confiable según sus medias. Cienciometría, 118(2), 653–671. https://doi.org/10.1007/s1119
2­018­2995­0.
Pequeño, H. (1973). Co­citación en la literatura científica: una nueva medida de la relación entre dos documentos. Revista de la
Sociedad Estadounidense de Ciencias de la Información, 24(4), 265–269.
Thelwall, M. (2016). La precisión de la media aritmética, la media geométrica y los percentiles para los datos de citas: un enfoque
de modelado de simulación experimental. Revista de Informetrics, 10(1), 110–123. https://doi.
org/10.1016/j.joi.2015.12.001.
Waltman, L. (2016). Una revisión de la literatura sobre indicadores de impacto de citas. Revista de Informetricia, 10 (2),
365–391. https://doi.org/10.1016/j.joi.2016.02.007.
White, HD y Grifth, BC (1981). Cocita del autor: una medida literaria de la estructura intelectual.
Revista de la Sociedad Estadounidense de Ciencias de la Información, 32, 163–171.

13

También podría gustarte