Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Primera edición
2023.08.30
ICS 03.120.30
Número de referencia
NCh3800:2023
ISO 13528:2022
113 páginas
© INN 2023
Impreso por: Pablo Medina Dávila Solicitado por: Monica Vega
NCh3800:2023
ISO 13528:2022
Contenido Página
Preámbulo .........................................................................................................................................viii
0 Introducción .......................................................................................................................ix
0.1 Los propósitos de los ensayos de aptitud ......................................................................ix
0.2 Justificación de la puntuación en los programas de ensayos de aptitud ...................ix
0.3 ISO 13528 e ISO/IEC 17043 ...............................................................................................ix
0.4 Experiencia estadística......................................................................................................x
0.5 Software de computadora .................................................................................................x
1 Alcance................................................................................................................................1
2 Referencias normativas .....................................................................................................1
3 Términos y definiciones ....................................................................................................2
4 Principios generales ..........................................................................................................6
4.1 Requisitos generales para los métodos estadísticos.....................................................6
Anexos
Anexo A (normativo) Símbolos..........................................................................................................51
Anexo B (informativo) Homogeneidad y estabilidad de los ítems de ensayo de aptitud .............53
B.1 Procedimiento general para un control de homogeneidad ..........................................53
B.2 Criterios de evaluación para un control de homogeneidad .........................................54
B.3 Fórmulas para el control de homogeneidad ..................................................................56
B.4 Procedimientos para comprobar la estabilidad ............................................................58
B.4.1 Consideraciones generales para comprobar la estabilidad ........................................58
© ISO 2022 - Todos los derechos reservados
iv © INN 2023 - Para la adopción nacional
Figuras
Figura E.1 – Resultados clasificados de los participantes para Atrazina
(datos de la Tabla E.4) ......................................................................................................86
Figura E.2 – Histograma de los resultados de los participantes ..................................................87
Figura E.3 – Gráfica de densidad kernel para los resultados de los participantes ....................87
Figura E.4 – Resumen de estadísticos robustos de Tabla E.5 ......................................................88
Figura E.5 – Resultados de los participantes e incertidumbres para los resultados
en IMEP 111 (datos de la Tabla E.6) ................................................................................90
Figura E.6 – Gráfica de densidad kernel para los resultados de los participantes ....................91
Figura E.7 – Gráfica de densidad kernel para los resultados de los participantes ....................94
Figura E.8 – Desviación estándar relativa de los resultados de los participantes (%)
frente al valor de referencia asignado (µg/L) .................................................................96
Figura E.9 – Desviación estándar del participante (µg/l) frente al valor asignado (µg/l)............97
Figura E.10 – Gráfico de barras de puntuaciones z (4,0 a −4,0) para una ronda de
un programa de ensayo de aptitud en el que los participantes determinaron las
concentraciones de tres anticuerpos IgE específicos de alérgenos ..........................98
Figura E.11 – Gráfico de Youden de puntuaciones z de la Tabla E.10 ..........................................99
Figura E.12 – Gráfica de desviaciones estándar contra promedios de 25 participantes
(datos de la Tabla E.10) ..................................................................................................102
Figura E.13 – Puntuaciones de desempeño para cada ronda del programa de
ensayos de aptitud (datos de la Tabla E.12) .................................................................104
Tablas
Tabla B.1 – Factores F1 y F2 para usar en el test de homogeneidad suficiente ..........................55
Tabla C.1 – Factores requeridos para un análisis robusto: Algoritmo S .....................................67
Tabla C.2 – Factor de corrección bp para 2 ≤ p ≤ 12.......................................................................69
Tabla D.1 – Puntos de ruptura para los estimadores de la media y la desviación estándar
(proporción de valores atípicos que pueden conducir a la falla del estimador) ........78
Tabla D.2 – Eficiencia relativa de estimadores robustos para la media y desviación
estándar de la población, para conjuntos de datos normalmente distribuidos
Preámbulo
El Instituto Nacional de Normalización, INN, es el organismo que tiene a su cargo el estudio y preparación
de las normas técnicas a nivel nacional. Es miembro de la INTERNATIONAL ORGANIZATION FOR
STANDARDIZATION (ISO) y de la COMISION PANAMERICANA DE NORMAS TECNICAS (COPANT),
representando a Chile ante esos organismos.
Esta norma se estudió a través del Comité Técnico CL040 Metrología, para proporcionar descripciones
detalladas de métodos estadísticos para que los proveedores de ensayos de aptitud utilicen para
diseñar programas de ensayos de aptitud y para analizar los datos obtenidos de esos programas.
Esta norma es una traducción idéntica de la versión en inglés de la Norma Internacional ISO 13528:2022
Statistical methods for use in proficiency testing by interlaboratory comparison.
Para los propósitos de esta norma, se han realizado los cambios editoriales que se indican y justifican
Esta norma ha sido aprobada por el Consejo del Instituto Nacional de Normalización, en sesión
efectuada el 30 de agosto de 2023.
En la medida permitida por la legislación aplicable, el INN no es responsable de ningún daño directo,
indirecto, punitivo, incidental, especial, consecuencial o cualquier daño que surja o esté conectado con
el uso o el uso indebido de este documento.
0 Introducción
0.1 Los propósitos de los ensayos de aptitud
Los ensayos de aptitud (EA) involucran el uso de comparaciones interlaboratorio para determinar el
desempeño de los participantes (que pueden ser laboratorios, organismos de inspección o individuos)
para ensayos o mediciones específicas, y para monitorear su desempeño continuo. Hay una serie de
propósitos típicos de los ensayos de aptitud, como se describe en la Introducción a ISO/IEC 17043.
Estos incluyen la evaluación del desempeño del laboratorio, la identificación de problemas en los
laboratorios, el establecimiento de la efectividad y la comparabilidad de los métodos de ensayo o
medición, la provisión de confianza adicional a los clientes del laboratorio, la validación de declaraciones
de incertidumbre y la educación de los laboratorios participantes. El diseño estadístico y las técnicas
analíticas aplicadas deben ser apropiados para los fines declarados.
Hay una variedad de estrategias de puntuación disponibles y en uso para los ensayos de aptitud.
Aunque los cálculos detallados difieren, la mayoría de los programas de ensayos de aptitud comparan
la desviación del participante de un valor asignado con un criterio numérico que se utiliza para decidir si
la desviación representa o no un motivo de preocupación. Las estrategias utilizadas para la asignación
de valor y para elegir un criterio para la evaluación de las desviaciones de los participantes son,
por lo tanto, críticas. En particular, es importante considerar si el valor asignado y el criterio para
evaluar las desviaciones deberían ser independientes de los resultados de los participantes o
deberían derivarse de los resultados presentados. En esta norma se presentan ambas estrategias.
Sin embargo, tener en consideración la discusión que se encontrará en las cláusulas 7 y 8 de las
ventajas y desventajas de elegir valores asignados o criterios para evaluar desviaciones que no se
derivan de los resultados de los participantes. Se verá que, en general, elegir los valores asignados y
los criterios de evaluación independientemente de los resultados de los participantes ofrece ventajas.
Este es particularmente el caso del criterio utilizado para evaluar las desviaciones del valor asignado,
como la desviación estándar para la evaluación de la aptitud o una tolerancia para el error de medición,
para el cual una elección coherente basada en la idoneidad para un uso final particular de los resultados
de la medición, es especialmente útil.
Esta norma proporciona apoyo para la implementación de ISO/IEC 17043 en particular, sobre los
requisitos para el diseño estadístico, la validación de ítems de ensayo de aptitud, la revisión de
resultados y la presentación de informes estadísticos resumidos. ISO/IEC 17043:2010, Anexo B,
describe brevemente los métodos estadísticos generales que se utilizan en los programas de ensayos
de aptitud. Esta norma pretende ser complementaria a ISO/IEC 17043, que proporciona una guía
detallada que falta en ese documento sobre métodos estadísticos particulares para ensayos de aptitud.
La definición de ensayo de aptitud en ISO/IEC 17043 se repite en esta norma, con las notas que
describen los diferentes tipos de ensayos de aptitud y la gama de diseños que se pueden utilizar. Esta
norma no puede cubrir específicamente todos los propósitos, diseños, matrices y mensurandos. Las
técnicas presentadas en esta norma están destinadas a ser ampliamente aplicables, especialmente
para programas de ensayos de aptitud recientemente establecidos. Se espera que las técnicas
estadísticas utilizadas para un esquema particular de ensayos de aptitud evolucionen a medida que el
esquema madure; y las puntuaciones, los criterios de evaluación y las técnicas gráficas se refinarán
para satisfacer mejor las necesidades específicas de un grupo objetivo de participantes, organismos
de acreditación y autoridades reguladoras.
Esta norma incorpora una orientación publicada para los ensayos de aptitud de los laboratorios de
análisis químico[32] pero, además, incluye una gama más amplia de procedimientos para permitir
su uso con métodos de medición válidos e identificaciones cualitativas. La revisión de esta norma
contiene la mayoría de los métodos estadísticos y la orientación de la primera edición, ampliados
según sea necesario por los documentos mencionados anteriormente y el alcance ampliado de
ISO/IEC 17043. La ISO/IEC 17043 incluye ensayos de aptitud para individuos y organismos de
inspección, incluido ISO/IEC 17043:2010, Anexo B, que incluye consideraciones para resultados
cualitativos.
Esta norma incluye técnicas estadísticas que son coherentes con otras Normas Internacionales, en
particular las de TC 69/SC6, en particular la serie de normas ISO 5725 sobre Exactitud: veracidad
y precisión. Las técnicas también están destinadas a reflejar otras Normas Internacionales, cuando
corresponda, y están destinadas a ser coherentes con ISO/IEC Guide 98-3 (GUM) e ISO/IEC Guide 99
(VIM).
La ISO/IEC 17043 requiere que, para ser competente, un proveedor de ensayos de aptitud debe tener
acceso a conocimientos estadísticos y debe autorizar a personal específico para realizar análisis
estadísticos. Ni ISO/IEC 17043 ni esta norma puede especificar más cuál es esa experiencia necesaria.
Para algunas aplicaciones es útil un título avanzado en estadística, pero por lo general las necesidades
de experiencia pueden ser satisfechas por personas con experiencia técnica en otras áreas, que
estén familiarizadas con los conceptos estadísticos básicos y tengan experiencia o capacitación en las
técnicas comunes aplicables al análisis de datos, datos de programas de ensayos de aptitud. Si una
persona es responsable del diseño y/o análisis estadístico, es muy importante que tenga experiencia
en comparaciones interlaboratorio, incluso si esa persona tiene un título avanzado en estadística. La
capacitación estadística avanzada convencional a menudo no incluye ejercicios con comparaciones
interlaboratorio, y las causas únicas de error de medición que ocurren en los ensayos de aptitud
pueden parecer ajenas. La guía de esta norma no puede proporcionar toda la experiencia necesaria
para considerar todas las aplicaciones y no puede reemplazar la experiencia adquirida al trabajar con
comparaciones interlaboratorio.
El software de computadora que se necesita para el análisis estadístico de los datos de los ensayos
de aptitud puede variar mucho, desde la aritmética de una hoja de cálculo simple para programas de
ensayos de aptitud pequeños que usan valores de referencia conocidos hasta el software estadístico
sofisticado que se usa para métodos estadísticos que dependen de cálculos iterativos u otros
métodos numéricos avanzados. La mayoría de las técnicas de esta norma se pueden lograr mediante
aplicaciones de hojas de cálculo convencionales, tal vez con rutinas personalizadas para un esquema
o análisis de ensayo de aptitud en particular; algunas técnicas requerirán aplicaciones informáticas que
están disponibles gratuitamente. En todos los casos, se espera que los usuarios verifiquen la validez
y precisión de sus cálculos, especialmente cuando el usuario haya ingresado rutinas especiales.
Sin embargo, aun cuando las técnicas en esta norma sean apropiadas y correctamente implementadas
por aplicaciones informáticas adecuadas, no se pueden aplicar sin la atención de una persona con
conocimientos técnicos y estadísticos suficientes para comprender la naturaleza de las aplicaciones
y los supuestos estadísticos, y para identificar e investigar anomalías que pueden ocurrir en cualquier
ronda de un programa de ensayos de aptitud.
1 Alcance
Esta norma proporciona descripciones detalladas de métodos estadísticos para que los proveedores
de ensayos de aptitud utilicen para diseñar programas de ensayos de aptitud y para analizar los datos
obtenidos de esos programas. Esta norma proporciona recomendaciones sobre la interpretación de
los datos de los ensayos de aptitud por parte de los participantes en tales programas de ensayos de
aptitud y por parte de los organismos de acreditación.
Los procedimientos de esta norma se pueden aplicar para demostrar que los resultados de medición
obtenidos por laboratorios, organismos de inspección e individuos cumplen con los criterios
especificados para un desempeño aceptable.
Esta norma es aplicable a los ensayos de aptitud donde los resultados informados son mediciones
cuantitativas u observaciones cualitativas en ítems de ensayo.
NOTA Los procedimientos de esta norma también se pueden aplicar para la evaluación de la opinión de expertos
donde las opiniones o juicios se informan en una forma que se puede comparar objetivamente con un valor de referencia
independiente o un estadístico de consenso. Por ejemplo, cuando se clasifiquen ítems de ensayos de aptitud en categorías
conocidas mediante inspección, o al determinar mediante inspección si los ítems de ensayos de aptitud surgen o no de
la misma fuente original, y los resultados de la clasificación se comparan objetivamente, las disposiciones de esta norma
que relacionar con propiedades nominales (cualitativas).
2 Referencias normativas
Los documentos siguientes son indispensables para la aplicación de esta norma. Para referencias
con fecha, sólo se aplica la edición citada. Para referencias sin fecha se aplica la última edición del
documento referenciado (incluyendo cualquier enmienda).
ISO 3534-1, Statistics - Vocabulary and symbols - Part 1: General statistical terms and terms used in
probability.
ISO 5725-1, Accuracy (trueness and precision) of measurement methods and results - Part 1: General
principles and definitions.
ISO/IEC 17043, Evaluación de la conformidad - Requisitos generales para los ensayos de aptitud.
ISO/IEC Guide 99, International vocabulary of metrology - Basic and general concepts and associated
terms (VIM).
La equivalencia de las Normas Internacionales señaladas anteriormente con Norma Chilena, y su grado de
correspondencia es el siguiente:
3 Términos y definiciones
Para los propósitos de esta norma, se aplican los términos y definiciones dados en ISO 3534-1,
ISO 3534-2, ISO 5725-1, ISO/IEC 1704-3, ISO/IEC Guide 99, ISO Guide 30, y los siguientes. En el
caso de diferencias entre estas referencias sobre el uso de términos, las definiciones en ISO 3534-1,
ISO 3534-2 aplican. Los símbolos matemáticos se enumeran en el Anexo A.
ISO e IEC mantienen bases terminológicas que se pueden utilizar para normalización en las siguientes
direcciones:
3.1
comparación interlaboratorio
organización, realización y evaluación de mediciones o ensayos sobre el mismo ítem o ítems similares
por dos o más laboratorios de acuerdo con condiciones predeterminadas
3.2
ensayo de aptitud
evaluación del desempeño de los participantes con respecto a criterios previamente establecidos a
través de comparaciones interlaboratorio (3.1)
Nota 1 a la entrada: Para los propósitos de esta norma, el término “ensayo de aptitud” se toma en su sentido más amplio
e incluye, pero no se limita a:
— programa cuantitativo - donde el objetivo es cuantificar uno o más mensurandos del ítem de ensayo de aptitud;
— programa cualitativo - donde el objetivo es identificar o describir una o más características cualitativas del ítem de
ensayo de aptitud;
— programa secuencial - donde uno o más ítems de ensayo de aptitud se distribuyen secuencialmente para ensayo o
medición y se devuelven a intervalos al proveedor de ensayos de aptitud;
— programa simultáneo - donde se distribuyen ítems de ensayo de aptitud para ensayos o mediciones simultáneas en un
— ejercicio aislado - donde los ítems de ensayo de aptitud se proporcionan por única vez;
— programa continuo - donde los ítems de ensayo de aptitud se proporcionan a intervalos regulares;
— muestreo - donde se toman muestras para su posterior análisis y el propósito del programa de ensayo de aptitud incluye
la evaluación de la ejecución del muestreo; y
— interpretación de datos - donde se proveen conjuntos de datos u otra información y se procesa la información para
proporcionar una interpretación (u otro resultado).
3.3
valor asignado
valor atribuido a una propiedad particular de un ítem de ensayo de aptitud
3.4
desviación estándar para la evaluación de la aptitud
medida de la dispersión utilizada en la evaluación de los resultados de los ensayos de aptitud (3.2)
Nota 1 a la entrada: Esto se puede interpretar como la desviación estándar de la población de los resultados de una
población hipotética de laboratorios que funcionan exactamente de acuerdo con los requisitos.
Nota 2 a la entrada: La desviación estándar para la evaluación de la aptitud se aplica únicamente a los resultados de la
escala de relación y de intervalo.
Nota 3 a la entrada: No todos los programas de ensayos de aptitud evalúan el desempeño sobre la base de la dispersión
de los resultados.
3.5
error de medición
valor de la cantidad medida menos un valor de la cantidad de referencia
3.6
error máximo permitido
valor extremo del error de medición (3.5), con respecto a un valor de cantidad de referencia conocido,
permitido por especificaciones o reglamentos para una medición, instrumento de medición o sistema
de medición dado
3.7
puntuación z
Nota 1 a la entrada: Una variación común en la puntuación z, a veces denominada z’ (comúnmente pronunciado z-primo),
se forma combinando la incertidumbre del valor asignado con la desviación estándar para la evaluación de la aptitud
antes de calcular la puntuación z.
3.8
puntuación zeta
medida normalizada de desempeño, calculada utilizando el resultado del participante, el valor
asignado (3.3) y las incertidumbres estándar combinadas para el resultado y el valor asignado (3.3)
3.9
proporción de la puntuación límite permitida
medida normalizada de desempeño, calculada utilizando el resultado del participante, el valor
asignado (3.3) y el criterio de error de medición (3.5) en un ensayo de aptitud
Nota 1 a la entrada: Para resultados únicos, el desempeño se puede expresar como la desviación del valor
asignado (D o D%).
3.10
señal de acción
indicación de la necesidad de una acción que surja del resultado de un ensayo de aptitud
EJEMPLO Una puntuación z superior a 2 se toma convencionalmente como una indicación de la necesidad de investigar
las posibles causas; una puntuación z de 3 o mayor se toma convencionalmente como una señal de acción que indica la
necesidad de una acción correctiva.
3.11
valor de consenso
valor derivado de una colección de resultados en una comparación interlaboratorio (3.1)
Nota 1 a la entrada: La frase “valor de consenso” se usa típicamente para describir estimaciones de localización y
dispersión derivadas de los resultados de los participantes en una ronda de un programa de ensayo de aptitud, pero
también puede usarse para referirse a valores derivados de los resultados de un subconjunto especificado de tales
resultados o, por ejemplo, de varios laboratorios expertos.
3.12
valor atípico
miembro de un conjunto de valores que no concuerda con otros miembros de dicho conjunto
Nota 1 a la entrada: Un valor atípico puede surgir por casualidad de la población esperada, originarse en una población
diferente o ser el resultado de un registro incorrecto u otro error aberrante.
Nota 2 a la entrada: Muchos programas de ensayos de aptitud usan el término valor atípico para designar un resultado
que genera una señal de acción. Este no es el uso previsto del término. Si bien los valores atípicos generalmente
generarán señales de acción, es posible tener señales de acción de resultados que no sean atípicos.
3.13
participante
laboratorio, organización o persona que recibe ítems de ensayo de aptitud y presenta los resultados
para su revisión por el proveedor de ensayos de aptitud (3.2)
3.14
ítem de ensayo de aptitud
muestra, producto, artefacto, material de referencia, parte de un equipo, patrón de medición, conjunto
de datos u otra información utilizada para evaluar el desempeño del participante (3.13) en los ensayos
de aptitud (3.2)
Nota 1 a la entrada: En la mayoría de los casos, los ítems de ensayo de aptitud cumplen con la definición ISO Guide 30
de “material de referencia” (3.17).
3.15
proveedor de ensayos de aptitud
organización que es responsable de todas las tareas relacionadas con el desarrollo y la operación de
un programa de ensayos de aptitud (3.2)
3.16
programa de ensayos de aptitud
ensayos de aptitud (3.2) diseñados y operados en una o más rondas para un área específica de
ensayo, medición, calibración o inspección
Nota 1 a la entrada: Un programa de ensayos de aptitud puede cubrir un tipo particular de ensayo, calibración, inspección
o varios de ensayos, calibraciones o inspecciones de ítems de ensayos de aptitud.
3.17
material de referencia
MR
material, suficientemente homogéneo y estable con respecto a una o más propiedades especificadas,
que se ha establecido como apto para su uso previsto en un proceso de medición
Nota 2 a la entrada: Las propiedades pueden ser cuantitativas o cualitativas, por ejemplo, la identidad de sustancias o
especies.
Nota 3 a la entrada: Los usos pueden incluir la calibración de un sistema de medición, la evaluación de un procedimiento
de medición, la asignación de valores a otros materiales y el control de calidad.
3.18
material de referencia certificado
MRC
material de referencia (MR) (3.17) caracterizado por un procedimiento metrológicamente válido para
una o más propiedades especificadas, acompañado por un certificado de MR que proporciona el valor
de la propiedad especificada, su incertidumbre asociada y una declaración de trazabilidad metrológica
Nota 1 a la entrada: El concepto de valor incluye una propiedad nominal o un atributo cualitativo como identidad o
secuencia. Las incertidumbres de tales atributos pueden expresarse como probabilidades o niveles de confianza.
[FUENTE: ISO Guide 30:2015, modificado - Se han eliminado las Notas 2, 3 y 4.]
4 Principios generales
4.1 Requisitos generales para los métodos estadísticos
4.1.1 Los métodos estadísticos utilizados deben ser adecuados para su propósito y estadísticamente
válidos. Cualquier supuesto estadístico en la que se basen los métodos o el diseño debe establecerse
en el diseño o en una descripción escrita del programa de ensayo de aptitud, y debe demostrarse que
estos supuestos son razonables.
NOTA Un método estadísticamente válido tiene una base teórica robusta, tiene un desempeño conocido en las
condiciones de uso esperadas y se basa en supuestos o condiciones que se puede demostrar que se aplican a los datos
lo suficientemente bien para el propósito en cuestión.
4.1.2 El diseño estadístico y las técnicas de análisis de datos deben ser coherentes con los objetivos
establecidos para el programa de ensayos de aptitud.
4.1.3 El proveedor de ensayos de aptitud debe proporcionar a los participantes una descripción de
los métodos de cálculo utilizados, una explicación de la interpretación general de los resultados y
una declaración de cualquier limitación relacionada con la interpretación. Esta descripción debe estar
disponible en cada informe para cada ronda del programa de ensayos de aptitud o en un resumen de
procedimientos por separado que esté disponible para los participantes.
4.1.4 El proveedor de ensayos de aptitud debe asegurarse de que todo el software esté adecuadamente
validado.
4.2.1 Para resultados cuantitativos en programas de ensayos de aptitud donde se reporta un solo
resultado para un ítem de ensayo de aptitud dado, el modelo básico se da en la Ecuación (1).
xi = µ + εi (1)
en que:
NOTA 1 Los modelos comunes para ε incluyen: la distribución normal εi ∼ N(0, σ2) con media 0 y varianza constante
o diferente para cada laboratorio; o más comúnmente, una distribución ‘normal contaminada con valores atípicos’ que
consiste en una mezcla de una distribución normal con una distribución más amplia que representa la población de
resultados erróneos.
NOTA 2 La base de la evaluación del desempeño con puntuaciones z y σpt es que en una población “idealizada” de
laboratorios competentes, la desviación estándar de los resultados de los ensayos de aptitud sería σpt o menos.
NOTA 3 Este modelo difiere del modelo básico en ISO 5725, ya que no incluye el término de sesgo de
laboratorio Bi. Esto se debe a que los términos de sesgo de laboratorio y error residual no se pueden distinguir cuando
se informa solo una observación. Sin embargo, cuando se consideren los resultados de un participante de varias rondas
o ítems de ensayo dentro del programa de ensayo de aptitud, puede ser útil incluir un término separado para el sesgo de
laboratorio.
4.2.2 Para resultados ordinales o cualitativos, pueden ser apropiados otros modelos, o podría no
haber un modelo estadístico.
4.3.1 Hay tres enfoques generales diferentes para evaluar el desempeño en un programa de ensayos
de aptitud. Estos enfoques se utilizan para cumplir diferentes propósitos para el programa de ensayos
de aptitud. Los enfoques se enumeran a continuación:
4.3.2 Los enfoques generales pueden aplicarse de manera diferente para determinar el valor asignado
y para determinar los criterios para la evaluación del desempeño; por ejemplo, cuando el valor asignado
es la media robusta de los resultados de los participantes y la evaluación del desempeño se deriva
de σpt o δE, donde δE es una tolerancia predefinida para el error de medición y σpt = δE/3; de manera
similar, en algunas situaciones, el valor asignado puede ser un valor de referencia, pero σpt puede ser
una desviación estándar robusta de los resultados de los participantes. En el enfoque c) que utiliza la
incertidumbre de la medición, el valor asignado suele ser un valor de referencia adecuado.
Los ensayos de aptitud se ocupan de la evaluación del desempeño de los participantes y, como tales,
no abordan específicamente el sesgo o la precisión (aunque estos pueden evaluarse con diseños
específicos). El desempeño de los participantes se evalúa a través de la evaluación estadística de sus
resultados en base a las mediciones o interpretaciones que realizan sobre los ítems de ensayo de
aptitud. El desempeño a menudo se expresa en forma de puntuaciones de desempeño que permiten
una interpretación coherente a través de un rango de medidas y pueden permitir que los resultados
de diferentes medidas se comparen en igualdad de condiciones. Las puntuaciones de desempeño
generalmente se obtienen al comparar la diferencia entre el resultado de un participante informado y
© ISO 2022 - Todos los derechos reservados
© INN 2023 - Para la adopción nacional 7
Impreso por: Pablo Medina Dávila Solicitado por: Monica Vega
NCh3800:2023
ISO 13528:2022
un valor asignado con una desviación permitida o con una estimación de la incertidumbre de medición
de la diferencia. El examen de las puntuaciones de desempeño en múltiples rondas de un programa
de ensayo de aptitud puede proporcionar información sobre si los laboratorios individuales muestran
evidencia de efectos sistemáticos coherentes (“sesgo”) o poca precisión a largo plazo.
Las siguientes cláusulas 5 a 10 brindan orientación sobre el diseño de programas de ensayos de aptitud
cuantitativas y sobre el tratamiento estadístico de los resultados, incluido el cálculo y la interpretación
de varias puntuaciones de desempeño. Las consideraciones para los programas de ensayos de aptitud
cualitativas (incluidos los esquemas ordinales) se dan en la cláusula 11.
5.2.1 Según ISO/IEC 17043:2010, 4.4.4.1, el diseño estadístico “debe ser desarrollado para cumplir
con los objetivos del programa de ensayos de aptitud, basado en la naturaleza de los datos (cuantitativos
o cualitativos incluyendo ordinales y categóricos), supuestos estadísticos, la naturaleza de los errores,
y el número esperado de resultados”. Por lo tanto, los programas de ensayos de aptitud con diferentes
Las consideraciones de diseño para los objetivos comunes se enumeran a continuación. Otros objetivos
son posibles.
EJEMPLO 1 Para que un programa de ensayo de aptitud compare el resultado de un participante con un valor de
referencia predeterminado y dentro de los límites que se especifican antes de que comience la ronda, el diseño debe
incluir un método para obtener un valor de referencia definido externamente, un método para establecer límites, y un
método de puntuación.
EJEMPLO 2 Para que un programa de ensayo de aptitud compare el resultado de un participante con los resultados
combinados de un grupo en la misma ronda, y los límites que se especifican antes de que comience la ronda, el diseño
también debe considerar cómo se determinará el valor asignado a partir de los resultados combinados así como también
los métodos para establecer límites y puntuación.
EJEMPLO 3 Para que un programa de ensayo de aptitud compare el resultado de un participante con los resultados
combinados de un grupo en la misma ronda, y los límites determinados por la variabilidad de los resultados de los
participantes, el diseño debe considerar el cálculo de un valor asignado y una medida apropiada de dispersión así como
también el método de puntuación.
EJEMPLO 4 Para que un programa de ensayo de aptitud compare el resultado de un participante con el valor
asignado, utilizando la propia incertidumbre de medición del participante, el diseño debe considerar cómo se obtendrán el
valor asignado y su incertidumbre y cómo se utilizarán las incertidumbres de medición del participante en la puntuación.
EJEMPLO 5 Para un programa de ensayo de aptitud con el objetivo de comparar el desempeño de diferentes métodos
de medición, el diseño debe considerar los estadísticos de resumen pertinentes y los procedimientos para calcularlos.
5.2.2 Hay varios tipos de datos utilizados en los ensayos de aptitud, incluidos los cuantitativos,
nominales (categóricos) y ordinales. Entre las variables cuantitativas, algunos resultados pueden
estar en una escala de intervalo; o una relativa, o escala de razón. Para algunas mediciones
en una escala cuantitativa, solo se puede realizar un conjunto discreto y discontinuo de valores
(por ejemplo, diluciones secuenciales); sin embargo, en muchos casos estos resultados pueden
tratarse mediante técnicas aplicables a variables cuantitativas continuas.
NOTA 1 Para valores cuantitativos, una escala de intervalo es una escala en la que los intervalos (diferencias) son
significativos pero las relaciones no lo son, como la escala de temperatura Celsius. Una escala de razón es una escala
en la que tanto los intervalos como las razones son significativos, como la escala de temperatura Kelvin o las unidades
de longitud más comunes.
NOTA 2 Para valores cualitativos, una escala categórica tiene valores distintos para los cuales el orden no es
significativo, como los nombres de las especies bacterianas. Los valores en una escala ordinal tienen un orden significativo
pero las diferencias no son significativas; por ejemplo, se puede ordenar una escala como ‘grande, mediana, pequeña’
pero las diferencias entre los valores no están definidas más que en términos del número de valores intermedios.
5.2.3 Los programas de ensayos de aptitud pueden utilizarse para otros fines además de los
anteriores, como se explica en 0.1 y en ISO/IEC 17043. El diseño debe ser apropiado para todos los
propósitos establecidos para el programa de ensayos de aptitud en particular.
5.3.1 La subcláusula 4.4.4.2 de ISO/IEC 17043:2010 requiere que las técnicas de análisis estadístico
sean coherentes con los supuestos estadísticos para los datos. Las técnicas de análisis más comunes
para los ensayos de aptitud suponen que un conjunto de resultados de participantes competentes
se distribuirá de forma aproximadamente normal, o al menos unimodal y razonablemente simétrico
(después de la transformación, si es necesario). Un supuesto adicional común es que la distribución
de resultados de mediciones determinadas de manera competente se mezcla (o “contamina”) con
resultados de una población de valores erróneos que pueden generar valores atípicos. Por lo general,
la interpretación de la puntuación se basa en el supuesto de normalidad, pero solo para la distribución
subyacente asumida para los participantes competentes.
5.3.2 Por lo general, no es necesario verificar que los resultados se distribuyen normalmente, pero es
importante verificar la simetría aproximada, al menos visualmente. Si no se puede verificar la simetría,
el proveedor de ensayos de aptitud debería usar técnicas que sean robustas a la asimetría.
— métodos de estimación que incorporen supuestos de distribución apropiados (por ejemplo, ajuste
de máxima verosimilitud con supuestos de distribución adecuados y, si es necesario, rechazo de
valores atípicos).
EJEMPLO 1 Los resultados basados en la dilución, como los recuentos microbiológicos cuantitativos o las técnicas
de inmunoensayo, a menudo se distribuyen según la distribución normal logarítmica, por lo que una transformación
logarítmica puede ser adecuada como primer paso del análisis.
EJEMPLO 2 Los conteos de pequeñas cantidades de partículas se pueden distribuir de acuerdo con una distribución
de Poisson y, por lo tanto, los criterios para la evaluación del desempeño se pueden determinar utilizando una tabla de
probabilidades de Poisson, con base en el conteo promedio del grupo de participantes.
NOTA 1 La transformación de los datos puede afectar el tratamiento y la interpretación de las incertidumbres asociadas
con los resultados de los participantes y el valor asignado.
NOTA 2 El Anexo C proporciona información adicional sobre el tratamiento de las distribuciones asimétricas con
valores atípicos y el Ejemplo E.6 proporciona un ejemplo de un método de estimación que es resistente a la asimetría.”
5.3.4 En algunas áreas de calibración, los resultados de los participantes pueden seguir distribuciones
estadísticas que se describen en el procedimiento de medición (por ejemplo, exponencial o una
forma de onda); estas distribuciones definidas deberían ser consideradas en cualquier protocolo de
evaluación.
5.3.5 Según ISO/IEC 17043:2010, 4.4.4.2, el proveedor de ensayos de aptitud debe establecer la base
de cualquier supuesto estadístico y demostrar que los supuestos son razonables. Esta demostración
puede basarse, por ejemplo, en los datos observados, los resultados de rondas anteriores del programa
de ensayos de aptitud o la literatura técnica.
5.4.1 El diseño estadístico para un programa de ensayos de aptitud debe considerar el número mínimo
de participantes que se necesitan para cumplir con los objetivos del diseño y establecer enfoques
alternativos que se utilizarán si no se logra el número mínimo [ISO/IEC 17043:2010, 4.4.4.3 b)]. Los
métodos estadísticos que son apropiados para un gran número de participantes pueden no serlo
para un número limitado de participantes. Las preocupaciones son que los estadísticos determinados
a partir de un pequeño número de resultados de los participantes pueden no ser lo suficientemente
confiables, y un participante podría ser evaluado frente a un grupo de comparación inadecuado.
NOTA El Informe Técnico de IUPAC/CITAC: Selection and use of proficiency testing schemes for a limited number
of participants[24] proporciona una guía útil para los programas de ensayos de aptitud donde hay pocos participantes. En
resumen, el informe IUPAC/CITAC recomienda que el valor asignado se debería basar en mediciones independientes
confiables; por ejemplo, mediante el uso de un material de referencia certificado, asignación independiente por parte
de un instituto nacional de calibración o metrología, o mediante preparación gravimétrica. El informe establece además
que la desviación estándar para la evaluación de la aptitud puede no estar basada en la dispersión observada entre los
resultados de los participantes para una sola ronda de un programa de ensayo de aptitud.
5.4.2 El número mínimo de participantes necesarios para los diversos métodos estadísticos
dependerá de una variedad de situaciones:
— los métodos estadísticos utilizados, por ejemplo, el método robusto en particular o la estrategia
elegida de eliminación de valores atípicos;
— la experiencia del proveedor de ensayos de aptitud con la matriz, mensurando, métodos y grupo
de participantes;
En cláusula D.1 se proporciona más orientación sobre técnicas para manejar un pequeño número de
participantes.
5.5.1.1 Es un requisito de ISO/IEC 17043: 2010, 4.6.1.2, que los proveedores de ensayos de aptitud
instruyen a los participantes para que realicen mediciones e informen los resultados de los ítems
de ensayo de aptitud de la misma manera en que realizan sus mediciones rutinarias, excepto en
circunstancias especiales.
© ISO 2022 - Todos los derechos reservados
10 © INN 2023 - Para la adopción nacional
5.5.1.2 Este requisito puede, en algunas situaciones, dificultar la obtención de una evaluación exacta
de la precisión y veracidad de los participantes, o la competencia con un procedimiento de medición.
El proveedor de ensayos de aptitud debería adoptar un formato de informe coherente para el programa
de ensayos de aptitud pero, en lo posible, debería usar unidades que sean familiares para la mayoría
de los participantes y elegir un formato de informe que minimice la transcripción y otros errores. Esto
puede incluir advertencias automáticas de unidades inapropiadas cuando se sabe que los participantes
informan rutinariamente en unidades distintas a las requeridas por el programa de ensayos de aptitud.
NOTA 1 Para algunos programas de ensayos de aptitud, un objetivo es evaluar la capacidad de un participante para
seguir un método normalizado (por ejemplo, requerido oficialmente o normalizado internacionalmente), que podría incluir
el uso de una unidad de medida particular o un número de dígitos significativos.
NOTA 2 Los errores de transcripción en la recopilación de resultados por parte del proveedor de ensayos de aptitud
pueden reducirse o eliminarse sustancialmente mediante el uso de sistemas de informes electrónicos que permitan a los
participantes ingresar sus propios datos directamente.
5.5.3.1 Cuando la práctica convencional de reporte sea informar los resultados como ‘menor que’ o
‘mayor que’ un límite (como un nivel de calibración o un límite de cuantificación) y cuando se requieran
resultados numéricos para una puntuación, el proveedor de ensayos de aptitud debe determinar cómo
los resultados serán procesados.
NOTA 1 Una opción del procedimiento de puntuación podría ser no puntuar dichos datos y/o informar si el límite
superior (o inferior) informado por el participante es coherente con el valor asignado.
NOTA 2 Solicitar a los participantes que informen valores numéricos fuera del rango normalmente informado
(por ejemplo, por debajo del límite de cuantificación del participante) permitirá el uso de métodos estadísticos que
requieren valores numéricos pero pueden dar como resultado puntuaciones que no reflejan el servicio de rutina del
participante a los clientes.
5.5.3.3 Cuando se utilizan estadísticos de consenso, puede que no sea posible evaluar el desempeño
si el número de valores censurados es lo suficientemente grande como para que la censura afecte a un
método robusto. En circunstancias en las que el número de resultados censurados sea suficiente para
afectar un método robusto, entonces los resultados deberían evaluarse utilizando métodos estadísticos
que permitan una estimación insesgada en presencia de datos censurados[21], o los resultados no
se deberían evaluar. En caso de duda sobre el efecto del procedimiento elegido, el proveedor de
ensayos de aptitud debería calcular estadísticas de resumen y evaluaciones de desempeño con cada
uno de los procedimientos estadísticos alternativos considerados potencialmente aplicables en las
circunstancias, e investigar la importancia de cualquier diferencia.
© ISO 2022 - Todos los derechos reservados
© INN 2023 - Para la adopción nacional 11
Impreso por: Pablo Medina Dávila Solicitado por: Monica Vega
NCh3800:2023
ISO 13528:2022
5.5.3.4 Cuando se esperen o se hayan observado resultados censurados tales como declaraciones
‘menor que’, el diseño del programa de ensayos de aptitud debería incluir disposiciones para la
puntuación y/u otra acción sobre los valores censurados informados por los participantes, y los
participantes deberían ser notificados de estas disposiciones.
NOTA La cláusula E.1 tiene un ejemplo de algunos enfoques de análisis para datos censurados. Este ejemplo
muestra estadísticos robustos de consenso con tres enfoques diferentes; con los valores censurados eliminados, con los
valores retenidos pero el signo “<” eliminado, y con los resultados reemplazados con la mitad del valor límite.
5.5.4.1 Por lo general, el número de dígitos significativos a reportar estará determinado por el diseño
del programa de ensayo de aptitud.
5.5.4.2 Al especificar el número de dígitos significativos a informar, el error de redondeo debería ser
insignificante en comparación con la variación esperada entre los participantes.
NOTA En algunas situaciones, el informe correcto es parte de la determinación de la competencia del participante,
y la cantidad de dígitos significativos y lugares decimales puede variar.
5.5.4.3 Cuando el número de dígitos reportados bajo condiciones de medición de rutina tiene un
efecto adverso apreciable en el tratamiento de datos por parte del proveedor de ensayos de aptitud
(por ejemplo, cuando los procedimientos de medición requieren reportar un número pequeño de dígitos
significativos), el proveedor de ensayos de aptitud puede especificar el número de dígitos a reportar.
EJEMPLO Un procedimiento de medición podría especificar informes de 0,1 g, lo que daría lugar a una gran proporción
(> 50%) de resultados idénticos y, a su vez, comprometería el cálculo de desviaciones estándar y medias robustas. El
proveedor de ensayos de aptitud podría entonces exigir a los participantes que informen con dos o tres decimales para
obtener estimaciones de localización y variación suficientemente fiables.
5.5.4.4 Si se permite que diferentes participantes informen los resultados utilizando diferentes
números de dígitos significativos, el proveedor de ensayos de aptitud debería tener esto en cuenta al
generar cualquier estadístico de consenso (como el valor asignado y la desviación estándar para la
evaluación de aptitud).
6.1.1 El proveedor de ensayos de aptitud debe asegurarse de que los lotes de ítems de ensayo
de aptitud sean lo suficientemente homogéneos y estables para los propósitos del programa de
ensayos de aptitud. El proveedor debe evaluar la homogeneidad y la estabilidad utilizando criterios que
aseguren que la falta de homogeneidad y la inestabilidad de los ítems del ensayo de aptitud no afecten
negativamente la evaluación del desempeño. La evaluación de la homogeneidad y la estabilidad
debería utilizar uno o más de los siguientes enfoques:
c) evaluación de los datos de los participantes en la ronda actual del programa de ensayos de
aptitud para evidencia de consistencia con rondas anteriores, para evidencia de cambio con el
tiempo de informe o el orden de producción, o cualquier dispersión inesperada atribuible a falta de
homogeneidad o inestabilidad.
NOTA 1 Estos enfoques pueden adoptarse caso por caso, utilizando técnicas estadísticas apropiadas y justificación
técnica. El enfoque a menudo cambiará durante la vida útil de un programa de ensayo de aptitud, por ejemplo, cuando la
experiencia acumulada reduzca el requisito inicial para el estudio experimental.
a) El proceso para producir lotes de los ítems de ensayo de aptitud no cambia de ninguna manera que pueda afectar la
homogeneidad;
b) Los materiales utilizados en la producción de los ítems de ensayo de aptitud no cambian de ninguna manera que pueda
afectar la homogeneidad;
c) No hay una “falta” de homogeneidad identificada mediante test de homogeneidad o respuestas de los participantes; y,
d) Los requisitos de homogeneidad del material se revisan periódicamente, teniendo en cuenta el uso previsto del material
en el momento de la revisión, para garantizar que la homogeneidad lograda por el proceso de producción sigue siendo
adecuada para el propósito.
EJEMPLO Si las rondas anteriores de un programa de ensayo de aptitud utilizaron ítems de ensayo de aptitud que fueron
probados y demostraron ser suficientemente homogéneos y estables, y con los mismos participantes que en rondas
anteriores, entonces si la desviación estándar de los resultados del ensayo de aptitud en la ronda actual no es mayor
que la desviación estándar en rondas anteriores, existe evidencia de suficiente homogeneidad y estabilidad en la ronda
actual.
6.1.2 Para programas de ensayos de aptitud de calibración en los que varios participantes utilizan
el mismo artefacto, el proveedor de ensayos de aptitud debe asegurar la estabilidad a lo largo de la
ronda o contar con procedimientos para identificar y dar cuenta de la inestabilidad a lo largo de la
progresión de una ronda del programa de ensayos de aptitud. Los procedimientos deberían incluir
la consideración de las tendencias de los ítems y mensurandos de ensayos de aptitud particulares,
como la deriva. Cuando corresponda, el aseguramiento de estabilidad debería considerar los efectos
de múltiples envíos del mismo artefacto.
a) cuando la medición es una proporción, una característica que es una pequeña proporción
puede ser más difícil de homogeneizar y, por lo tanto, ser más sensible en una verificación de
homogeneidad;
c) si una propiedad medida puede verse afectada por el asentamiento, la precipitación u otros efectos
dependientes del tiempo durante la preparación de los ítems del ensayo de aptitud, entonces esta
propiedad debería verificarse en el orden de llenado.
EJEMPLO En un programa de ensayo de aptitud para el contenido de metales tóxicos de los suelos, el contenido de
metales medido se ve afectado principalmente por el contenido de humedad. Una verificación del contenido de humedad
constante puede entonces considerarse suficiente para garantizar la estabilidad adecuada de los metales tóxicos.
NOTA En cláusula E.2 se proporciona un ejemplo de comprobaciones de homogeneidad y estabilidad, utilizando los
métodos estadísticos recomendados en Anexo B.
6.2.1 Cuando se espera que todos los participantes informen un valor para el mismo mensurando, el
valor asignado normalmente debería ser el mismo para todos los participantes. Sin embargo, cuando se
permite a los participantes elegir su propio método de medición, es posible que un solo valor asignado
para cada analito o propiedad no sea apropiado para todos los participantes. Esto puede ocurrir, por
ejemplo, cuando diferentes métodos de medición proporcionan resultados que no son comparables.
En este caso, el proveedor de ensayos de aptitud puede utilizar un valor asignado diferente para cada
método de medición.
EJEMPLOS:
a) los exámenes médicos donde se sabe que diferentes métodos de medición aprobados responden de manera diferente
al mismo material de examen y usan diferentes rangos de referencia para el diagnóstico;
b) los mensurandos definidos operativamente, tales como metales tóxicos lixiviables en suelos, para los cuales están
disponibles diferentes métodos estándar y no se espera que sean comparados directamente, pero donde el programa
de ensayo de aptitud especifica el mensurando sin referencia a un método de ensayo específico.
NOTA Los errores aberrantes evidentes, como informar los resultados en unidades incorrectas o cambiar los
resultados de diferentes ítems de ensayo de aptitud, ocurren en la mayoría de las rondas de ensayos de aptitud, y estos
resultados solo perjudican el desempeño de los métodos estadísticos posteriores.
6.3.2 Si existe alguna duda sobre si un resultado es un error aberrante, se debería conservar en el
conjunto de datos y someterse a un tratamiento posterior, como se describe en 6.4 a 6.6.
6.4.1 Como primer paso en cualquier análisis de datos, el proveedor de ensayos de aptitud debería
organizar una revisión visual de los datos, realizada por una persona que tenga la experiencia técnica
y estadística adecuada. Esta verificación es para confirmar la distribución esperada de resultados
e identificar anomalías o fuentes imprevistas de variabilidad. Por ejemplo, una distribución bimodal
podría ser evidencia de una población mixta de resultados causada por diferentes métodos, muestras
contaminadas o instrucciones mal redactadas. En esta situación, la inquietud se debería resolver
antes de proceder con el análisis o la evaluación.
NOTA 1 Un histograma de los valores de los participantes es un procedimiento de revisión útil y ampliamente disponible
para buscar una distribución que sea unimodal y simétrica, y para identificar valores atípicos inusuales (ver 10.2).
Sin embargo, los intervalos utilizados para combinar resultados en un histograma son sensibles a la cantidad de
resultados y puntos de corte, por lo que pueden ser difíciles de crear. Una gráfica de densidad kernel suele ser más útil
para identificar posibles bimodalidades o falta de simetría (ver 10.3).
NOTA 2 Pueden ser útiles otras técnicas de revisión, como un gráfico de distribución acumulativa o un diagrama de tallo y
hojas. Algunos métodos gráficos para la revisión de datos se ilustran en cláusulas E.3 y E.4.
6.4.2 Cuando no sea factible realizar una revisión visual de todos los conjuntos de datos de interés,
debe existir un procedimiento para advertir sobre la variabilidad inesperada en un conjunto de datos;
por ejemplo, revisando la incertidumbre del valor asignado en comparación con los criterios de
evaluación, o en comparación con rondas anteriores del programa de ensayos de aptitud.
6.5.1 Se pueden utilizar métodos estadísticos robustos para describir la parte central de un conjunto
de resultados distribuidos normalmente, pero sin requerir la identificación de valores específicos como
valores atípicos y excluyéndolos de análisis posteriores. Muchas técnicas robustas utilizadas se basan
(en el primer paso) en la mediana y el rango del 50% central de los resultados: estas son medidas
del centro y la dispersión de los datos, similares a la media y la desviación estándar. En general, se
deberían usar métodos robustos con preferencia a los métodos que eliminan los resultados etiquetados
como atípicos.
NOTA Las estrategias que aplican estadísticos clásicos, como la desviación estándar después de eliminar los
valores atípicos, generalmente conducen a una subestimación de la dispersión para datos casi normales; los estadísticos
robustos generalmente se ajustan para dar estimaciones insesgadas de la dispersión.
NOTA La mediana, el rango intercuartílico y la desviación absoluta de la mediana escalada tienen una varianza
mayor que la media y la desviación estándar cuando se aplican a datos aproximadamente distribuidos normalmente. Los
estimadores robustos más sofisticados brindan un mejor desempeño para datos que se aproximan a una distribución
normal, al mismo tiempo que retienen gran parte de la resistencia a los resultados atípicos que ofrece la mediana y el
rango intercuartílico.
6.5.3 La elección de los métodos estadísticos es responsabilidad del proveedor de ensayos de aptitud.
La desviación estándar y media robustas se pueden utilizar para varios propósitos, de los cuales la
evaluación del desempeño es solo uno. Las desviaciones estándar y medias robustas también se
pueden usar como estadísticos de resumen para diferentes grupos de participantes o para métodos
específicos.
NOTA Los detalles de los procedimientos robustos se proporcionan en Anexo C. Las cláusulas E.3 y E.4 tienen
ejemplos completos que ilustran el uso de una variedad de técnicas estadísticas robustas presentadas en Anexo C.
6.6.1 Las pruebas estadísticas de valores atípicos se pueden usar para respaldar la revisión visual
de anomalías o, junto con el rechazo de valores atípicos, para proporcionar un grado de resistencia
a los valores extremos al calcular estadísticos de resumen. Cuando se utilicen técnicas de detección
de valores atípicos, se debería demostrar que los supuestos subyacentes a la prueba estadística se
aplican suficientemente a los fines del programa de ensayo de aptitud; en particular, muchas pruebas
de valores atípicos asumen una normalidad subyacente.
NOTA Las ISO 16269-4[10] e ISO 5725-2[1] proporcionan varios procedimientos de identificación de valores atípicos
que son aplicables a los datos interlaboratorio.
6.6.2 Las estrategias de rechazo de valores atípicos, que se basan en el rechazo de los valores
atípicos detectados por una prueba de valores atípicos con un alto nivel de confianza, seguido de la
aplicación de estadísticos simples como la media y la desviación estándar, están permitidas cuando
métodos robustos no son aplicables (ver 6.5.1). Cuando se utilicen estrategias de rechazo de valores
atípicos, el proveedor de ensayos de aptitud debe:
b) establecer límites para la proporción de datos rechazados por sucesivas pruebas de valores
atípicos, si se utilizan;
c) demostrar que las estimaciones de localización y de escala (si corresponde) resultantes tienen un
desempeño suficiente (incluida la eficiencia y el sesgo) para los fines del programa de ensayos
de aptitud.
NOTA La ISO 5725-2 proporciona recomendaciones para el nivel de confianza apropiado para el rechazo de valores
atípicos en estudios interlaboratorio para la determinación de la precisión de los métodos de ensayo. En particular,
ISO 5725-2 recomienda el rechazo solo al nivel del 99% a menos que exista otra razón de peso para rechazar un
resultado en particular.
6.6.3 Cuando el rechazo de valores atípicos sea parte de un procedimiento de manejo de datos, y un
resultado se elimine como atípico, el desempeño del participante aún se debe evaluar de acuerdo con
los criterios utilizados para todos los participantes en el programa de ensayos de aptitud.
NOTA 1 Los valores atípicos entre los valores informados a menudo se identifican empleando la prueba de Grubbs
para valores atípicos, como se indica en ISO 5725-2. La evaluación en este procedimiento se aplica utilizando la
desviación estándar de todos los participantes, incluidos los posibles valores atípicos. Por lo tanto, este procedimiento
se aplica mejor cuando el desempeño de los participantes es coherente con las expectativas de las rondas anteriores
del programa de ensayos de aptitud y hay una pequeña cantidad de valores atípicos (uno o dos valores atípicos a cada
lado de la media). Las tablas convencionales para la prueba de Grubbs asumen una sola aplicación para un posible valor
atípico (o 2) en una localización definida, no una aplicación secuencial ilimitada. Si las pruebas de Grubbs se aplican
secuencialmente, las probabilidades de error de Tipo I no aplican para estas pruebas estadísticas.
NOTA 2 Cuando se reportan resultados replicados o se incluyen ítems de ensayo de aptitud idénticos en una ronda de
un programa de ensayo de aptitud, es común usar la prueba de Cochran para valores atípicos de repetibilidad, también
descritos en ISO 5725-2.
por ejemplo, si se calculan una desviación estándar y media robustas, los valores que se desvían de la media robusta en
más de 3 veces la desviación estándar robusta pueden identificarse como valores atípicos.
7.1.1 En 7.3 a 7.7 se describen cinco formas de determinar el valor asignado xpt. La elección entre
estos métodos es responsabilidad del proveedor de ensayos de aptitud.
NOTA Las subcláusulas 7.3 a 7.6 son muy similares a los enfoques utilizados para determinar los valores de
propiedad de los materiales de referencia certificados descritos en ISO Guide 35[13].
7.1.2 Se pueden usar métodos alternativos para determinar el valor asignado y su incertidumbre,
siempre que tengan una base estadística robusta y que el método utilizado se describa en el plan
documentado para el programa de ensayo de aptitud y se describa completamente a los participantes.
Independientemente del método utilizado para determinar el valor asignado, siempre es apropiado
verificar la validez del valor asignado para esa ronda de un programa de ensayo de aptitud. Esto se
discute en 7.8.
7.1.3 Los enfoques para determinar los valores cualitativos asignados se analizan en 11.3.
7.1.4 El método para determinar el valor asignado y su incertidumbre asociada se debe indicar en
cada informe a los participantes o se describirá claramente en un protocolo del programa de ensayo
de aptitud disponible para todos los participantes.
7.2.1 La ISO/IEC Guide 98-3[14] brinda orientación sobre la evaluación de las incertidumbres de
medición. La ISO Guide 35 proporciona orientación sobre la incertidumbre del valor asignado para
los valores de propiedad certificados, que se puede aplicar para muchos diseños de programas de
ensayos de aptitud.
7.2.2 En las Ecuaciones (2) y (3) se describe un modelo general para el valor asignado y su
incertidumbre:
en que:
δhom = denota un término de error debido a la diferencia entre los ítems del ensayo de aptitud;
El modelo asociado para la incertidumbre del valor asignado se puede expresar de la siguiente manera:
u (x pt ) = u char
2 + uhom
2 + u trans
2 + u stab
2 (3)
en que:
uhom = denota la incertidumbre estándar debido a las diferencias entre los ítems del ensayo de
aptitud (“falta de homogeneidad”);
NOTA 2 Cuando σpt se calcula como la desviación estándar de los resultados de los participantes, los componentes
de incertidumbre debidos a la falta de homogeneidad, el transporte y la inestabilidad se reflejan en gran parte en la
variabilidad de los resultados de los participantes. En este caso, la incertidumbre de caracterización, como se describe
en 7.3 a 7.7, es suficiente.
NOTA 3 Normalmente se espera que el proveedor de ensayos de aptitud garantice que los cambios relacionados
con la inestabilidad o incurridos en el transporte sean insignificantes en comparación con la desviación estándar para la
evaluación de la aptitud; es decir, para asegurar que δtrans y δstab sean despreciables. Cuando se cumple este requisito,
ustab y utrans se pueden establecer en cero.
7.2.3 Puede haber un sesgo en el valor asignado que no se tenga en cuenta en la expresión anterior.
Siempre que sea posible, esto se debe tener en cuenta en el diseño del programa de ensayos de
aptitud. Si existe un ajuste por sesgo en el valor asignado, la incertidumbre de este ajuste se debe
incluir en la evaluación de la incertidumbre del valor asignado.
7.3 Formulación
7.3.1 El ítem de ensayo de aptitud se puede preparar mezclando materiales con diferentes niveles
conocidos de una propiedad en proporciones específicas, o agregando una proporción específica de
una sustancia a un material base.
7.3.2 El valor asignado xpt se obtiene por cálculo a partir de las masas de propiedades utilizadas.
Este enfoque es especialmente valioso cuando los ítems de ensayo de aptitud individuales se preparan
de esta manera, y es la proporción de las propiedades lo que se debe determinar.
a) el material base está efectivamente libre del componente agregado, o que la proporción del
componente agregado en el material base se conoce con precisión;
c) se identifican todas las fuentes significativas de error (por ejemplo, no siempre se tiene en cuenta
que el vidrio absorbe compuestos de mercurio, de modo que la concentración de una solución
acuosa de un compuesto de mercurio puede verse alterada por su recipiente);
e) el comportamiento de los ítems de ensayo de aptitud que contienen material agregado es similar
a las muestras de clientes que se prueban de forma rutinaria. Por ejemplo, los materiales puros
agregados a una matriz natural a menudo se extraen más fácilmente que la misma sustancia
que se encuentra naturalmente en el material. Si existe la preocupación de que esto suceda, el
proveedor de ensayos de aptitud debería asegurarse de la idoneidad de los ítems de ensayo de
aptitud para los métodos que se utilizarán.
7.3.4 Cuando la formulación produce ítems de ensayo de aptitud en los que la adición está más
débilmente unida a la matriz que en las muestras ensayadas de forma rutinaria, o en una forma
diferente, puede ser preferible utilizar otro enfoque para preparar los ítems de ensayo de aptitud.
7.3.5 La determinación del valor asignado por formulación es un caso de un enfoque general para
la caracterización de materiales de referencia certificados descrito por ISO Guide 35, donde un solo
laboratorio determina un valor asignado utilizando un método de medición primario. Se pueden usar
otros usos de un método primario por parte de un solo laboratorio para determinar el valor asignado
para los ensayos de aptitud (ver 7.5).
7.3.6 Cuando el valor asignado se calcula a partir de la formulación del ítem de ensayo de aptitud,
la incertidumbre estándar para la caracterización (uchar) se estima mediante una combinación de
incertidumbres usando un modelo apropiado. Por ejemplo, en los ensayos de aptitud para mediciones
químicas, las incertidumbres generalmente serán las asociadas con las mediciones gravimétricas y
volumétricas y la pureza de cualquier material utilizado en la formulación. La incertidumbre estándar
del valor asignado [u(xpt)] se calcula luego de acuerdo con Ecuación (3).
7.4.1 Cuando un ítem de ensayo de aptitud es un material de referencia certificado (MRC), su valor
de propiedad certificado xMRC se usa como el valor asignado xpt.
— puede ser costoso proporcionar a cada participante una unidad de un material de referencia
certificado;
— los MRC a menudo se procesan exhaustivamente para garantizar la estabilidad a largo plazo, lo
que puede comprometer la conmutabilidad de los ítems del ensayo de aptitud.
— los participantes pueden conocer un MRC, por lo que es importante ocultar la identidad del ítem
de ensayo de aptitud.
7.4.2 Cuando se utiliza un material de referencia certificado como ítem de ensayo de aptitud, la
incertidumbre estándar del valor asignado se deriva de la información sobre la incertidumbre del
valor de la propiedad proporcionada en el certificado. La información del certificado debería incluir los
componentes de la Ecuación (3) y tener un uso previsto apropiado para el propósito del programa de
ensayo de aptitud.
7.5.1 Un solo laboratorio puede determinar un valor asignado utilizando un método de referencia,
como, por ejemplo, un método primario. El método de referencia utilizado debería estar completamente
descrito y comprendido, y con una declaración de incertidumbre completa y trazabilidad metrológica
documentada que sea apropiada para el programa de ensayo de aptitud. El método de referencia
debería ser conmutable para todos los métodos de medición utilizados por los participantes.
7.5.1.1 El valor asignado debería ser el promedio de un estudio diseñado utilizando más de un ítem
de ensayo de aptitud o condiciones de medición, y un número suficiente de mediciones replicadas.
7.5.2 El valor asignado xpt del ítem de ensayo de aptitud puede ser obtenido por un solo laboratorio
utilizando un método de medición adecuado, a partir de una calibración contra el valor de referencia
de un material de referencia certificado que coincida estrechamente. Este enfoque asume que el MRC
es conmutable para todos los métodos de medición utilizados por los participantes.
7.5.2.1 Esta determinación requiere que se lleven a cabo una serie de ensayos, en un laboratorio,
sobre ítems de ensayo de aptitud y el MRC, utilizando el mismo método de medición y en condiciones
de repetibilidad. Cuando
di es la diferencia entre los resultados promedio para el ítem de ensayo de aptitud y el MRC en
la i-ésima muestra;
después,
(4)
x pt = x MRC + d
NOTA xMRC y d son independientes excepto en la rara situación en que el laboratorio experto también produjo el MRC.
u char = uMRC
2 + ud2 (5)
El ejemplo en cláusula E.5 ilustra cómo se puede calcular la incertidumbre requerida en el caso simple
cuando el valor asignado de un ítem de ensayo de aptitud se establece por comparación directa con
un solo MRC.
7.5.3 Cuando se asigna un valor de referencia antes del comienzo de una ronda de un programa
de ensayo de aptitud secuencial, y luego el valor de referencia se verifica posteriormente usando
el mismo sistema de medición, la diferencia entre los valores debe ser menor que dos veces la
incertidumbre de esa diferencia (es decir, los resultados deben ser metrológicamente compatibles). En
tales casos, el proveedor de ensayos de aptitud puede optar por utilizar un promedio de las mediciones
como el valor asignado, con la incertidumbre adecuada. Si los resultados no son metrológicamente
compatibles, el proveedor de ensayos de aptitud debería investigar el motivo de la diferencia y tomar
las medidas adecuadas, incluido el uso de métodos alternativos para determinar el valor asignado y
su incertidumbre o el abandono de la ronda del programa de ensayos de aptitud.
NOTA Con el supuesto de una distribución normal, se puede esperar que ocurra por casualidad una diferencia de
más de dos veces la incertidumbre estándar aproximadamente en una ocasión en veinte.
7.6.2 Cuando los laboratorios expertos informen un solo resultado y el protocolo de medición
no requiera que proporcionen suficiente información sobre la incertidumbre con los resultados, o
cuando la evidencia de los resultados informados o en otro lugar sugiera que las incertidumbres
informadas no son lo suficientemente confiables, el valor de consenso se debería obtener
normalmente por los métodos de 7.7, aplicados al conjunto de resultados de laboratorio experto.
Cuando los laboratorios expertos notifiquen más de un resultado cada uno (por ejemplo, incluidas
las réplicas), el proveedor del plan de ensayos de aptitud debe establecer un método alternativo
para determinar el valor asignado y la incertidumbre asociada que sea estadísticamente válido
(ver 4.1.1) y permita la posibilidad de valores atípicos u otras desviaciones de la distribución esperada
de resultados.
7.6.3 Cuando los laboratorios expertos reportan incertidumbres con los resultados, la estimación
de un valor por consenso de los resultados es un problema complejo y se ha sugerido una amplia
variedad de enfoques, incluidos, por ejemplo, promedios ponderados, promedios no ponderados,
procedimientos que tengan en cuenta la sobredispersión y los procedimientos que permitan posibles
resultados atípicos o erróneos y estimaciones de incertidumbre[16]. En consecuencia, el proveedor de
ensayos de aptitud debe establecer un procedimiento para estimar que:
7.7.1 Con este enfoque, el valor asignado xpt para el ítem de ensayo de aptitud utilizado en una ronda
de un programa de ensayo de aptitud es la estimación de localización (por ejemplo, media robusta,
mediana o media aritmética) formada a partir de los resultados informados por los participantes en el
redondo, calculado utilizando un procedimiento apropiado de acuerdo con el diseño, como se describe
en Anexo C. Se deberían utilizar las técnicas descritas en 6.2 a 6.6 para confirmar que existe un
acuerdo suficiente, antes de combinar los resultados.
7.7.2 En algunas situaciones, el proveedor de ensayos de aptitud puede desear utilizar un subconjunto
de participantes que se determine que son confiables, según algunos criterios predefinidos, como el
estado de acreditación o sobre la base de un desempeño anterior. Las técnicas de esta sección se
aplican a esas situaciones, incluidas las consideraciones sobre el tamaño del grupo.
7.7.3 Se pueden usar otros métodos de cálculo en lugar de los del Anexo C, siempre que tengan una
base estadística robusta y el informe indique el método que se usa.
b) el valor de consenso puede incluir un sesgo desconocido debido al uso general de una metodología
defectuosa y este sesgo no se reflejará en la incertidumbre estándar del valor asignado;
c) el valor de consenso podría estar sesgado por el efecto del sesgo en los métodos que se utilizan
para determinar el valor asignado.
d) Puede ser difícil determinar la trazabilidad metrológica del valor de consenso. Si bien el resultado
es siempre trazable a los resultados de los laboratorios individuales, solo se puede hacer una
declaración clara de la trazabilidad más allá de eso cuando el proveedor de ensayos de aptitud
tiene información completa sobre los estándares de calibración utilizados y el control de otras
condiciones relevantes del método por parte de todos los participantes contribuyendo al valor de
consenso.
7.7.6 La incertidumbre estándar del valor asignado dependerá del procedimiento utilizado. Si se
necesita un enfoque completamente general, el proveedor de ensayos de aptitud debería considerar el
uso de técnicas de remuestreo (“bootstrapping”) para estimar un error estándar para el valor asignado.
Las referencias [17] y [18] dan detalles de las técnicas de bootstrapping.
7.7.7 Cuando el valor asignado se obtiene como un promedio robusto calculado usando los
procedimientos de las cláusulas C.2, C.3, la incertidumbre estándar del valor asignado xpt puede
estimarse como:
s∗
u ( x pt ) = 1, 25 × (6)
p
donde s* es la desviación estándar robusta de los resultados. (Aquí, un “resultado” para un participante
es el promedio de todas sus mediciones en el ítem de ensayo de aptitud).
NOTA 1 En este modelo, donde el valor asignado y la desviación estándar robusta se determinan a partir de los
resultados de los participantes, se puede suponer que la incertidumbre del valor asignado incluye los efectos de la
incertidumbre debido a la falta de homogeneidad, el transporte y la inestabilidad.
NOTA 2 El factor 1,25 se basa en la desviación estándar de la mediana, o la eficiencia de la mediana como estimación
de la media, en un gran conjunto de resultados extraídos de una distribución normal. Se aprecia que la eficiencia de
métodos robustos más sofisticados puede ser mucho mayor que la de la mediana, justificando un factor de corrección
menor a 1,25. Sin embargo, se ha recomendado este factor porque los resultados de los ensayos de aptitud normalmente
no tienen una distribución estrictamente normal y contienen proporciones desconocidas de resultados de diferentes
distribuciones (“resultados contaminados”). El factor de 1,25 se considera una estimación conservadora (alta) para tener
en cuenta la posible contaminación. Se puede justificar un factor más pequeño, o una ecuación diferente, según la
experiencia y el procedimiento robusto utilizado.
NOTA 3 En cláusula E.3 se proporciona un ejemplo del uso de un valor asignado de los resultados de los participantes.
7.8.1 Cuando se utilizan los métodos descritos en 7.7 para establecer el valor asignado (xpt),
y cuando se dispone de una estimación independiente fiable (indicada xref), por ejemplo, a partir
del conocimiento de la preparación o de un valor de referencia, el valor de consenso xpt debería
compararse con xref.
© ISO 2022 - Todos los derechos reservados
© INN 2023 - Para la adopción nacional 23
Impreso por: Pablo Medina Dávila Solicitado por: Monica Vega
NCh3800:2023
ISO 13528:2022
Cuando se utilizan los métodos descritos en 7.3 a 7.6 para establecer el valor asignado, el promedio
robusto x* derivado de los resultados de la ronda debería compararse con el valor asignado después
de cada ronda de un programa de ensayo de aptitud.
La diferencia se calcula como xdiff = xref - xpt (o x* - xpt) y la incertidumbre estándar udiff de la diferencia
se estima como:
en que:
NOTA En cláusula E.7 se incluye un ejemplo de comparación de un valor de referencia con un valor de consenso.
7.8.2 Si la diferencia es más del doble de su incertidumbre estándar, se debería investigar el motivo.
Las posibles razones son:
— falta de apreciación de las limitaciones del método de medición cuando se usa el método de
formulación descrito en 7.3;
— sesgo en los resultados de los “expertos” al usar los enfoques en 7.5 o 7.6;
8.1.1 El enfoque básico para todos los propósitos es comparar un resultado en un ítem de ensayo de
aptitud (xi) con un valor asignado (xpt). Para la evaluación, la diferencia se compara con una tolerancia
para el error de medición. Esta comparación se realiza comúnmente a través de un estadístico de
desempeño estandarizado (por ejemplo, z, z’, ζ, En), como se analiza en 9.4 a 9.7. Esto también se
puede hacer comparando la diferencia con un criterio definido (D o D% comparado con δE) como se
describe en 9.3. Un enfoque alternativo para la evaluación es comparar la diferencia con la afirmación
de un participante sobre la incertidumbre de su resultado combinada con la incertidumbre del valor
asignado (En y ζ).
EJEMPLO Si un criterio regulatorio se especifica como un error máximo permisible y 3,0 es un límite de acción para la
evaluación con una puntuación z, entonces el criterio especificado se divide por 3,0 para determinar σpt.
8.1.3 Cuando el criterio para la evaluación del desempeño se basa en estadísticos de consenso
de la ronda actual o rondas anteriores del programa de ensayos de aptitud, entonces el estadístico
preferido es una estimación robusta de la desviación estándar de los resultados de los participantes.
Cuando se usa este enfoque, generalmente es más conveniente usar una puntuación de desempeño
como la puntuación z y establecer la desviación estándar para la evaluación de la aptitud (σpt) en la
estimación calculada de la desviación estándar.
8.2.1 El error máximo permisible o la desviación estándar para la evaluación de la aptitud se puede
establecer en un valor que corresponda al nivel de desempeño que una autoridad reguladora, un
organismo de acreditación o los expertos técnicos del proveedor de ensayos de aptitud crean que es
razonable para los participantes.
8.2.2 Un error máximo permisible especificado se puede transformar en una desviación estándar
para la evaluación de la aptitud dividiendo el límite por el número de múltiplos del σpt que se utilizan
para definir una señal de acción (o un resultado inaceptable). De manera similar, un σpt especificado
se puede transformar en δE.
8.3.1 La desviación estándar para la evaluación de la aptitud (σpt) y el error máximo permisible
(δE) pueden determinarse por experiencia con rondas previas de un programa de ensayo de aptitud
para el mismo mensurando con valores de propiedad comparables, y donde los participantes usan
procedimientos de medición compatibles. Este es un enfoque útil cuando no hay acuerdo entre los
expertos sobre la idoneidad para el propósito. Las ventajas de este enfoque son las siguientes:
— los criterios de evaluación no variarán de una ronda a otra del programa de ensayos de aptitud
debido a variaciones aleatorias o cambios en la población de participantes;
8.3.3 Cuando el criterio para la evaluación del desempeño se basa en estadísticos de consenso de
rondas anteriores de un programa de ensayo de aptitud, se deberían usar estimaciones robustas de
la desviación estándar.
NOTA 1 El algoritmo S (ver cláusula C.4) proporciona una desviación estándar agrupada robusta que es aplicable
estándar esperada o (si se usan desviaciones relativas para la evaluación) la misma desviación estándar relativa.
NOTA 2 En cláusula E.8 se proporciona un ejemplo de obtención de un valor a partir de la experiencia de rondas
anteriores de un programa de ensayos de aptitud.
8.4.2 Cualquier desviación estándar esperada elegida por un modelo general debería ser razonable.
Si se asignan señales de acción o advertencia a proporciones muy grandes o muy pequeñas de
participantes, el proveedor de ensayos de aptitud debería asegurarse de que esto sea coherente con
el propósito del programa de ensayos de aptitud.
8.4.3 En general, es preferible una estimación específica que tenga en cuenta las especificidades del
problema de medición a un enfoque genérico. En consecuencia, antes de utilizar un modelo general,
se debería explorar la posibilidad de utilizar los enfoques descritos en 8.2, 8.3 y 8.5.
Un modelo general común para aplicaciones químicas fue descrito por Horwitz[22] y modificado
por Thompson[31]. Este enfoque brinda un modelo general para la reproducibilidad de los métodos
analíticos que se puede utilizar para derivar la siguiente expresión para la desviación estándar de la
reproducibilidad:
⎧ 0, 22c si c < 1, 2 × 10 −7
⎪ (8)
σR = ⎨0, 02c 0,849 5 si 1, 2 × 10 −7 ≤ c ≤ 0,138
⎪ 0, 01c 0,5 si c > 0,138
⎩
NOTA 1 El modelo de Horwitz es empírico, basado en observaciones de ensayos colaborativos de muchos parámetros
durante un período de tiempo prolongado. Los valores de σR son los límites superiores esperados de la variabilidad
interlaboratorio cuando el ensayo colaborativo no tuvo problemas significativos. Por lo tanto, los valores de σR podrían no
ser criterios apropiados para determinar la competencia en un programa de ensayos de aptitud.
NOTA 2 En cláusula E.9 se proporciona un ejemplo de cómo derivar un valor del modelo de Horwitz modificado.
8.5.1 Cuando el método de medición que se usará en el programa de ensayo de aptitud está
estandarizado y se dispone de información sobre la repetibilidad (σr) y la reproducibilidad (σR) del
método, la desviación estándar para la evaluación de la aptitud (σpt) puede calcularse utilizando esta
información, de la siguiente manera:
donde m es el número de mediciones replicadas que cada participante debe realizar en una ronda del
programa de ensayo de aptitud.
NOTA Esta fórmula se deriva de un modelo básico de efectos aleatorios de ISO 5725-2.
8.5.2 Cuando las desviaciones estándar de repetibilidad y reproducibilidad dependen del valor
promedio de los resultados del ensayo, las relaciones funcionales deberían derivarse mediante los
métodos descritos en ISO 5725-2. Estas relaciones deberían usarse para calcular los valores de las
desviaciones estándar de repetibilidad y reproducibilidad apropiadas para el valor asignado que se
utilizará en el programa de ensayo de aptitud.
8.5.3 Para que las técnicas anteriores sean válidas, el estudio colaborativo debe haberse realizado
de acuerdo con los requisitos de ISO 5725-2 o un procedimiento equivalente.
8.6.1 Con este enfoque, la desviación estándar para la evaluación de la aptitud (σpt) se calcula a
partir de los resultados de los participantes en la misma ronda del programa de ensayos de aptitud.
Cuando se utiliza este enfoque, suele ser más conveniente utilizar una puntuación de desempeño
como la puntuación z. Para calcular σpt normalmente se debería usar una estimación robusta de
la desviación estándar de los resultados informados por todos los participantes, calculada usando
una técnica listada en Anexo C. En los programas de ensayos de aptitud que usan δE y D o D%,
PA (Porcentaje de desviación permitida) se puede usar como una puntuación normalizada, para la
comparación entre mensurandos y rondas (ver 9.3.6).
8.6.2 El uso de los resultados de los participantes puede dar lugar a criterios de evaluación del
desempeño que no son apropiados. El proveedor de ensayos de aptitud debería asegurarse de que el
σpt utilizado para las evaluaciones de desempeño sea adecuado para su propósito.
8.6.2.1 El proveedor de ensayos de aptitud debería colocar un límite en el valor más bajo de σpt que
se utilizará, en el caso de que la desviación estándar robusta sea muy pequeña. Este límite debería
elegirse de modo que cuando el error de medición sea adecuado para el uso previsto más exigente, la
puntuación de desempeño sea z < 3,0.
EJEMPLO En un programa de ensayo de aptitud para tela, un mensurando es el número de hilos por centímetro.
La desviación estándar robusta puede ser pequeña en algunas rondas (< 1 hilo por cm), y los errores de menos de
4 hilos/cm se consideran insignificantes. El proveedor de ensayos de aptitud determina que la desviación estándar robusta
se utiliza como σpt, a menos que sea inferior a 1,3 hilos/cm, en cuyo caso se utiliza σpt = 1,3.
8.6.2.2 El proveedor de ensayos de aptitud debería establecer un límite en el σpt más grande que se
utilizará, o en los resultados de medición que pueden evaluarse como “aceptables” (sin señal), en el
caso de que la desviación estándar robusta sea muy grande. Este límite debería elegirse para que los
resultados que no se ajusten al propósito reciban una señal de acción.
8.6.2.3 En algunos casos, el proveedor de ensayos de aptitud puede establecer límites superiores
o inferiores en el intervalo de resultados que pueden evaluarse como ‘aceptables’ (sin señal de
advertencia o acción), cuando los intervalos simétricos incluyen resultados que no serían adecuados
para el propósito.
EJEMPLO Para un programa de ensayo de aptitud reglamentario para agua no potable, las reglamentaciones
especifican que los resultados deben estar dentro de los 3 σpt de la media robusta de los resultados de los participantes.
Sin embargo, debido a que en algunos casos el rango de resultados aceptables podría incluir 0 µg/L, cualquier resultado
inferior al 10% de un valor formulado debe generar una señal de acción (o “inaceptable”). Un ítem de ensayo de aptitud
se formula con 4,0 µg/L de una sustancia regulada. La media robusta del participante es 3,2 µg/L y σpt es 1,1 µg/L.
Por lo tanto, es posible que un participante envíe un resultado de 0,0 µg/L y esté dentro de los 3 σpt, pero cualquier
resultado inferior a 0,4 µg/L se evaluará como “inaceptable”.
8.6.3 Las principales ventajas de este enfoque son la simplicidad y la aceptación convencional debido
al uso exitoso en muchas situaciones. Este puede ser el único enfoque factible.
a) El valor de σpt puede variar sustancialmente de una ronda a otra de un programa de ensayo
de aptitud, lo que dificulta que un participante use los valores de la puntuación z para buscar
tendencias que persisten durante varias rondas.
b) Las desviaciones estándar pueden ser poco fiables cuando el número de participantes en el
programa de ensayos de aptitud es pequeño o cuando se combinan los resultados de diferentes
métodos. Por ejemplo, si p = 20, la desviación estándar para datos normalmente distribuidos
puede variar en un ±30% de su valor real de una ronda de un programa de ensayo de aptitud a
la siguiente.
c) El uso de medidas de dispersión derivadas de los datos puede conducir a una proporción
aproximadamente constante de puntuaciones aparentemente aceptables. Por lo general, el
desempeño deficiente no se detectará mediante la inspección de las puntuaciones y, en general,
el buen desempeño dará como resultado que los buenos participantes reciban puntuaciones
deficientes.
d) No existe una interpretación útil en términos de idoneidad para cualquier uso final de los resultados.
NOTA En el ejemplo completo de cláusula E.3 se proporcionan ejemplos del uso de los datos de los participantes.
8.7.1 Como verificación del desempeño de los participantes, y para evaluar el beneficio del programa
de ensayos de aptitud para los participantes, el proveedor de ensayos de aptitud debería aplicar
un procedimiento para monitorear el acuerdo interlaboratorio, rastrear cambios en el desempeño y
garantizar la razonabilidad de procedimientos estadísticos.
© ISO 2022 - Todos los derechos reservados
28 © INN 2023 - Para la adopción nacional
8.7.2 Los resultados obtenidos en cada ronda de un programa de ensayo de aptitud deberían usarse
para calcular estimaciones de las desviaciones estándar de reproducibilidad del método de medición
(y repetibilidad, si está disponible), usando los métodos robustos descritos en Anexo C. Estas
estimaciones deberían trazarse en gráficos secuencialmente o como una serie de tiempo, junto con
los valores de las desviaciones estándar de repetibilidad y reproducibilidad obtenidos en experimentos
de precisión de ISO 5725-2 (si está disponible), y/o σpt, si se utilizan las técnicas de 8.2 a 8.4.
8.7.3 Estos gráficos deberían ser examinados luego por el proveedor de ensayos de aptitud. Si los
gráficos muestran que los valores de precisión obtenidos en una ronda específica de ensayos de
aptitud son mayores por un factor de dos o más de los valores esperados de datos o experiencias
anteriores, entonces el proveedor de ensayos de aptitud debería investigar por qué el acuerdo en
esta ronda fue peor que antes de. Del mismo modo, una tendencia hacia mejores o peores valores de
precisión debería desencadenar una investigación de las causas más probables.
9.1.1 Los estadísticos utilizados para determinar el desempeño deben ser coherentes con los
objetivos del programa de ensayos de aptitud.
NOTA Los estadísticos de desempeño son más útiles si los participantes y otras partes interesadas entienden los
estadísticos y su derivación.
9.1.2 Las puntuaciones de desempeño deberían revisarse fácilmente a través de los niveles de
medición y las diferentes rondas de un programa de ensayo de aptitud.
9.1.3 Los resultados de los participantes deberían revisarse y determinarse para que sean coherentes
con los supuestos utilizados en el diseño del programa de ensayo de aptitud, para permitir estadísticos
de desempeño significativos. Por ejemplo, que no haya evidencia de deterioro del ítem de ensayo
de aptitud, o de una mezcla de poblaciones de participantes, o de violaciones graves de cualquier
supuesto estadístico sobre la naturaleza de los datos.
9.2.1 Si la incertidumbre estándar u(xpt) del valor asignado es grande en comparación con el criterio
de evaluación del desempeño, existe el riesgo de que algunos participantes reciban señales de acción
y advertencia debido a la inexactitud en la determinación del valor asignado, no por causa alguna del
participante. Por esta razón, se debe determinar la incertidumbre estándar del valor asignado y se
debe informar a los participantes (ver ISO/IEC 17043:2010, 4.4.5 y 4.8.2).
Si se cumple el siguiente criterio, la incertidumbre del valor asignado puede considerarse insignificante
y no es necesario incluirla en la interpretación de los resultados de la ronda del programa de ensayos
de aptitud.
NOTA 0,30 σpt es equivalente a 0,1 δE cuando |z| ≥ 3,0 genera una señal de acción.
9.2.2 Si no se cumple este criterio, entonces el proveedor de ensayos de aptitud debería considerar
lo siguiente, asegurándose de que cualquier acción tomada siga siendo coherente con la política de
evaluación del desempeño acordada para el programa de ensayos de aptitud.
a) Seleccionar un método para determinar el valor asignado tal que su incertidumbre cumpla con el
criterio de la Ecuación (10).
b) Usar la incertidumbre del valor asignado en la interpretación de los resultados del programa
de ensayo de aptitud (ver 9.5 en la puntuación z’, o 9.6 en las puntuaciones ζ, o 9.7 en las
puntuaciones En).
bimodalidad, basado en una inspección de un gráfico de densidad kernel con un ancho de banda especificado.
d) Informar a los participantes que la incertidumbre del valor asignado no es despreciable y las
evaluaciones podrían verse afectadas.
Si no se aplica ninguno de los puntos a) a d), se debe informar a los participantes de que no se puede
determinar un valor asignado confiable y que no se pueden proporcionar puntuaciones de desempeño.
NOTA En cláusulas E.3 y E.4 se demuestran las técnicas presentadas en esta cláusula
9.3.1 Sea xi el resultado (o el promedio de las réplicas) informado por el participante i para la medición
de una propiedad del ítem de ensayo de aptitud en una ronda de un programa de ensayo de aptitud.
Luego se puede calcular una medida simple del desempeño del participante como la diferencia entre
el resultado xi y el valor asignado xpt:
Di = xi – xpt (11)
Di puede interpretarse como el error de medida de ese resultado, en la medida en que el valor asignado
puede considerarse un valor de cantidad convencional o de referencia.
La diferencia Di puede expresarse en las mismas unidades que el valor asignado o como una diferencia
porcentual, calculada como:
9.3.3 δE está estrechamente relacionado con σpt como se usa para las puntuaciones z (ver 9.4),
cuando σpt está determinado por la idoneidad para el propósito o las expectativas de rondas anteriores
del programa de ensayos de aptitud. La relación está determinada por el criterio de evaluación de las
puntuaciones z. Por ejemplo, si z ≥ 3 crea una señal de acción entonces δE = 3 σpt, o equivalentemente
σpt = δE/3. Varias expresiones de δE son convencionales en ensayos de aptitud para aplicaciones
médicas y en especificaciones de desempeño para métodos y productos de medición.
9.3.5 Las desventajas son que no es convencional para ensayos de aptitud en muchos países o
campos de medición; y que D no está estandarizado, para permitir el escaneo simple de informes en
busca de señales de acción en programas de ensayo de aptitud con múltiples analitos o donde los
criterios de aptitud para el propósito pueden variar según el nivel del mensurando.
NOTA El uso de D y D% generalmente asume la simetría de la distribución de los resultados de los participantes en
el sentido de que el rango aceptable es -δE < D < δE.
9.3.6 Para fines de comparación entre niveles de mensurandos, donde los criterios de idoneidad para
el propósito pueden variar; o para la combinación entre rondas o entre mensurandos, D y D% en el
programa de ensayos de aptitud se pueden transformar en una puntuación de desempeño estandarizado
que muestra las diferencias relativas a los criterios de desempeño para los mensurandos. Para ello,
Calcular el “Porcentaje de desviación permitida” (PA) para cada resultado de la siguiente manera:
Por lo tanto, PA ≥ 100% o PA ≤ -100% indica una señal de acción (o “desempeño inaceptable”).
NOTA 1 Las puntuaciones de PA pueden compararse entre niveles y diferentes rondas de un programa de ensayo
de aptitud o rastrearse en gráficos. Estas puntuaciones de desempeño son similares en uso e interpretación a las
puntuaciones z que tienen un criterio de evaluación común, como z ≤ -3 o z ≥ 3 para señales de acción.
NOTA 2 Las variaciones de este estadístico se usan comúnmente, particularmente en aplicaciones médicas, donde
generalmente hay una mayor frecuencia de ensayos de aptitud y una gran cantidad de analitos.
NOTA 3 Puede ser apropiado usar el valor absoluto de PA para reflejar resultados coherentemente aceptables (o
inaceptables) en relación con el valor asignado.
9.4 Puntuaciones z
en que:
— Un resultado que da 2,0 < ⎮z⎮ < 3,0 se considera una señal de advertencia.
Se debería recomendar a los participantes que verifiquen sus procedimientos de medición siguiendo
las señales de advertencia en caso de que indiquen un problema emergente o recurrente.
NOTA 1 En algunas aplicaciones, los proveedores de ensayos de aptitud utilizan 2,0 como señal de acción para las
puntuaciones z.
NOTA 2 La elección del criterio σpt normalmente se hace para permitir la interpretación anterior, que se usa
ampliamente para la evaluación de la aptitud y también es muy similar a los límites familiares de las gráficas de control.
NOTA 3 La justificación para el uso de los límites de 2,0 y 3,0 para las puntuaciones z es la siguiente. Se supone que
las mediciones que se realizan correctamente generan resultados que pueden describirse (después de la transformación
si es necesario) mediante una distribución normal con media xpt y desviación estándar de la población σpt. Entonces, las
puntuaciones z se distribuirán normalmente con una media poblacional de cero y una desviación estándar poblacional
de 1,0. En estas circunstancias, se esperaría que solo alrededor del 0,3% de las puntuaciones quedaran fuera del
rango -3,0 ≤ z ≤ 3,0 y solo alrededor del 5% se esperaría que quedaran fuera del rango -2,0 ≤ z ≤ 2,0. Debido a que la
probabilidad de que z caiga fuera de ± 3,0 es tan baja, es poco probable que las señales de acción ocurran por casualidad
cuando no existe un problema real, por lo que es probable que haya una causa identificable para una anomalía cuando
se da una señal de acción. .
NOTA 4 El supuesto en el que se basa esta interpretación se aplica solo a una distribución hipotética de laboratorios
competentes y no a algún supuesto sobre la distribución de los resultados observados. No es necesario hacer supuestos
acerca de los resultados observados en sí mismos.
NOTA 5 Si la verdadera variabilidad interlaboratorio (desviación estándar de la población) es menor que σpt, las
probabilidades de clasificación errónea se reducen.
NOTA 6 Cuando la desviación estándar para la evaluación de la aptitud se fija mediante cualquiera de los métodos
descritos en 8.2 ó 8.4, puede diferir sustancialmente de la desviación estándar (robusta) de los resultados, y las proporciones
de los resultados quedan fuera de ± 2,0 y ± 3,0 puede diferir considerablemente del 5% y el 0,3% respectivamente.
9.4.3 El proveedor de ensayos de aptitud debe determinar el redondeo adecuado para las
puntuaciones z notificadas, en función del número de dígitos significativos del resultado y del valor
asignado y la desviación estándar para los ensayos de aptitud. Las reglas de redondeo se deben
incluir en la información a disposición de los participantes.
NOTA Rara vez es útil tener más de dos dígitos después del decimal para las puntuaciones z.
9.4.4 Cuando la desviación estándar de los resultados de los participantes se usa como σpt y los
programas de ensayos de aptitud involucran a un gran número de participantes, el proveedor de
ensayos de aptitud puede desear verificar la normalidad de la distribución, utilizando resultados reales
o puntuaciones z. En el otro extremo, cuando solo hay un pequeño número de participantes, es posible
que no se dé ninguna señal de acción. En este caso, los métodos gráficos que combinan puntuaciones
de desempeño en varias rondas en el programa de ensayos de aptitud pueden brindar indicaciones
más útiles sobre el desempeño de los participantes que los resultados de rondas individuales.
9.5 Puntuaciones z′
9.5.1 Cuando existe preocupación acerca de la incertidumbre de un valor asignado u(xpt), por
ejemplo, cuando u(xpt) > 0,3 σpt, entonces la incertidumbre se puede tener en cuenta expandiendo el
denominador de la puntuación de desempeño. Este estadístico se llama puntuación z′ y se calcula de
la siguiente manera (con notación como en 9.4):
x i − x pt (15)
zi =
σpt
NOTA Cuando xpt y/o σpt se calculan a partir de los resultados de los participantes, la puntuación de desempeño
se correlaciona con los resultados individuales de los participantes, porque los resultados individuales tienen un impacto
tanto en una desviación estándar como en una media robustas. La correlación para un participante individual depende de
la ponderación otorgada a ese participante en el estadístico combinado. Por esta razón, las puntuaciones de desempeño
que incluyen la incertidumbre del valor asignado sin tener en cuenta la correlación representan subestimaciones de
las puntuaciones que resultarían si se incluyera la covarianza. Por ejemplo, cuando u(xpt) = 0,3 σpt entonces hay una
subestimación de alrededor del 10% de la puntuación z’. Por lo tanto, la Ecuación (15) se puede utilizar cuando xpt y/o σpt
9.5.2 Las puntuaciones D y D% también se pueden modificar para considerar la incertidumbre del
valor asignado con la siguiente Ecuación (16) para expandir δE a δE’.
(16)
δE’ = δE2 + U 2 ( x pt )
donde U(xpt) es la incertidumbre expandida del valor asignado xpt calculado con factor de cobertura
k =2.
9.5.3 Las puntuaciones z′ pueden interpretarse de la misma manera que las puntuaciones z (ver 9.4)
y usando los mismos valores críticos de 2,0 y 3,0, dependiendo del diseño del programa de ensayo de
aptitud. De manera similar, las puntuaciones D y D% se compararían con δE’ (ver 9.3).
9.5.4 La comparación de las ecuaciones para la puntuación z y la puntuación z′ en 9.4 y 9.5 muestra
que las puntuaciones z′ para una ronda de un programa de ensayo de aptitud siempre serán más
pequeños que las puntuaciones z correspondientes por un factor constante dado por Ecuación (17).
σpt (17)
σ pt2 + u 2 (x pt )
Cuando se cumple la pauta para limitar la incertidumbre del valor asignado en 9.2.1, este factor caerá
en el rango de la Ecuación (18):
σpt (18)
0, 96 < < 1, 00
σ pt2 + u 2 (x pt )
Así, en este caso, las puntuaciones z′ serán casi idénticos a las puntuaciones z, y se puede concluir
que la incertidumbre del valor asignado es despreciable para la evaluación del desempeño.
Cuando no se cumple la pauta en 9.2.1 para la incertidumbre del valor asignado, la diferencia en
la magnitud de las puntuaciones z′ y las puntuaciones z puede ser tal que algunos puntuaciones z
excedan los valores críticos de 2,0 o 3,0 y por lo tanto, dé “señales de advertencia” o “señales de
acción”, mientras que las puntuaciones z′ correspondientes no excedan estos valores críticos y, por lo
tanto, no den señales.
En general, para situaciones en las que el valor asignado y/o σpt no se determina a partir de los
resultados de los participantes, se puede preferir z′ porque cuando se cumple el criterio de 9.2.1, la
diferencia entre z y z′ será insignificante.
9.6.1 Las puntuaciones zeta pueden ser útiles cuando un objetivo del programa de ensayo de aptitud
es evaluar la capacidad de un participante para proporcionar resultados cercanos al valor asignado
dentro de la incertidumbre declarada.
x i − x pt (19)
ζi =
u2 (x i ) + u2 (x pt )
en que:
NOTA 1 Cuando el valor asignado xpt se calcula como el valor de consenso de los resultados de los participantes,
entonces xpt se correlaciona con los resultados de los participantes individuales. La correlación para un participante
individual depende de la ponderación que se le dé a ese participante en el valor asignado y, en menor medida, en la
incertidumbre del valor asignado. Por esta razón, las puntuaciones de desempeño que incluyen la incertidumbre del
valor asignado sin tener en cuenta la correlación representan subestimaciones de las puntuaciones que resultarían si
se incluyera la covarianza. La subestimación no es grave si la incertidumbre del valor asignado es pequeña; cuando se
utilizan métodos robustos, es menos grave para los participantes más alejados que tienen más probabilidades de recibir
puntuaciones de desempeño adversas. Por lo tanto, la Ecuación (19) se puede utilizar con estadísticos de consenso sin
ajuste por correlación.
NOTA 2 Las puntuaciones ζ difieren de las puntuaciones En (ver 9.7) al usar incertidumbres estándar u(xi) y u(xpt),
en lugar de incertidumbres expandidas U(xi) y U(xpt). ζ puede ser particularmente útil cuando los participantes usan
diferentes procedimientos de medición que conducen a incertidumbres de medición muy diferentes. Las puntuaciones
de ζ por encima de 2 o por debajo de -2 pueden ser causadas por métodos sistemáticamente sesgados o por una mala
estimación de la incertidumbre de medición por parte del participante. Por lo tanto, las puntuaciones ζ proporcionan una
evaluación rigurosa del resultado completo presentado por el participante.
9.6.2 El uso de puntuaciones ζ permite evaluar directamente si los laboratorios pueden entregar
resultados correctos, es decir, resultados que concuerdan con xpt dentro de sus incertidumbres de
medición. Las puntuaciones ζ se pueden interpretar usando los mismos valores críticos de 2,0 y
3,0 que para las puntuaciones z, o con múltiplos del factor de cobertura del participante que se usa
al estimar la incertidumbre expandida. Sin embargo, una puntuación ζ adversa puede indicar una
gran desviación de xi de xpt, una subestimación de la incertidumbre por parte del participante o una
combinación de ambas.
NOTA Puede ser útil para el proveedor de ensayos de aptitud brindar información adicional sobre la validez de las
incertidumbres informadas. En 9.8 se sugieren pautas útiles para dicha evaluación.
9.6.3 Las puntuaciones ζ se pueden usar junto con las puntuaciones z, como una ayuda para mejorar
el desempeño de los participantes, de la siguiente manera. Si un participante obtiene puntuaciones z
que exceden repetidamente el valor crítico de 3,0, puede resultarle útil examinar su procedimiento de
ensayo paso a paso y derivar una evaluación de incertidumbre para ese procedimiento. La evaluación de
la incertidumbre identificará los pasos del procedimiento donde surgen las mayores incertidumbres, de
modo que el participante pueda ver donde debe esforzarse para lograr una mejora. Si las puntuaciones
ζ del participante también exceden repetidamente el valor crítico de 3,0, implica que la evaluación
de la incertidumbre del participante no incluye todas las fuentes significativas de incertidumbre
(es decir, les falta algo importante). Por el contrario, si un participante obtiene repetidamente
puntuaciones z ≥ 3 pero puntuaciones ζ ≤ 2, esto demuestra que el participante puede haber
evaluado la incertidumbre de sus resultados con precisión, pero que sus resultados no cumplen
con el desempeño esperado para el programa de ensayo de aptitud. Este puede ser el caso,
por ejemplo, de un participante que utiliza un método de cribado en procedimientos de medición en
los que los demás participantes aplican métodos cuantitativos. No es necesaria ninguna acción si el
participante considera que la incertidumbre de sus resultados es suficiente.
NOTA Cuando se usa solo una puntuación ζ, solo puede interpretarse como una prueba de si la incertidumbre del
participante es coherente con la desviación particular observada y no puede interpretarse como una indicación de la
idoneidad para el propósito de los resultados de un participante en particular. La determinación de la idoneidad para el
propósito se puede realizar por separado (por ejemplo, por el participante o por un organismo de acreditación) examinando
la desviación x-xpt o las incertidumbres estándar combinadas en comparación con una incertidumbre objetivo.
9.7 Puntuaciones En
9.7.1 Las puntuaciones En pueden ser útiles cuando un objetivo para el programa de ensayo de
aptitud es evaluar la capacidad de un participante para obtener resultados cercanos al valor asignado
dentro de su incertidumbre expandida declarada. Este estadístico es convencional para ensayos de
aptitud en calibración, pero puede usarse para otros tipos de ensayos de aptitud.
en que:
NOTA La combinación directa de incertidumbres expandidas no es coherente con el requisito de ISO/IEC Guide 98-3
y no es equivalente al cálculo de una incertidumbre expandida combinada a menos que tanto los factores de cobertura
como los grados de libertad efectivos sean idénticos para U(xi) y U(xpt).
9.7.2 Las puntuaciones En deberían interpretarse con cautela, porque son proporciones de dos
medidas de desempeño separadas (pero relacionadas). El numerador es la desviación del resultado
del valor asignado y tiene una interpretación discutida en 9.3. El denominador es una incertidumbre
expandida combinada que no debería ser mayor que la desviación en el numerador, si el participante
ha determinado U(xi) correctamente y si el proveedor de ensayos de aptitud ha determinado U(xpt)
correctamente. Por lo tanto, las puntuaciones de En ≥ 1,0 o En ≤ -1,0 podrían indicar la necesidad de
revisar las estimaciones de incertidumbre o corregir un problema de medición; De manera similar,
-1,0 < En < 1,0 debería tomarse como un indicador de desempeño exitoso solo si las incertidumbres
son válidas y la desviación xi-xpt es menor que la que necesitan los clientes del participante.
NOTA Si bien la interpretación de las puntuaciones En puede ser difícil, eso no impide su uso. La incorporación de
información sobre la incertidumbre en la interpretación de los resultados de los ensayos de aptitud puede desempeñar
un papel importante en la mejora de la comprensión de los participantes sobre la incertidumbre de la medición y su
evaluación.
© ISO 2022 - Todos los derechos reservados
© INN 2023 - Para la adopción nacional 35
Impreso por: Pablo Medina Dávila Solicitado por: Monica Vega
NCh3800:2023
ISO 13528:2022
9.8.1 Con la creciente aplicación de ISO/IEC 17025 hay una mejor comprensión de la incertidumbre
de medición. El uso de evaluaciones de laboratorio de la incertidumbre en la evaluación del desempeño
ha sido común en los programas de ensayo de aptitud en diferentes áreas de calibración, como con las
puntuaciones En, pero no ha sido común en los ensayos de aptitud para laboratorios de ensayo. Las
puntuaciones ζ descritas en 9.6 y las puntuaciones En en 9.7 son opciones para evaluar los resultados
frente a la incertidumbre declarada.
9.8.2 Algunos proveedores de ensayos de aptitud han reconocido la utilidad de pedir a los laboratorios
que informen sobre la incertidumbre de los resultados en los ensayos de aptitud. Esto puede ser útil
incluso cuando las incertidumbres no se utilizan en la puntuación. Hay varios propósitos para recopilar
dicha información:
a) los organismos de acreditación pueden asegurar que los participantes están informando
incertidumbres que son coherentes con su alcance de acreditación;
b) los participantes pueden revisar su incertidumbre informada junto con la de otros participantes,
para evaluar la coherencia (o no) y, por lo tanto, tener la oportunidad de identificar si su evaluación
de la incertidumbre no está contando todos los componentes relevantes o está contando en
exceso algunos componentes;
c) los ensayos de aptitud se pueden utilizar para confirmar afirmaciones de incertidumbre, y esto es
más fácil cuando la incertidumbre se informa con el resultado.
NOTA En cláusula E.4 se encuentra un ejemplo del análisis de datos cuando se informan incertidumbres.
9.8.3 Cuando xpt se determina utilizando los procedimientos de 7.3 a 7.6 y u(xpt) cumple el criterio
de 9.2.1, entonces es poco probable que el resultado de un participante tenga una incertidumbre
estándar menor que esta, por lo que u(xpt) podría ser utilizado como un límite inferior para la detección,
llamado umín.. Si el valor asignado se determina a partir de los resultados de los participantes (ver 7.7),
entonces el proveedor de ensayos de aptitud debería determinar los límites prácticos de detección
para umin.
NOTA Si u(xpt) incluye variabilidad debido a falta de homogeneidad o inestabilidad, el u(xi) del participante puede
ser menor que umin.
9.8.4 También es poco probable que la incertidumbre estándar informada de cualquier participante
sea mayor que 1,5 veces la desviación estándar robusta de los participantes (1,5s*), por lo que
esto puede usarse como un límite superior práctico para evaluar las incertidumbres informadas,
denominadas umáx..
NOTA 1 El factor 1,5 es el límite superior de la variabilidad en las desviaciones estándar que se puede esperar
para una desviación estándar de consenso con 10 o más resultados, con base en la raíz cuadrada de los percentiles
de la distribución F. Un proveedor de ensayos de aptitud que adopte este procedimiento puede utilizar un multiplicador
diferente.
NOTA 2 Son posibles proporciones superiores a 1,5 cuando los participantes utilizan una amplia variedad de métodos.
9.8.5 Si se utilizan umín. o umáx., u otros criterios, para identificar incertidumbres aberrantes, el
proveedor de ensayos de aptitud debería explicar esto a los participantes y dejar en claro que una
incertidumbre informada, u(xi), puede ser válida incluso si es menor que umin o mayor que umáx.;
y cuando esto ocurra, los participantes y las partes interesadas deberían verificar el resultado o la
estimación de la incertidumbre. De manera similar, una incertidumbre informada puede ser mayor que
umín. y menor que umáx., y aun así no ser válida. Estos son solo indicadores informativos.
9.8.6 Los proveedores de ensayos de aptitud también pueden llamar la atención sobre incertidumbres
inusualmente altas o bajas en función de, por ejemplo:
— cuantiles especificados para las incertidumbres informadas (por ejemplo, por debajo del
percentil 5 y por encima del percentil 95 de las incertidumbres estándar o ampliadas informadas);
— límites basados en una distribución supuesta con una escala basada en la dispersión de las
incertidumbres notificadas;
NOTA Dado que es poco probable que las incertidumbres se distribuyan normalmente, es probable que sea necesaria
una transformación cuando se utilizan límites que se basan en una normalidad aproximada o subyacente; por ejemplo, los
límites de los bigotes de los diagramas de caja basados en el rango intercuartílico tienen una interpretación probabilística
solo cuando la distribución es aproximadamente normal.
9.9.1 Es común, dentro de una sola ronda de un programa de ensayo de aptitud, que se obtengan
resultados para más de un ítem de ensayo de aptitud o para más de un mensurando. En esta situación,
los resultados de cada ítem de ensayo de aptitud y de cada mensurando deberían interpretarse
como se describe en 9.3 a 9.7; es decir, los resultados para cada ítem de ensayo de aptitud y cada
mensurando deberían evaluarse por separado.
9.9.2 Hay aplicaciones cuando se incluyen dos o más ítems de ensayo de aptitud con niveles
especialmente diseñados en un programa de ensayo de aptitud para medir otros aspectos del
desempeño, como investigar la repetibilidad, el error sistemático o la linealidad. Por ejemplo, se pueden
usar dos ítems de ensayo de aptitud similares en un programa de ensayo de aptitud con la intención de
tratarlos con un gráfico de Youden, como se describe en 10.5. En tales casos, el proveedor de ensayos
de aptitud debería proporcionar a los participantes las descripciones completas del diseño estadístico
y los procedimientos que se utilizan.
9.9.3 Los métodos gráficos descritos en cláusula 10 deberían usarse cuando se obtienen resultados
para más de un ítem de ensayo de aptitud o para varios mensurandos, siempre que estén estrechamente
relacionados y/o se obtengan por el mismo método. Estos procedimientos combinan puntuaciones de
desempeño de manera que no ocultan valores altos de puntuaciones individuales y pueden revelar
información adicional sobre el desempeño de los participantes, como la correlación entre resultados
para diferentes medidas, que no es evidente en las tablas de puntuaciones individuales.
9.9.4 En los programas de ensayos de aptitud que involucran una gran cantidad de mensurandos,
se puede usar un conteo o proporción de la cantidad de señales de acción y advertencia para evaluar
el desempeño.
obtenidos en cada ronda de un programa de ensayos de aptitud para preparar gráficos como los
descritos en 10.2 y 10.3. El uso de puntuaciones de desempeño, como las puntuaciones PA, z, z’,
ζ o En en estos gráficos tienen la ventaja de que se pueden dibujar utilizando ejes estandarizados,
lo que simplifica su presentación e interpretación. Los gráficos deberían estar disponibles para los
participantes, lo que permite que cada participante vea donde se encuentran sus propios resultados
en relación con los obtenidos por los demás participantes. Se pueden usar códigos de letras o
números para representar a los participantes, de modo que cada participante pueda identificar sus
propios resultados pero no pueda determinar qué participante obtuvo ningún otro resultado. Los
gráficos también pueden ser utilizados por el proveedor de ensayos de aptitud y cualquier organismo
de acreditación, para permitirles juzgar la efectividad general del programa de ensayos de aptitud y ver
si es necesario revisar los criterios utilizados para evaluar el desempeño.
NOTA Las siguientes subsecciones dan una lista no exhaustiva de técnicas gráficas seleccionadas que se han
encontrado útiles en los ejercicios de ensayo de aptitud. Otros métodos gráficos pueden ser útiles, incluidos los diagramas
de caja y bigotes y los gráficos de los resultados de los participantes frente a la incertidumbre informada. Los diagramas
de caja y bigotes se describen, por ejemplo, en ISO 16269-4[38]. En la referencia [39] se describe un diagrama gráfico útil
para los resultados de los participantes y las incertidumbres.
10.2.1 El histograma es una herramienta estadística común y es útil en dos puntos diferentes en el
análisis de los resultados de los ensayos de aptitud. El gráfico es útil en la etapa de análisis preliminar,
para verificar si los supuestos estadísticos son razonables o si existe una anomalía, como una
distribución bimodal, una gran proporción de valores atípicos o un sesgo inusual que no se anticipó.
Los histogramas también pueden ser útiles en informes para el programa de ensayos de aptitud, para
describir las puntuaciones de desempeño o para comparar resultados, por ejemplo, en diferentes
métodos o diferentes ítems de ensayos de aptitud. Los histogramas son particularmente útiles en
informes individuales para programas de ensayos de aptitud de tamaño pequeño o moderado (menos
de 100 participantes) para permitirles a los participantes evaluar cómo se compara su desempeño con
otros participantes, por ejemplo, resaltando un bloque dentro de una barra vertical para representar el
desempeño de un participante resultado o, en pequeños programas de ensayo de aptitud (menos de
50 participantes), utilizando caracteres de trama individualizados para cada participante.
10.2.2 Los histogramas se pueden preparar utilizando los resultados reales de los participantes o las
puntuaciones de desempeño. Los resultados de los participantes tienen la ventaja de estar directamente
relacionados con los datos enviados y pueden evaluarse sin más cálculos o transformaciones de
la puntuación de desempeño al error de medición. Los histogramas basados en puntuaciones de
desempeño tienen la ventaja de relacionarse directamente con las evaluaciones de desempeño y
pueden compararse fácilmente entre medidas y rondas de un programa de ensayo de aptitud.
El rango y el ancho de la clase utilizada para un histograma deberían determinarse para cada conjunto
de datos, en función de la variabilidad y la cantidad de resultados. A menudo es posible hacer esto en
base a la experiencia con los ensayos de aptitud, pero en la mayoría de las situaciones será necesario
ajustar las agrupaciones después de la primera vista. Si se utilizan puntuaciones de desempeño en el
histograma, es útil tener una escala basada en la desviación estándar para la evaluación de la aptitud
y puntos de corte para las señales de advertencia y acción.
10.2.3 La escala y los intervalos de los gráficos deberían elegirse de manera que se pueda detectar la
bimodalidad (si está presente), sin crear falsas advertencias debido a la resolución de los resultados
NOTA 1 La apariencia de los histogramas es sensible al ancho del intervalo elegido y a la localización de los límites
del intervalo (para un ancho de intervalo constante, esto depende en gran medida del punto de partida). Si el ancho del
contenedor es demasiado pequeño, el gráfico mostrará muchos modos pequeños; Es posible que los modos demasiado
grandes y apreciables cerca del cuerpo principal no se distingan lo suficiente. La apariencia de los modos angostos y las
alturas relativas de las barras adyacentes pueden cambiar considerablemente al cambiar la posición inicial o el ancho del
contenedor, especialmente cuando el conjunto de datos es pequeño y/o muestra algún agrupamiento.
10.3.1 Un gráfico de densidad kernel, a menudo abreviado como ‘gráfico de densidad’, proporciona
una curva suave que describe la forma general de la distribución de un conjunto de datos. La idea
que subyace a la estimación del kernel es que cada punto de datos se reemplaza por una distribución
específica (típicamente normal), centrada en el punto y con una desviación estándar σk; σk suele
denominarse “ancho de banda”. Estas distribuciones se suman y la distribución resultante, escalada
para tener una unidad de área, da una “estimación de densidad” que se puede trazar como una curva
suave.
10.3.2 Se pueden seguir los siguientes pasos para preparar un diagrama de densidad kernel. Se
supone que un conjunto de datos X que consta de p valores x1, x2, ..., xp se incluirán en el gráfico.
Por lo general, estos son resultados de los participantes, pero pueden ser puntuaciones de desempeño
derivados de los resultados.
i) Elegir un ancho de banda apropiado σk. Dos opciones son particularmente útiles:
a) Para una inspección general, establezca σk = 0,9 s*/p0,2 donde s* es una desviación estándar
robusta de los valores x1, ..., xp calculados usando los procedimientos en cláusula C.2 o C.3.
b) Para examinar el conjunto de datos para modos brutos que son importantes en comparación
con el criterio para la evaluación del desempeño, establezca σk = 0,75 σpt si usa puntuaciones
z o ζ, o σk = 0,25 δE si usa D o D%.
NOTA 1 La opción a) anterior sigue a Silverman[30], que recomienda s* en función del rango intercuartílico
normalizado (nIQR). Otras reglas de selección de ancho de banda que proporcionan resultados similares incluyen la de
Scott[29], que reemplaza el multiplicador de 0,9 por 1,06. La Referencia [29] describe un método de selección de ancho
de banda casi óptimo, pero mucho más complejo. En la práctica, las diferencias para la inspección visual son leves y la
elección depende de la disponibilidad del software.
ii) Establecer un rango de trazado qmín. a qmáx. para que qmín. ≤ mín.(x1, ...xp ) - 3 σk y qmáx. ≥ máx.
(x1, ...xp) + 3 σk.
iii) Elegir un número de puntos nk para la curva trazada. nk = 200 suele ser suficiente a menos que
qi = q min + (i − 1)
(qnk − q1 ) (21)
nk − 1
v) Calcular nk densidades h1 a hnk de la Ecuación (22)
1 ⎛ x j − qi ⎞ (22)
∑
p
hi = ϕ⎜ para i = 1 a i = nk
p j =1 ⎝ σk ⎟⎠
NOTA 1 Una curva de densidad generalmente se extenderá más allá del rango de los datos; el rango de trazado q1
a qnk se elige comúnmente para que esté al menos 3 σk más allá de los extremos del conjunto de datos. En ocasiones,
cuando esto se extiende más allá del rango factible de los datos (por ejemplo, por debajo de cero), la gráfica se puede
truncar en el límite del rango factible según sea necesario para evitar malas interpretaciones.
NOTA 2 Puede ser útil agregar las ubicaciones de los puntos de datos individuales al gráfico. Esto se hace más
comúnmente trazando las ubicaciones debajo de la curva de densidad trazada como marcadores verticales cortos
(a veces llamados “alfombra”), pero también se puede hacer trazando los puntos de datos en los puntos apropiados a lo
largo de la curva de densidad calculada.
NOTA 3 Los diagramas de densidad se realizan mejor mediante software. El cálculo paso a paso anterior se puede
realizar en una hoja de cálculo para tamaños de conjuntos de datos modestos. El software estadístico patentado y disponible
gratuitamente a menudo incluye diagramas de densidad basados en opciones de ancho de banda predeterminadas
similares. Las implementaciones de software avanzadas de gráficos de densidad pueden usar este algoritmo o cálculos
más rápidos basados en métodos de convolución.
NOTA 4 En cláusulas E.3, E.4 y E.6 se dan ejemplos de diagramas de densidad kernel.
10.3.3 La forma de la curva se toma como una indicación de la distribución a partir de la cual se
extrajeron los datos. Los distintos modos aparecen como picos separados. Los valores atípicos
aparecen como picos separados bien separados del cuerpo principal de los datos.
NOTA 1 Un gráfico de densidad es sensible al ancho de banda k elegido. Si el ancho de banda es demasiado pequeño,
el gráfico mostrará muchos modos pequeños; Es posible que los modos demasiado grandes y apreciables cerca del
cuerpo principal no se distingan lo suficiente.
NOTA 2 Al igual que los histogramas, los diagramas de densidad se utilizan mejor con conjuntos de datos de moderados
a grandes porque los conjuntos de datos pequeños (diez o menos) pueden por casualidad incluir valores atípicos leves o
modas aparentes, particularmente cuando se usa una desviación estándar robusta como base para el ancho de banda.
10.4.1 Los diagramas de barras son un método adecuado para presentar las puntuaciones de
desempeño para un número de características similares en un gráfico. Revelarán si hay alguna
característica común en las puntuaciones de un participante, por ejemplo, si un participante logra
varias puntuaciones z altos que indican un desempeño generalmente bajo, ese participante puede
tener un sesgo positivo.
10.4.2 Para preparar un diagrama de barras, recopile las puntuaciones de desempeño estandarizados
en un diagrama de barras, como se muestra en Figura E.10, en el que se agrupan las puntuaciones
de cada participante. Se pueden trazar otras puntuaciones de desempeño estandarizadas, como D%
o PA con el mismo propósito.
NOTA 1 Un gráfico de barras u otro gráfico de puntuaciones de desempeño en orden de puntuación creciente puede
ayudar a los participantes a comparar su desempeño rápidamente con el de la mayoría de los demás participantes.
10.5.1 Cuando se han probado dos ítems de ensayo de aptitud similares en una ronda de un programa
de ensayo de aptitud, el gráfico de Youden proporciona un método gráfico muy informativo para estudiar
los resultados. Puede ser útil para demostrar la correlación (o independencia) de los resultados en
diferentes ítems de ensayos de aptitud y para orientar las investigaciones sobre las razones de las
señales de acción.
10.5.2 El gráfico se construye trazando los resultados de los participantes, o las puntuaciones z,
obtenidas en uno de los ítems de ensayo de aptitud contra los resultados de los participantes o las
puntuaciones z obtenidos en el otro ítem de ensayo de aptitud. Las líneas verticales y horizontales
generalmente se dibujan para crear cuatro cuadrantes de valores, para ayudar a la interpretación. Las
líneas se dibujan en los valores asignados o en las medianas para las dos distribuciones de resultados,
o se dibujan en 0 si se trazan puntuaciones z.
NOTA Para una interpretación adecuada de los gráficos de Youden, es importante que los dos ítems del ensayo
de aptitud tengan niveles similares (o idénticos) del mensurando; esto es para que la naturaleza de cualquier error de
medición sistemático sea la misma en esa área del intervalo de medición. Los gráficos de Youden pueden ser útiles para
niveles muy diferentes de un mensurando en presencia de un error sistemático coherente, pero pueden ser engañosos si
un error de calibración no es coherentemente positivo o negativo en todo el rango de niveles de mensurando.
© ISO 2022 - Todos los derechos reservados
© INN 2023 - Para la adopción nacional 41
Impreso por: Pablo Medina Dávila Solicitado por: Monica Vega
NCh3800:2023
ISO 13528:2022
a) Inspeccionar la gráfica en busca de puntos que estén bien separados del resto de los datos. Si un
participante no está siguiendo el método de ensayo correctamente, de modo que sus resultados
estén sujetos a errores sistemáticos, se le otorgará un punto en los cuadrantes inferior izquierdo
o superior derecho. Los puntos alejados de los demás en los cuadrantes superior izquierdo e
inferior derecho representan participantes cuya repetibilidad es mayor que la de la mayoría de
los demás participantes, cuyos métodos de medición muestran una sensibilidad diferente a la
composición de los ítems de ensayo de aptitud o, a veces, participantes que han intercambiado
accidentalmente los ítems de ensayo de aptitud.
b) Inspeccionar el gráfico para ver si hay evidencia de una relación general entre los resultados de
los dos ítems del ensayo de aptitud (por ejemplo, si se encuentran aproximadamente a lo largo
de una línea inclinada). Si hay evidencia de una relación, entonces muestra que hay evidencia de
sesgo del participante que afecta a diferentes ítems del ensayo de aptitud de manera similar. Si
no existe una relación visual aparente entre los resultados (por ejemplo, los puntos se distribuyen
de manera aproximadamente uniforme en una región circular, generalmente con mayor densidad
hacia el centro), entonces los errores de medición para los dos ítems de ensayo de aptitud son en
gran medida independientes. Esto se puede verificar con un estadístico de correlación de rango,
si el examen visual no es concluyente.
NOTA 1 En estudios en los que todos los participantes usan el mismo método de medición, o los gráficos de resultados
son de un solo método de medición, si los resultados se encuentran a lo largo de una línea, esto puede ser evidencia
de que el método de medición no se ha especificado adecuadamente. La investigación del método de ensayo puede
entonces permitir mejorar la reproducibilidad del método en general.
NOTA 3 En Referencia [36] se proporciona un método general para construir elipses de confianza que se puede utilizar
para ayudar a la interpretación de un gráfico de Youden. Los estimadores resistentes a valores atípicos del coeficiente
de correlación y la covarianza para elipses de confianza en presencia de valores atípicos se analizan y comparan en
Referencia [40].
10.6.1 Cuando los participantes realizan mediciones replicadas en una ronda de un programa de
ensayo de aptitud, los resultados pueden usarse para producir una gráfica para identificar a cualquier
participante cuyo promedio y desviación estándar sean inusuales.
10.6.2 El gráfico se construye trazando la desviación estándar si dentro de los participantes para cada
participante contra el promedio xi correspondiente para el participante. Alternativamente, se puede
usar el rango de resultados replicados en lugar de la desviación estándar. Dejar
w* = el promedio combinado robusto de s1, s2, ..., sp, calculado por el Algoritmo S
y suponga que los datos se distribuyen normalmente. Bajo la hipótesis nula de que no hay diferencia
entre los participantes en los valores poblacionales de las medias de los participantes o de las
desviaciones estándar dentro de los participantes, el estadístico
2
xi − x ∗⎞
2
⎛ ⎛ ⎛ si ⎞ ⎞ (23)
⎜⎝ m + ⎜ 2 (m − 1) ln ⎜ ⎟ ⎟
w ∗ ⎟⎠ ⎝ ⎝w ∗ ⎠ ⎠
tiene aproximadamente la distribución χ2 con 2 grados de libertad. Por lo tanto, se puede dibujar en el
gráfico una región crítica con un nivel de significación de aproximadamente el 1% trazando
⎧ x − x ∗ ⎞ ⎫⎪
⎛
2 (24)
⎪ 1
s = w ∗ exp ⎨± χ22;0,99 − ⎜ m ⎬
⎪⎩ 2 (m − 1) ⎝ w ∗ ⎟⎠ ⎪
⎭
x = x∗ −w∗ a x∗ +w∗
m m
NOTA Este procedimiento se basa en la técnica del círculo introducida por van Nuland[36]. El método descrito
utilizó una aproximación Normal simple para la distribución de la desviación estándar que puede dar una región crítica
que contiene desviaciones estándar negativas. El método dado aquí usa una aproximación para la distribución de la
desviación estándar que evita este problema, pero la región crítica ya no es un círculo como en el original. Además, se
utilizan valores robustos para el punto central en lugar de promedios simples como en el método original.
10.6.3 La gráfica puede indicar participantes con un sesgo inusualmente grande, dada su repetibilidad.
Si hay una gran cantidad de repeticiones, esta técnica también puede identificar a los participantes
con una repetibilidad excepcionalmente pequeña. Sin embargo, debido a que generalmente hay un
pequeño número de réplicas, las interpretaciones son difíciles.
10.7.1 Las muestras divididas se utilizan cuando es necesario realizar una comparación detallada
de dos participantes, o cuando no se dispone de ensayos de aptitud y se necesita alguna verificación
externa. Se obtienen muestras de varios materiales, que representan una amplia gama de niveles de
la propiedad de interés, cada muestra se divide en dos partes y cada laboratorio obtiene cierto número
(al menos dos) de determinaciones replicadas en parte de cada muestra.
En ocasiones, pueden estar involucrados más de dos participantes, en cuyo caso uno debería ser
tratado como referencia y los demás deberían ser comparados con él utilizando las técnicas aquí
descritas.
NOTA 1 Este tipo de estudio es común, pero a menudo se denomina de manera diferente, como “muestra pareada” o
“comparaciones bilaterales”.
NOTA 2 Este diseño de muestra dividida no debe confundirse con el diseño de “nivel dividido” utilizado en ISO 5725,
que involucra dos ítems de ensayo con niveles ligeramente diferentes proporcionados a todos los participantes.
10.7.2 Los datos de un diseño de muestra dividida se pueden usar para producir gráficos que
muestren la variación entre las mediciones replicadas para los dos participantes y las diferencias
entre sus resultados promedio para cada ítem de ensayo de aptitud. Los gráficos bivariados que
usan el rango completo de concentraciones pueden tener una escala que dificulta la identificación
de diferencias importantes entre los participantes, por lo que los gráficos de las diferencias o las
diferencias porcentuales entre los resultados de los dos participantes pueden ser más útiles. El análisis
posterior dependerá de las deducciones hechas a partir de estos gráficos.
10.8.1 Cuando las puntuaciones de desempeño estandarizados deben combinarse en varias rondas
de un programa de ensayos de aptitud, el proveedor de ensayos de aptitud puede considerar preparar
gráficos, como se describe en 10.8.2 o 10.8.3. El uso de estos gráficos, en los que se combinan las
puntuaciones de desempeño de varias rondas de un programa de ensayo de aptitud, puede permitir
identificar tendencias y otras características de los resultados que no son evidentes cuando se
NOTA Con el uso de “puntuaciones de ejecución” o “puntuaciones acumulativos”, en los que las puntuaciones
de desempeño obtenidos por un participante se combinan en varias rondas de un programa de ensayo de aptitud, la
visualización gráfica de las puntuaciones de desempeño puede ayudar a la interpretación. El participante puede tener una
falla que se presente con el ítem de ensayo de aptitud utilizado en una ronda pero no en las otras; una puntuación corriente
podría ocultar esta falta. Sin embargo, en algunas circunstancias (por ejemplo, con rondas frecuentes), el “suavizado” de
puntuaciones atípicas ocasionales puede ser útil para demostrar el desempeño subyacente más claramente.
10.8.2 La carta de control de Shewhart es un método efectivo para identificar problemas que causan
valores erráticos grandes de puntuaciones z. Ver ISO 7870-2[6] para obtener consejos sobre cómo
trazar las cartas de Shewhart y las reglas para los límites de acción.
10.8.2.1 Para preparar este gráfico, las puntuaciones estandarizadas, como las puntuaciones z o las
puntuaciones PA, para un participante se trazan como puntos individuales, con límites de acción y
advertencia establecidos de acuerdo con el diseño del programa de ensayos de aptitud. Cuando se
miden varias características en cada ronda de un programa de ensayo de aptitud, las puntuaciones de
desempeño para diferentes características pueden trazarse en el mismo gráfico, pero los puntos para
las diferentes características deberían trazarse usando diferentes símbolos de trazado y/o diferentes
colores. Cuando se incluyen varios ítems de ensayo de aptitud en la misma ronda del programa de
ensayo de aptitud, las puntuaciones de desempeño se pueden graficar junto con múltiples puntos en
cada período de tiempo. También se pueden agregar a la gráfica líneas que unen las puntuaciones
medias en cada punto de tiempo.
10.8.2.2 Las reglas convencionales para interpretar la carta de control de Shewhart son que se da una
señal fuera de control cuando
a) un solo punto cae fuera de los límites de acción (± 3,0 para puntuaciones z, o 100% para PA);
b) dos de tres puntos sucesivos fuera de cualquiera de los límites de advertencia (± 2,0 para
puntuaciones z o 70% para PA);
10.8.2.3 Cuando una carta de control de Shewhart da una señal fuera de control, el participante
debería investigar las posibles causas.
NOTA La desviación estándar para la evaluación de la aptitud σpt no suele ser la desviación estándar de las diferencias
(xi −xp), por lo que los niveles de probabilidad que suelen estar asociados con los límites de acción y advertencia de una
carta de control de Shewhart no siempre se aplican.
10.8.3 Cuando el nivel de una propiedad varía de una ronda de un programa de ensayo de aptitud
a otra, los gráficos de puntuaciones de desempeño estandarizados, como z y PA, contra el valor
asignado mostrarán si el sesgo del participante cambia con el nivel. Cuando se incluye más de un
ítem de ensayo de aptitud en la misma ronda del programa de ensayo de aptitud, las puntuaciones de
desempeño se pueden trazar de forma independiente.
NOTA 1 Puede ser útil tener un símbolo de trazado diferente o un color diferente para los resultados de la ronda actual
del programa de ensayo de aptitud, para distinguir los puntos de las rondas anteriores.
NOTA 2 En cláusula E.14 se proporciona un ejemplo de un gráfico de este tipo, utilizando puntuaciones PA. Esta
gráfica podría usar fácilmente puntuaciones z, con solo un cambio en la escala vertical.
Se realiza una gran cantidad de ensayos de aptitud para propiedades que se miden o identifican en
escalas cualitativas. Esto incluye lo siguiente:
— Esquemas de ensayos de aptitud que requieren informes en una escala categórica (a veces
llamada “nominal”), donde el valor de la propiedad no tiene magnitud (como un tipo de sustancia
u organismo);
— Esquemas de ensayos de aptitud que requieren resultados informados en una escala ordinal,
que puede ordenarse de acuerdo con la magnitud pero para los cuales no existen relaciones
aritméticas entre los diferentes resultados. Por ejemplo, “alto, medio y bajo” forman una escala
ordinal.
Dichos programas de ensayo de aptitud requieren una consideración especial para las etapas de
diseño, asignación de valor y evaluación del desempeño (puntuación) porque
NOTA La orientación para datos ordinales no se aplica a los resultados de medición que se basan en una escala
cuantitativa con indicaciones discontinuas (como diluciones o títulos); ver 5.2.2.
11.2.1 Para programas de ensayos de aptitud en los que la opinión de expertos es esencial para
la asignación de valor o para la evaluación de los informes de los participantes, normalmente será
necesario reunir un panel de expertos debidamente calificados y proporcionar tiempo para el debate
con el fin de lograr un consenso sobre los resultados apropiados asignación. Cuando sea necesario
depender de expertos individuales para la puntuación o la asignación de valores, el proveedor de
ensayos de aptitud también debería proporcionar la evaluación y el control de la coherencia de la
opinión entre diferentes expertos.
opinión de expertos para evaluar los portaobjetos de microscopio proporcionados a los participantes y proporcionar un
diagnóstico clínico apropiado para los ítems del ensayo de aptitud. El proveedor de ensayos de aptitud puede optar por
hacer circular los ítems de ensayo de aptitud “a ciegas” entre diferentes miembros del panel de expertos para asegurar la
consistencia del diagnóstico, o realizar ejercicios periódicos para evaluar el acuerdo entre el panel.
11.2.2 Para los programas de ensayos de aptitud que reportan resultados categóricos u ordinales
simples, de un solo valor, el proveedor de ensayos de aptitud debería considerar
— solicitar los resultados de un número de observaciones replicadas sobre cada ítem de ensayo de
aptitud, con el número de réplicas especificado de antemano.
Cualquiera de estas estrategias permite contar los resultados de cada participante que se pueden
usar para revisar los datos o para calificar. La provisión de dos o más ítems de ensayo de aptitud
puede proporcionar información adicional sobre la naturaleza de los errores y también permitir una
calificación más sofisticada del desempeño del ensayo de aptitud.
EJEMPLO 2 Los ensayos de aptitud en las comparaciones forenses a menudo requieren que los ítems de ensayo
de aptitud coincidan en cuanto a si provienen de la misma fuente o de fuentes diferentes (por ejemplo, huellas dactilares,
ADN, casquillos de balas, huellas, etc.). En muchos casos, “indeterminado” es una respuesta permitida. Un programa de
ensayo de aptitud puede incluir múltiples ítems de ensayo de aptitud de diferentes fuentes, y se les pide a los participantes
que indiquen cuáles son de “misma fuente”, “fuente diferente” o “indeterminado” para cada par. Esto permite puntuaciones
objetivas de número (o %) correcto o incorrecto, o número (%) de coincidencias correctas o rechazos correctos. Los
criterios de desempeño pueden entonces determinarse según la idoneidad para el uso o el grado de dificultad del desafío.
11.2.3 La homogeneidad debería demostrarse con la revisión de una muestra apropiada de ítems
de ensayo de aptitud, todos los cuales deberían demostrar el valor de propiedad esperado. Para
algunas propiedades cualitativas, por ejemplo presencia o ausencia, puede ser posible verificar la
homogeneidad con mediciones cuantitativas; por ejemplo, un recuento microbiológico o un espectro
de absorbancia por encima de un umbral. En estas situaciones, puede ser apropiada una prueba
convencional de homogeneidad, o una demostración de que todos los resultados están por encima o
por debajo de un valor de corte.
d) usar la moda o la mediana de los resultados de los participantes (la mediana es apropiada solo
para valores ordinales).
También se puede utilizar cualquier otro método de asignación de valor que pueda demostrar que
proporciona resultados fiables. Los siguientes párrafos consideran cada una de las estrategias
anteriores.
NOTA Por lo general, no es apropiado proporcionar información cuantitativa sobre la incertidumbre del valor asignado
en los programas de ensayos de aptitud cualitativos. No obstante, cada una de las subcláusulas 11.3.2. a 11.3.5 requiere
la provisión de información básica relacionada con la confianza en el valor asignado para que los participantes puedan
juzgar si un resultado deficiente podría atribuirse razonablemente a un error en la asignación del valor.
11.3.2 Los valores asignados por la opinión de expertos normalmente deberían basarse en el
consenso de un panel de expertos adecuadamente calificados. Cualquier desacuerdo significativo
entre el panel debería registrarse en el informe del programa de ensayos de aptitud para la ronda. Si el
panel no puede llegar a un consenso para un ítem de ensayo de aptitud en particular, el proveedor de
ensayos de aptitud puede considerar un método alternativo de asignación de valor de los enumerados
en 11.3.1. Si eso no es apropiado, el ítem de ensayo de aptitud no debería usarse para la evaluación
del desempeño de los participantes.
NOTA En algunos casos es posible que un solo experto determine el valor asignado.
11.3.3 Cuando se proporcione un material de referencia a los participantes como un ítem de ensayo
de aptitud, el valor de referencia asociado, o el valor certificado, normalmente debería usarse como
el valor asignado para la ronda del programa de ensayos de aptitud. Cualquier información resumida
proporcionada con el material de referencia que se relacione con la confianza en el valor asignado
debería estar disponible para los participantes después de la ronda.
11.3.4 Cuando los ítems del ensayo de aptitud se preparen a partir de una fuente conocida, el valor
asignado puede determinarse con base en el origen del material. El proveedor de ensayos de aptitud
debería conservar registros del origen, transporte y manipulación de los materiales utilizados. Se debe
tener el debido cuidado para evitar la contaminación que podría resultar en resultados incorrectos de
los participantes. La evidencia del origen y/o los detalles de la preparación deberían estar disponibles
para los participantes después de la ronda del programa de ensayos de aptitud, ya sea a pedido o
como parte del informe de esa ronda.
EJEMPLO Los artículos de ensayo de aptitud de vino que circulan para un programa de ensayo de aptitud de autenticidad
podrían obtenerse directamente de un productor adecuado en la región de origen designada, o a través de un proveedor
comercial capaz de garantizar la autenticidad.
NOTA Los detalles adicionales sobre la caracterización de tales ítems de ensayo de aptitud están más allá del
alcance de esta norma.
11.3.5 La moda (la observación más común) se puede usar como el valor asignado para los resultados
en una escala categórica u ordinal, mientras que la mediana se puede usar como el valor asignado
para los resultados en una escala ordinal. Cuando se utilicen estos estadísticos, el informe de la ronda
del programa de ensayos de aptitud debería incluir una declaración de la proporción de los resultados
utilizados en la asignación de valor que coincidieron con el valor asignado. Nunca es apropiado calcular
medias o desviaciones estándar para resultados de ensayos de aptitud para propiedades cualitativas,
incluidos los valores ordinales. Esto se debe a que no existe una relación aritmética entre los diferentes
valores de cada escala.
11.3.6 Cuando los valores asignados se basan en mediciones (por ejemplo, presencia o ausencia),
el valor asignado generalmente puede determinarse definitivamente; es decir, con baja incertidumbre.
Los cálculos estadísticos de incertidumbre pueden ser apropiados para niveles de mensurando en
niveles “indeterminados” o “equívocos”.
11.4.2 La evaluación de expertos de los informes de los participantes requiere que uno o más expertos
individuales revisen cada informe de los participantes para cada ítem de ensayo de aptitud y asigne
una marca o puntuación de desempeño. En tal programa de ensayos de aptitud, el proveedor de
ensayos de aptitud debería asegurarse de que:
— siempre que sea posible, se prevé la posibilidad de que los participantes apelen contra la opinión
de un experto en particular y/o la revisión secundaria de opiniones cercanas a cualquier umbral
11.4.3 Se pueden utilizar dos sistemas para puntuar un solo resultado cualitativo informado en función
de un valor asignado:
a) Cada resultado se marca como aceptable (o se califica como un éxito) si coincide exactamente
con el valor asignado y se marca como inaceptable, o se le otorga una puntuación de desempeño
adversa, de lo contrario.
EJEMPLO En un programa de ensayo de aptitud para determinar la presencia o ausencia de un contaminante, los
resultados correctos se califican como 1 y los incorrectos como 0.
b) Los resultados que coinciden exactamente con el valor asignado se marcan como aceptables
y se les otorga la puntuación correspondiente; los resultados que no coinciden exactamente
con el valor asignado reciben una puntuación que depende de la naturaleza de la discrepancia.
Dichos diseños de puntuación deberían asignar puntuaciones más bajas a un mejor desempeño,
para ser coherentes con otros tipos de puntuaciones de desempeño (por ejemplo, puntuación z,
puntuación PA, ζ y En).
EJEMPLO 1 En un programa de ensayos de aptitud en patología clínica, un proveedor de ensayos de aptitud asigna
una puntuación de “0” para una identificación exactamente correcta de una especie microbiológica, “1” punto para un
resultado que es incorrecto pero que no cambiaría el tratamiento clínico (por ejemplo, identificación como una especie
microbiológica diferente pero relacionada que requiere un tratamiento similar), y 3 puntos por una identificación que es
incorrecta y conduciría a un tratamiento incorrecto de un paciente. Este esquema de puntuación generalmente requerirá
el juicio de expertos sobre la naturaleza del desajuste, tal vez obtenido antes de la puntuación.
EJEMPLO 2 En un programa de ensayo de aptitud para el cual son posibles seis respuestas posibles clasificadas
en una escala ordinal, un resultado que coincida con el valor asignado recibe una puntuación de 0 y la puntuación se
incrementa en 2 por cada diferencia en la clasificación hasta que la puntuación aumenta a un máximo de 6 (por lo que
un resultado adyacente al valor asignado atraería una puntuación de 2).
11.4.4 Cuando se notifiquen múltiples réplicas para cada ítem de ensayo de aptitud o cuando se
proporcionen múltiples ítems de ensayo de aptitud a cada participante, el proveedor de ensayos de
aptitud puede calcular y utilizar puntuaciones de desempeño combinados o resúmenes de puntuaciones
en la evaluación del desempeño. Las puntuaciones o resúmenes de desempeño combinados se
pueden calcular como, por ejemplo:
— la suma simple de las puntuaciones de desempeño en todos los ítems del ensayo de aptitud;
— una métrica de distancia basada en las diferencias entre los resultados y los valores asignados.
EJEMPLO Una medida de diferencia muy general que a veces se usa para datos cualitativos es el coeficiente de Gower[20].
Esto puede combinar variables cuantitativas y cualitativas basadas en una combinación de puntuaciones de similitud.
Para datos categóricos o binarios, el índice asigna una puntuación de 1 para categorías que coinciden exactamente y 0
en caso contrario; para las escalas ordinales, asigna una puntuación igual a 1 menos la diferencia de rango dividida por el
número de rangos disponibles, y para los datos de escala de intervalo o razón, asigna una puntuación igual a 1 menos la
diferencia absoluta dividida por el rango observado de todos los valores. Estas puntuaciones, que son todos necesariamente
de 0 a 1, se suman y la suma se divide por el número de variables utilizadas. También se puede utilizar una variante
ponderada.
Las puntuaciones de desempeño combinados pueden asociarse con una evaluación de desempeño
resumida. Por ejemplo, una proporción particular (generalmente alta) de puntuaciones correctos puede
considerarse un desempeño ‘aceptable’, si es coherente con los objetivos del programa de ensayos
de aptitud.
11.4.5 Los métodos gráficos se pueden utilizar para proporcionar información de desempeño a los
participantes o para proporcionar información resumida en un informe para una ronda de programa de
ensayo de aptitud.
Anexo A
(normativo)
Símbolos
di Diferencia entre un valor de medición para un ítem de ensayo de aptitud y un valor asignado para un MRC
d Diferencia media entre los valores de medición y el valor asignado para un MRC
δhom Error debido a la diferencia entre los ítems del ensayo de aptitud
En Puntuación de “Error, normalizado” que incluye incertidumbres para el resultado del participante y el valor
asignado
m Número de mediciones replicadas que debe realizar cada participante en un ítem de ensayo de aptitud
p Número de participantes que toman parte en una ronda de un programa de ensayos de aptitud
σk Desviación estándar del ancho de banda utilizada para gráficos de densidad del núcleo
udiff Incertidumbre estándar de la diferencia entre un valor de referencia independiente o un promedio robusto y un
valor asignado
Udiff Incertidumbre expandida de la diferencia entre un valor de referencia independiente o un promedio robusto y un
valor asignado
uhom Incertidumbre estándar debido a las diferencias entre los ítems de ensayo de aptitud (“falta de homogeneidad”)
umáx. Límite superior para la incertidumbre estándar utilizada para evaluar la incertidumbre de medición informada por
los participantes
umín. Límite inferior para la incertidumbre estándar utilizada para evaluar la incertidumbre de medición informada por
los participantes
xdiff diferencia entre un valor de referencia independiente o un promedio robusto y un valor asignado
ζ Puntuación zeta: puntuación z modificada que incluye incertidumbres para el resultado del participante y el valor
asignado
NOTA Las referencias al cálculo de parámetros como la media, la desviación estándar, etc. en esta norma se
entiende que se refieren a estimaciones muestrales de los parámetros de población correspondientes. Sin embargo, la
calificación “estimación de” o “estimado” se ha omitido por brevedad.
Anexo B
(informativo)
Elegir una propiedad (o propiedades) o mensurandos para evaluar con la verificación de homogeneidad.
Preparar y empaquetar los ítems de ensayo de aptitud para una ronda del programa de ensayo de
aptitud, asegurándose de que haya suficientes ítems de ensayo de aptitud para los participantes en el
programa de ensayo de aptitud y para la verificación de homogeneidad.
Preparar m ≥ 2 porciones de ensayo de cada ítem de ensayo de aptitud utilizando técnicas apropiadas
para el ítem de ensayo de aptitud para minimizar las diferencias entre porciones de ensayo.
Tomando las porciones de ensayo g × m en orden aleatorio, obtener un resultado de medición en cada
una, completando toda la serie de mediciones en condiciones de repetibilidad.
B.1.2 Cuando no es posible realizar mediciones replicadas, por ejemplo, con pruebas destructivas,
la desviación estándar de los resultados puede usarse como ss. En esta situación, es importante tener
un método con una desviación estándar de repetibilidad suficientemente baja sr.
a) Examinar los resultados de cada porción de ensayo en orden de medición para buscar una
tendencia (o desviación) en el análisis; si hay una tendencia aparente, tome la acción correctiva
apropiada con respecto al método de medición, o tenga cuidado en la interpretación de los
resultados.
b) Examinar los resultados de los promedios de ítems de ensayo de aptitud por orden de producción;
si hay una tendencia seria que hace que el ítem de ensayo de aptitud exceda el criterio en B.2.2
o de otra manera impide el uso del ítem de ensayo de aptitud, entonces.
3) si la tendencia afecta a todos los ítems del ensayo de aptitud, seguir las disposiciones
de B.2.4.
Si m > 2 y se elimina una sola observación, el cálculo posterior de sw y ss debe tener en cuenta
el desequilibrio resultante.
B.2.2 Compare la desviación estándar entre muestras ss con la desviación estándar para la
evaluación de la aptitud σpt. Los ítems del ensayo de aptitud pueden considerarse adecuadamente
homogéneos si:
NOTA 1 La justificación del factor de 0,3 es que cuando se cumple este criterio, la desviación estándar entre muestras
contribuye con menos del 10% de la varianza para la evaluación del desempeño, por lo que es poco probable que la
evaluación del desempeño se vea afectada.
B.2.3 Puede ser útil expandir el criterio para permitir el error de muestreo real y la repetibilidad en
la verificación de homogeneidad. En estos casos, siga los siguientes pasos:
g 20 19 18 17 16 15 14 13 12 11 10 9 8 7
F1 1,59 1,60 1,62 1,64 1,67 1,69 1,72 1,75 1,79 1,83 1,88 1,94 2,01 2,10
F2 0.57 0.59 0,62 0,64 0,68 0.71 0.75 0,80 0,86 0.93 1,01 1,11 1,25 1,43
Donde m > 2, F2 en B.2.3 b) y la Tabla B.1 se debe reemplazar con Fm = (Fg – 1, g(m-1), 0,95 – 1)/m
donde Fg – 1, g(m – 1), 0,95 es el valor excedido con probabilidad 0,05 por una variable aleatoria con
distribución F con g – 1 y g(m – 1) grados de libertad.
NOTA Las dos constantes en la Tabla B.1 se derivan de las tablas estadísticas estándar de la siguiente manera:
F1 = χ2 0,95(g – 1)/(g – 1) donde χ2 0,95(g – 1) es el valor excedido con probabilidad 0,05 por una variable aleatoria
chi-cuadrado con g – 1 grados de libertad; y
F2 = (F0,95 (g – 1; g) – 1)/2 donde F0,95(g – 1; g) es el valor excedido con probabilidad 0,05 por una variable aleatoria
c) Si Sc > c entonces hay evidencia de que el lote de ítems de ensayo de aptitud no es suficientemente
homogéneo
B.2.4 Cuando σpt no se conoce de antemano, por ejemplo, cuando σpt es la desviación estándar
robusta de los resultados de los participantes, el proveedor de ensayos de aptitud debería elegir otros
criterios para determinar la homogeneidad suficiente. Dichos procedimientos podrían incluir:
a) verificar las diferencias estadísticamente significativas entre los ítems de ensayo de aptitud
utilizando, por ejemplo, la prueba F de Análisis de Varianza en α = 0,05;
b) usar información de rondas previas del programa de ensayos de aptitud para estimar σpt;
σpt
′ = σpt
2 + s2
s (B.3)
b) Incluir ss en la incertidumbre del valor asignado y usar z’ o δE’ para evaluar el desempeño
(ver 9.5).
c) Cuando σpt es la desviación estándar robusta de los resultados de los participantes, entonces la
falta de homogeneidad entre los ítems de ensayo de aptitud se incluye en σpt y, por lo tanto, el
criterio de aceptabilidad de la homogeneidad se puede relajar, con precaución.
Si no se aplica ninguno de los puntos a) a c), deseche el ítem de ensayo de aptitud y repita la preparación
después de corregir la causa de la falta de homogeneidad.
donde
1
∑ (x ) (B.7)
g 2
s x2 = −x
(g − 1)
t
t =1
1 (B.8)
∑t =1s
g
s w2 = t
2
g
Estimar la varianza combinada s s,w
2 de s y s
s w
1 ⎛ 1⎞ (B.9)
∑ (xt − x )
g 2
2 =
s s,w + ⎜ 1 − ⎟ s w2 = s s2 + s w2
( − 1)
g t =1 ⎝ m⎠
x t = ( x t ,1 + x t ,2 ) / 2 (B.11)
∑ (x t − x ) (B.14)
g 2
sx = (g − 1)
t =1
∑
g
sw = w t2 (2g ) (B.15)
t =1
donde las sumas en las Ecuaciones B.13, B.14 y B.15 son sobre muestras (t = 1, 2, ..., g).
NOTA 1 La estimación de la varianza entre muestras ss2 a menudo se vuelve negativa cuando ss es relativamente
menor que sw. Esto puede esperarse cuando los ítems del ensayo de aptitud son muy homogéneos. En este caso ss = 0.
NOTA 2 En lugar de usar rangos, se pueden usar desviaciones estándar entre las porciones de ensayo tales como.
st = w t 2
B.4.1.1 Estas cláusulas brindan orientación para cumplir con los requisitos de estabilidad de 6.1.
Las disposiciones de 6.1.3 con respecto a las propiedades a estudiar se aplican a cualquier control
experimental de la estabilidad durante la ronda del programa de ensayo de aptitud y de la estabilidad
durante el transporte.
B.4.1.2 Cuando exista una seguridad razonable a partir de estudios experimentales previos,
experiencia o conocimiento previo de que la inestabilidad es poco probable, las verificaciones
experimentales de estabilidad pueden limitarse a una verificación de cambios significativos en el
transcurso de la ronda del programa de ensayo de aptitud, llevada a cabo durante y después de la
ronda en sí. En otras circunstancias, los estudios de los efectos del transporte y la estabilidad durante
la duración típica de una ronda de ensayos de aptitud pueden tomar la forma de estudios planificados
antes de la circulación de los ítems del ensayo de aptitud, ya sea para cada ronda o durante los primeros
— Todas las propiedades que se utilizan en el programa de ensayos de aptitud deberían comprobarse
o verificarse de otro modo para determinar su estabilidad. Esto se puede lograr con experiencia
previa y justificación técnica basada en el conocimiento de la matriz (o artefacto) y el mensurando.
— Se deberían ensayar más de 2 ítems de ensayo de aptitud si la variabilidad entre los ítems de
ensayo de aptitud es grande; se deberían usar más ítems de ensayo de aptitud o más repeticiones
si la repetibilidad es sospechosa (por ejemplo, si sw o sr > 0,5 σpt).
NOTA La ISO Guide 35 proporciona estrategias para minimizar el efecto sobre los estudios de estabilidad de la
variación a largo plazo en el proceso de medición, como los estudios isócronos o el uso de materiales de referencia
estables.
B.4.2.1 Un modelo conveniente para probar la estabilidad en los ensayos de aptitud es probar
una pequeña muestra de ítems de ensayo de aptitud al final de una ronda del programa de ensayo
de aptitud y compararlos con ítems de ensayo de aptitud probados antes de la ronda, para asegurar
que no cambio ocurrido durante el tiempo de la ronda. La verificación puede incluir una verificación
de cualquier efecto de las condiciones de transporte mediante la exposición adicional de los ítems
del ensayo de aptitud retenidos durante la duración del estudio a las condiciones que representan
las condiciones de transporte. Para los estudios destinados únicamente a comprobar los efectos del
transporte, la comparación se realiza entre ítems de ensayo de aptitud que se envían con ítems de
ensayo de aptitud que se conservan en condiciones controladas.
NOTA 1 Los proveedores de ensayos de aptitud pueden usar los resultados de los test de homogeneidad antes del
programa de ensayos de aptitud en lugar de seleccionar y medir un conjunto separado de ítems de ensayo de aptitud.
NOTA 2 Este modelo se aplica por igual a los programas de ensayo de aptitud en ensayo y calibración.
B.4.2.3 Un procedimiento para una verificación de estabilidad básica utilizando mediciones antes y
después de una ronda del programa de ensayo de aptitud es el siguiente:
b) Seleccionar un único laboratorio utilizando un único método de medición con una precisión
intermedia suficientemente pequeña.
d) Reservar los ítems restantes del ensayo de aptitud g en condiciones similares a las condiciones
de almacenamiento previstas en las instalaciones de los participantes.
e) Tan pronto como sea razonablemente posible después de la fecha de cierre para la devolución de
los resultados de los participantes, medir los g ítems restantes del ensayo de aptitud, utilizando
el mismo laboratorio, método de medición y número de repeticiones que en a) anterior, con todas
las repeticiones en orden aleatorio.
f) Calcular los promedios y 1 y y 2 de los resultados para los dos grupos (antes y después)
respectivamente.
a) El primer grupo de ítems de ensayo de aptitud g puede omitirse si otras mediciones en el conjunto
de ítems de ensayo de aptitud están disponibles del mismo laboratorio y método de ensayo.
Por ejemplo, se pueden utilizar los datos de un control de homogeneidad anterior.
b) Las condiciones que probablemente aceleren el cambio pueden utilizarse para proporcionar una
mayor seguridad de estabilidad.
d) Se podrá utilizar cualquier otro diseño y condiciones que, junto con el criterio de control de
estabilidad elegido, proporcionen igual o mayor seguridad de estabilidad.
NOTA Los procedimientos que usan observaciones a intervalos regulares entre el comienzo y el final de
una ronda de programa de ensayo de aptitud también se pueden usar y pueden ser ventajosos si la variación del
sistema de medición a lo largo del tiempo es lo suficientemente grande como para comprometer la evaluación descrita
en cláusula B.5.
b) aumentar la incertidumbre del valor asignado para tener en cuenta la posible inestabilidad;
siguiente ecuación:
(B.18)
y 1 − y 2 ≤ 0, 3σ pt + 2 u 2 ( y 1 ) + u 2 ( y 2 )
NOTA 1 El factor de 2 en la Ecuación B.18 es un factor de cobertura para la incertidumbre expandida de la diferencia,
que proporciona aproximadamente un 95% de confianza, y el cálculo de la incertidumbre combinada ha asumido
intencionalmente que y 1 y y 2 son independientes.
NOTA 2 Se entiende que las incertidumbres u 2 ( y 1) y u 2 ( y 2 ) en la Ecuación (B.18) incluyen la variación del sistema
de medición durante el tiempo intermedio, así como la repetibilidad.
B.5.3 Si no se cumple el criterio de las Ecuaciones B.17 o B.18, se deberían considerar las
siguientes opciones:
B.5.4 El criterio en B.5.1 o B.5.2 puede ser reemplazado por una prueba estadística apropiada para
una diferencia entre los dos conjuntos de datos, siempre que la prueba estadística tenga debidamente
en cuenta la replicación y proporcione la seguridad de identificar una estabilidad al menos igual a esa
proporcionada por la Ecuación B.18.
NOTA Una prueba t para la diferencia significativa al nivel de confianza del 95%, utilizando los medios para
cada ítem de ensayo de aptitud, por lo general brindará una seguridad similar o mejor de detectar inestabilidad a la
Ecuación (B.18) siempre que el número de unidades probadas sea 3 o más.
B.6.2 Cualquier efecto conocido del transporte debería ser considerado al evaluar el desempeño.
Cualquier aumento significativo en la incertidumbre debido al transporte debería incluirse en la
incertidumbre del valor asignado.
NOTA 1 Si el valor asignado y la desviación estándar para la evaluación de la aptitud se determinan a partir de los
resultados de los participantes (por ejemplo, mediante métodos robustos), entonces el promedio y la desviación estándar
para la evaluación de la aptitud reflejarán cualquier sesgo y mayor variabilidad (respectivamente) causados por las
condiciones de transporte.
Anexo C
(informativo)
Análisis robusto
C.1 Generalidades
Las comparaciones interlaboratorio presentan desafíos únicos para el análisis de datos. Si bien
la mayoría de las comparaciones interlaboratorio brindan datos unimodales y aproximadamente
simétricos, la mayoría de los conjuntos de datos de ensayos de aptitud incluyen una proporción de
resultados que son inesperadamente distantes de la mayoría. Estos pueden surgir por una variedad
de razones; por ejemplo, de participantes con menos experiencia, de métodos de medición menos
precisos o quizás nuevos, o de participantes que no entendieron las instrucciones o que procesaron
los ítems de ensayo de aptitud incorrectamente. Dichos resultados atípicos pueden ser muy variables
y hacer que las técnicas estadísticas convencionales, incluidas la media y la desviación estándar, no
sean confiables.
Se recomienda (ver 6.5.1) que los proveedores de ensayos de aptitud utilicen técnicas estadísticas que
sean robustas para los valores atípicos. Muchas de estas técnicas se han propuesto en la literatura
estadística, y muchas de ellas se han utilizado con éxito para los ensayos de aptitud. Las técnicas más
robustas también confieren resistencia a las distribuciones asimétricas de valores atípicos.
Este Anexo describe varias técnicas que se han aplicado en los ensayos de aptitud y tienen diferentes
capacidades en cuanto a robustez frente a poblaciones contaminadas (por ejemplo, eficiencia y punto
de ruptura), y diferente simplicidad de aplicación. Se presentan aquí en orden de simplicidad (primero
el más simple, último el más complejo), que está aproximadamente inversamente relacionado con la
eficiencia porque los estimadores más complejos tienden a desarrollarse para mejorar la eficiencia.
NOTA 1 El Anexo D proporciona más información sobre la eficiencia, el punto de ruptura y la sensibilidad a los modos
menores, tres indicadores importantes del desempeño de varios estimadores robustos.
NOTA 2 La robustez es una propiedad del algoritmo de estimación, no de las estimaciones que produce, por lo que
no es estrictamente correcto llamar “robustas” a las medias y desviaciones estándar calculadas por dicho algoritmo.
Sin embargo, para evitar el uso de terminología excesivamente engorrosa, los términos “promedio robusto” y “desviación
estándar robusta” se entienden en esta norma como estimaciones de la media poblacional o de la desviación estándar
poblacional calculada utilizando un algoritmo robusto.
C.2.1 La mediana
b) Calcular
⎧ x {( p +1) 2} p impar
⎪ (C.1)
med ( x ) = ⎨ ⎡ x {p 2} + x {1+ p 2} ⎤
⎣ ⎦ p par
⎪
⎩ 2
d i = x i − med ( x ) (C.2)
Si el 50% o más de los resultados de los participantes son iguales, entonces MADe(x) será cero, y
puede ser necesario usar el nIQR en C.2.3, una desviación estándar aritmética (después de eliminar
los valores atípicos), o el procedimiento descrito en C.5.2.
Un estimador robusto de la desviación estándar similar a MADe(x) y un poco más simple de obtener ha
demostrado ser útil en muchos programas de ensayos de aptitud y puede obtenerse de la diferencia
entre el percentil 75 (o 3er cuartil) y el 25 percentil (o 1er cuartil) de los resultados de los participantes.
Este estadístico se denomina comúnmente “rango intercuartílico normalizado” (o nIQR), y se calcula
como en la Ecuación (C.4):
en que:
Si los percentiles 75 y 25 son iguales, el nIQR será cero (al igual que MADe(x)) y se debería utilizar un
procedimiento alternativo, como una desviación estándar aritmética (después de eliminar los valores
atípicos) o el procedimiento de C.5.2, para calcular la desviación estándar robusta.
NOTA 1 El nIQR solo requiere clasificar los datos una vez en comparación con MADe, pero tiene un punto de ruptura
del 25% (ver Anexo D), mientras que MADe tiene un punto de ruptura del 50%. Por lo tanto, MADe puede tolerar una
proporción apreciablemente mayor de valores atípicos que nIQR.
NOTA 2 Tanto el estimador nIQR como el estimador MADe muestran un sesgo negativo apreciable en p < 30 que puede
afectar negativamente las puntuaciones si estas estimaciones se utilizan para puntuar los resultados de los participantes.
NOTA 3 Diferentes paquetes estadísticos pueden usar diferentes algoritmos para calcular cuartiles y,
por lo tanto, pueden producir nIQR ligeramente diferentes.
NOTA 4 En cláusula E.3 se incluye un ejemplo que usa estimadores robustos simples.
Este algoritmo produce estimaciones robustas de la media y la desviación estándar de los datos a los
que se aplica.
Denotar el promedio robusto y la desviación estándar robusta de estos datos por x* y s*.
NOTA 1 Los algoritmos A y S proporcionados en este anexo se reproducen de ISO 5725-5, con una ligera adición al
algoritmo A para especificar un criterio de parada: ningún cambio en las 3ra cifras significativas de la media robusta y la
desviación estándar.
NOTA 2 En algunos casos, más de la mitad de los resultados xi serán idénticos (por ejemplo, número de hilos en
tela o electrolitos en suero). En estos casos el valor inicial de s* será cero y el procedimiento robusto no funcionará
correctamente. En el caso de que el s* inicial = 0, es aceptable sustituir la desviación estándar de la muestra, después de
verificar cualquier valor atípico bruto que podría hacer que la desviación estándar de la muestra fuera irrazonablemente
grande. Esta sustitución se realiza solo para el s* inicial, y después de eso, el algoritmo iterativo puede proceder como se
describe.
δ = 1,5 s* (C.7)
p
x∗ = ∑ i =1x i∗ / p (C.9)
∑ i =1(x i∗ − x ∗ )
p 2 (C.10)
s ∗ = 1134
, / ( p − 1)
actualizando los valores de x* y s* varias veces utilizando las Ecuaciones C.7 a C.10, hasta que
el proceso converja. Se puede suponer convergencia cuando no hay cambio de una iteración a la
siguiente en las terceras cifras significativas de la media robusta y la desviación estándar robusta
(x* y s*). Se pueden determinar criterios de convergencia alternativos de acuerdo con los requisitos de
diseño y presentación de informes para los resultados de los ensayos de aptitud.
NOTA 3 En cláusulas E.1 y E.3 se proporcionan ejemplos del uso del Algoritmo A con escala iterada.
El algoritmo A con escala iterada en C.3.1 tiene un punto de ruptura modesto (aproximadamente 25%
para grandes conjuntos de datos[25]) y el punto de partida para s* sugerido en C.3.1 para conjuntos
de datos donde MADe(x) es cero puede degradar seriamente resistencia de valores atípicos cuando
hay valores atípicos severos en el conjunto de datos. Deberían considerarse las siguientes variaciones
cuando se espera que la proporción de valores atípicos supere el 20% en cualquier conjunto de datos
o cuando el valor inicial de s* se ve afectado negativamente por valores atípicos extremos:
a) Reemplazar MADe con med ( x i − x ) cuando MADe = 0, o usar un estimador alternativo como el
descrito en C.5.1 o la desviación estándar aritmética (después de eliminar los valores atípicos).
b) Cuando no se use la desviación estándar robusta en la puntuación, usar MADe (modificado como
i) arriba) y no actualice s* durante la iteración. Cuando se utilice la desviación estándar robusta
en la puntuación, reemplazar s* con el estimador Q descrito en cláusula C.5 y no actualizar s*
durante la iteración.
NOTA La variante b) mejora el punto de ruptura del algoritmo A al 50%[25], lo que permite que el algoritmo haga
frente a una mayor proporción de valores atípicos.
Denotar el valor agrupado robusto por w*, y los grados de libertad asociados con cada wi por ν.
(Cuando wi es un rango, ν = 1. Cuando wi es la desviación estándar de m resultados de ensayo,
ν = m - 1). Obtener los valores de ξ y η requeridos por el algoritmo de Tabla C.1.
NOTA Si más de la mitad de los wi son cero, entonces el w* inicial será cero y el procedimiento robusto no funcionará
correctamente. Cuando el w* inicial es cero, sustituya la desviación estándar del promedio combinado aritmético (o rango
promedio) después de eliminar cualquier valor atípico extremo que pueda influir en el promedio. Esta sustitución es solo
para el w* inicial, después de lo cual se continúa el procedimiento como se describe.
ψ = η × a* (C.12)
∑ i =1(w i∗ )
p 2
w∗ = ξ /p (C.14)
NOTA El algoritmo S proporciona una estimación de la desviación estándar de la población cuando se le suministran
desviaciones estándar de una única distribución normal y, por lo tanto, proporciona una estimación de la desviación
estándar de la repetibilidad cuando los supuestos de ISO 5725-2 aplican.
ν η ξ
1 1,645 1,097
2 1,517 1,054
3 1,444 1,039
4 1,395 1,032
5 1,359 1,027
6 1,332 1,024
7 1,310 1,021
8 1,292 1,019
10 1,264 1,017
Los estimadores robustos de la media poblacional y la desviación estándar descritos en cláusulas C.2
y C.3 son útiles cuando los recursos computacionales son limitados o cuando es necesario brindar
explicaciones concisas de los procedimientos estadísticos. Estos procedimientos han demostrado ser
útiles en una amplia variedad de situaciones, incluso para programas de ensayos de aptitud en nuevas
áreas de ensayo o calibración y en economías donde los ensayos de aptitud no estaban disponibles
anteriormente. Sin embargo, estas técnicas pueden volverse poco confiables cuando más del 20% de
los resultados son atípicos, o cuando hay distribuciones bimodales (o multimodales), y algunas pueden
volverse inaceptablemente variables para un número menor de participantes. Además, ninguno puede
manejar datos replicados de los participantes. La ISO/IEC 17043 requiere que estas situaciones se
anticipen por diseño o se detecten mediante una revisión competente antes de la evaluación del
desempeño, pero hay ocasiones en las que esto puede no ser posible.
Además, algunas de las técnicas robustas descritas en cláusulas C.2 y C.3 carecen de eficiencia
estadística: si el número de participantes es inferior a 50 y se utiliza la media robusta y/o la desviación
estándar para calificar, hay un riesgo considerable de clasificar erróneamente a los participantes
debido al uso de métodos estadísticos ineficaces.
Las técnicas robustas que combinan una buena eficiencia (es decir, una variabilidad comparativamente
baja) con tolerancia para una alta proporción de valores atípicos tienden a ser más complejas y
requieren más recursos computacionales, pero las técnicas se mencionan en la literatura disponible
y en las normas internacionales. Algunos de estos, además, proporcionan ganancias de desempeño
útiles cuando la distribución subyacente de los datos está sesgada o cuando algunos resultados se
cotizan por debajo de un límite de detección o informe.
Los siguientes párrafos describen algunos métodos de alta eficiencia y alto punto de ruptura para
estimar la desviación estándar y la localización (media) que son útiles para datos con proporciones más
grandes de valores atípicos y que muestran una menor variabilidad que los estimadores más simples.
Uno de los estimadores descritos también se puede usar para estimar una desviación estándar de
reproducibilidad cuando los participantes informan múltiples observaciones.
Para calcular Qn para un conjunto de datos (x1, x2, … xp) con p resultados informados:
c) Calcular
h (h − 1) (C.17)
k=
2
d) Calcular Qn como
donde
⎧ 1⎡ 1⎛ 5,172⎞ ⎤
⎢1, 601 9 + ⎜ −2,128 − ⎟ p impar
⎪
⎪ p⎣ p⎝ p ⎠ ⎥⎦
rp = ⎨ (C.21)
⎪ 1 ⎡3, 675 6 + 1 ⎛ 1, 965 + 1 ⎛ 6, 987 − 77⎞ ⎞ ⎤ p par
⎪⎩ p ⎢⎣ ⎜ ⎜ ⎟⎟
p⎝ p⎝ p ⎠ ⎠ ⎥⎦
NOTA 1 El factor de 2,221 9 es un factor de corrección para dar una estimación no sesgada de la desviación estándar
para p grande. Los factores de corrección bp para p pequeña se encuentran en la Tabla C.2 y el cálculo de rp para p > 12
se proporciona en Referencia [41] a partir de una simulación extensa y un análisis de regresión posterior.
NOTA 2 El algoritmo simple descrito anteriormente requiere recursos informáticos considerables para conjuntos de
datos más grandes, por ejemplo, p > 1 000. Se ha publicado una implementación rápida y eficiente en memoria capaz de
manejar conjuntos de datos mucho más grandes con código de computadora completo[42] para usar con conjuntos de
datos más grandes; conjuntos de datos. La Referencia [42] citó un desempeño aceptable para p por encima de 8 000 en
el momento de la publicación.
p 2 3 4 5 6 7 8 9 10 11 12
bp 0,399 4 0,993 7 0,513 2 0,844 0 0,612 2 0,858 8 0,669 9 0,873 4 0,720 1 0,889 1 0,757 4
C.5.2.2 El método Q produce una estimación de la desviación estándar de alto punto de ruptura y
alta eficiencia de los resultados de los ensayos de aptitud informados por diferentes laboratorios. El
método Q no solo es robusto frente a resultados atípicos, sino también frente a una situación en la que
muchos resultados de ensayo son iguales, por ejemplo, debido a datos cuantitativos en una escala
discontinua o debido a distorsiones de redondeo. En tal situación, otros métodos similares a Q pueden
fallar porque muchas diferencias por pares son cero.
El método Q se puede utilizar para ensayos de aptitud tanto con resultados únicos por participante
(incluyendo una media o mediana de repeticiones) como para repeticiones. El uso directo de réplicas
en el cálculo mejora la eficiencia del método.
El cálculo se basa en el uso de diferencias por pares dentro del conjunto de datos y,
por lo tanto, no depende de una estimación de la media o mediana de los datos. El método se conoce
como Q/Hampel cuando se utiliza junto con el algoritmo de pasos finitos para el estimador de Hampel
descrito en C.5.3.3.
2 1 ni nj
H1 ( x ) =
p ( p − 1) ∑1≤i < j ≤ p ni n j ∑ k =1∑ m =1I { y ik − y jm ≤ x} (C.23)
⎧1 si y ik − y jm ≤ x ⎫
donde I { y ik − y jm ≤ x } = ⎨ ⎬ denota la función indicadora.
⎩0 si no ⎭
y deja
G1(0) = 0
Calcular la función G1(x) para todo x fuera del intervalo [0, xr] por interpolación lineal entre puntos de
discontinuidad 0 ≤ x1 < x2 < … < xr.
Calcular la desviación estándar robusta s* de los resultados de los ensayos de diferentes laboratorios:
donde H1(0) se calcula como en la Ecuación C.23 y es igual a cero a menos que existan empates
exactos en el conjunto de datos, y donde Φ-1 (q) es el q-ésimo cuantil de la distribución normal estándar.
NOTA 1 Este algoritmo no depende de un valor medio; se puede usar junto con un valor de los resultados combinados
de los participantes o un valor de referencia específico.
NOTA 2 Otras variantes del método Q proporcionan estimaciones robustas tanto de la desviación estándar de la
repetibilidad como de la reproducibilidad[25] [34].
NOTA 3 La base teórica del método Q, incluido el desempeño asintótico y el desglose de muestras finitas, se describen
en las Referencias [26] y [34].
NOTA 4 Si los datos subyacentes de los participantes representan resultados de medición únicos obtenidos con
un método de medición específico, la desviación estándar robusta es una estimación de la desviación estándar de
reproducibilidad como en la Ecuación (C.21).
NOTA 6 La Nota 5 se aplica solo si la puntuación se realiza sobre la base de medias o medianas de resultados
replicados. Si las réplicas son ítems de ensayo de aptitud de réplicas ciegas, se supone que se otorgan puntuaciones
para cada réplica. En este caso, la desviación estándar de reproducibilidad es la desviación estándar más adecuada.
Qn o s* del método Q.
g) Repetir los pasos d) a f) hasta que x* converja. Se puede suponer convergencia cuando el
cambio en x* de una iteración a la siguiente es menor que 0, 01s * p , lo que corresponde a
aproximadamente el 1% del error estándar en x*. Pueden utilizarse otros criterios de convergencia
más precisos.
No se garantiza que esta implementación del estimador de Hampel tenga una solución única o que
resulte en la mejor solución porque una mala elección de la localización inicial x* y/o s* puede excluir
partes importantes del conjunto de datos. En consecuencia, el proveedor de ensayos de aptitud
debería implementar medidas para verificar la posibilidad de una solución deficiente o proporcionar
reglas inequívocas para la elección de la localización. La regla más común es elegir la solución más
cercana a la mediana. Revisar los resultados para asegurarse de que ninguna gran parte del conjunto
de datos esté fuera del rango ⎮q⎮ > 4,5 también puede ayudar a confirmar una solución viable.
NOTA 1 Esta implementación del estimador de Hampel tiene una eficiencia de aproximadamente el 96% para datos
normalmente distribuidos.
NOTA 3 El estimador de Hampel se puede ajustar para una mayor eficiencia o una mayor resistencia a los valores
atípicos cambiando la función de ponderación. La forma general de la función de ponderación es:
⎧ 0 q >c
wi = ⎨
a/q a< q ≤b
⎪
⎩ 1 q ≤a
donde a, b y c son parámetros de ajuste. Para la implementación aquí, a = 1,5, b = 3,0 y c = 4,5. Se obtiene mayor eficiencia
aumentando el rango; la resistencia mejorada a valores atípicos o modos menores se obtiene reduciendo el rango.
C.5.3.3 El siguiente algoritmo de pasos finitos produce la estimación de localización de Hampel sin
reponderación iterativa[25].
Calcular las medias aritméticas para cada laboratorio, ahora denominado y1, y2, … yp.
donde
⎧0 q ≤ −4, 5
⎪ −4, 5 − q −4, 5 < q ≤ −3
⎪
⎪ −1, 5 −3 < q ≤ −1, 5
⎪ (C.30)
Ψ (q ) = ⎨q −1, 5 < q ≤ 1, 5
⎪1, 5 1, 5 < q ≤ 3
⎪
⎪4, 5 − q 3 < q ≤ 4, 5
⎪0 q > 4, 5
⎩
y s* es la desviación estándar robusta según el método Q.
La solución exacta puede obtenerse en un número finito de pasos, es decir no iterativamente, utilizando
la propiedad de que ψ en el argumento de x* es parcialmente lineal, teniendo en cuenta que los nodos
de interpolación del lado izquierdo de la Ecuación C.29 (interpretado aquí como una función de x*)
son los siguientes:
Ordenar estos datos d1, d2, d3, …, d6 p en orden ascendente d{1},d{2}, d{3},…, d{6p}.
p ⎛ y i − d {m } ⎞
pm = ∑ i =1Ψ ⎜⎝ s∗ ⎟⎠
y comprobar si
La solución x* ∈ S más cercana a la mediana se usa como parámetro de localización x*, es decir
Pueden existir varias soluciones. Si hay dos soluciones más cercanas a la mediana, o si no hay
ninguna solución, la mediana misma se usa como parámetro de localización x*.
NOTA 1 Esta implementación del estimador de Hampel tiene una eficiencia de aproximadamente el 96% para datos
normalmente distribuidos.
NOTA 2 Si se utiliza este método de estimación, los resultados de laboratorio que difieren de la media en más
de 4,5 veces la desviación estándar de la reproducibilidad ya no tienen ningún efecto sobre el resultado del cálculo, es
decir, se tratan como valores atípicos.
El método conocido como Q/Hampel utiliza el método Q descrito en C.5.3.2 para el cálculo de la
desviación estándar robusta s* junto con el algoritmo de pasos finitos para el estimador de Hampel
descrito en C.5.3.3 para el cálculo de la parámetro de localización x*.
Cuando los participantes reportan múltiples observaciones, el método Q descrito en C.5.3.2 se usa
para el cálculo de la desviación estándar de reproducibilidad robusta sR. Para el cálculo de la desviación
estándar de repetibilidad robusta sr se aplica un segundo algoritmo que utiliza las diferencias por
pares dentro de los laboratorios.
se garantiza que ninguno sea óptimo para todas las situaciones. Se pueden usar otros estimadores
robustos a discreción del proveedor de ensayos de aptitud, sujeto a la demostración, por referencia a
la eficiencia conocida, el punto de ruptura y cualquier otra propiedad apropiada, que cumplen con los
requisitos particulares del programa de ensayos de aptitud.
Anexo D
(informativo)
Muchos programas de ensayos de aptitud tienen pocos participantes o tienen grupos de comparación
con un número pequeño de participantes, incluso si hay una gran cantidad de participantes en el
programa de ensayos de aptitud. Esto puede suceder con frecuencia cuando los participantes se
agrupan y califican por método, como se hace comúnmente en los ensayos de aptitud para laboratorios
médicos, por ejemplo.
Cuando el número de participantes sea pequeño, el valor asignado se debería determinar idealmente
utilizando un procedimiento metrológicamente válido, independiente de los participantes, como por
formulación o a partir de un laboratorio de referencia. Los criterios de evaluación del desempeño
también deberían basarse en criterios externos, como el juicio de expertos o criterios basados en
la adecuación al propósito. En estas situaciones ideales, el desempeño se evalúa utilizando el valor
asignado predeterminado y el criterio de desempeño, de modo que los ensayos de aptitud se puedan
realizar con un solo participante. Este tipo de comparación interlaboratorio puede denominarse
comparación bilateral o auditoría de medición, y puede ser muy útil en muchas situaciones,
por ejemplo, en la calibración.
Cuando no se puedan cumplir estas condiciones ideales, es posible que sea necesario derivar el
valor asignado o la dispersión, o ambos, a partir de los resultados de los participantes. Si el número
de participantes es demasiado pequeño para los procedimientos particulares utilizados, la evaluación
del desempeño puede volverse poco confiable; por lo tanto, es importante considerar si se debería
establecer un número mínimo de participantes para la evaluación del desempeño.
Los siguientes párrafos presentan una guía para situaciones de números pequeños, cuando los
criterios de evaluación del desempeño se determinan utilizando los resultados de los participantes.
Diferentes pruebas de valores atípicos son aplicables a diferentes tamaños de conjuntos de datos.
ISO 5725-2 proporciona tablas para la prueba de Grubbs para un único valor atípico y para dos valores
atípicos simultáneos en la misma dirección. Grubbs y otras pruebas requieren que la cantidad de
posibles valores atípicos se especifique de antemano y pueden fallar cuando hay múltiples valores
atípicos, lo que los hace más útiles para p > 10 (dependiendo de la proporción probable de valores
atípicos).
NOTA 1 Se debería tener cuidado al estimar la dispersión después del rechazo de valores atípicos ya que las
estimaciones de dispersión tendrán un sesgo bajo. El sesgo no suele ser grave si el rechazo se lleva a cabo únicamente
con un nivel de confianza del 99% o superior.
NOTA 2 La mayoría de los estimadores robustos univariados para localización y dispersión funcionan aceptablemente
para p ≥ 12.
D.1.3.1 Los valores asignados derivados de pequeños conjuntos de datos de los participantes
deberían, cuando sea posible, cumplir con el criterio de incertidumbre del valor asignado dado en
9.2.1. Para una situación que utiliza una media simple como valor asignado y una desviación estándar
de los resultados como desviación estándar para la evaluación de la aptitud, este criterio no se puede
cumplir para una distribución normal con p ≤ 12, después de eliminar los valores atípicos. Para el uso
de la mediana como valor asignado (tomando la eficiencia como 0,64), el criterio no se puede cumplir
para p ≤ 18. Otros estimadores robustos, como el Algoritmo A (ver cláusula C.3), tienen eficiencia
intermedia y pueden cumplir el criterio para p > 12 si se tiene en cuenta lo dispuesto en 7.7.7, Nota 2.
D.1.3.2 Existen limitaciones de tamaño del conjunto de datos sobre la aplicabilidad de algunos
estimadores de localización. Se recomiendan pocos estimadores robustos computacionalmente
intensivos para la media para conjuntos de datos pequeños; un límite inferior típico es p ≥ 15,
aunque los proveedores pueden demostrar un desempeño aceptable para supuestos específicos en
conjuntos de datos más pequeños. La mediana es aplicable hasta p = 2 (cuando es igual a la media)
pero en 3 ≤ p ≤ 5 la mediana ofrece pocas ventajas sobre la media a menos que exista un riesgo
inusualmente alto de malos resultados.
D.1.4.2 Cuando se requieran estimadores de dispersión para otros fines (por ejemplo, como
resumen estadístico o para proporcionar una estimación de dispersión para estimadores de
localización robustos), o cuando el programa de ensayo de aptitud pueda tolerar una alta variabilidad
en las estimaciones de dispersión, los estimadores de dispersión con la mayor eficiencia disponible se
debería seleccionar cuando se manejan conjuntos de datos más pequeños.
NOTA 1 Se entiende que “el más alto disponible” tiene en cuenta la disponibilidad de software y experiencia adecuados.
NOTA 2 El estimador Qn de la desviación estándar descrito en cláusula C.5 es considerablemente más eficiente que
el MADe o el nIQR de cláusula C.1.
NOTA 3 Se han hecho recomendaciones específicas para estimaciones robustas de dispersión en conjuntos de datos
muy pequeños[24] de la siguiente manera:
— p = 2 : usar x 1 − x 2 / 2 ;
— p = 3, ubicaciones y escala desconocidas: usar MADe para protegerse contra estimaciones excesivamente altas de
la desviación estándar o la desviación absoluta media (Nota 4, a continuación) para protegerse contra estimaciones
indebidamente pequeñas de la desviación estándar, por ejemplo, cuando el redondeo puede dar dos valores idénticos;
— p ≥ 4: la Referencia [27] recomendó una estimación M específica de la desviación estándar basada en una función de
ponderación logarítmica; un equivalente cercano es el Algoritmo A sin iteración de localización, utilizando la mediana
como una estimación de localización.
NOTA 4 Para obtener una estimación de la desviación estándar de la desviación absoluta media de la mediana, utilice
la Ecuación D.1.
1 (D.1)
s∗ =
p
∑i =1 x i − med ( x )
0, 798 × p
NOTA 5 El factor de 0,798 en la Ecuación D.1 surge de la distancia absoluta media desde cero en la distribución
normal estándar.
Punto de ruptura: la proporción de valores en el conjunto de datos que se pueden reemplazar por
valores arbitrariamente grandes sin que la estimación también se vuelva arbitrariamente grande.
Eficiencia: la varianza de un estimador de varianza mínima dividida por la varianza del estimador para
la distribución en cuestión.
Resistencia a las modas menores: la capacidad de un estimador para resistir el sesgo causado por
un grupo minoritario de resultados discrepantes (normalmente menos del 20% del conjunto de datos).
Los puntos de ruptura y las eficiencias para los diferentes estimadores serán diferentes para diferentes
situaciones, y una revisión exhaustiva está más allá del alcance de esta norma. Sin embargo, se
pueden hacer comparaciones simples bajo el supuesto de una distribución normal para los resultados
de laboratorios competentes, con una media igual a xpt y una desviación estándar igual a σpt.
El punto de ruptura es la proporción de valores en el conjunto de datos que pueden ser atípicos sin
que la estimación se vea afectada negativamente. El punto de ruptura es una medida de la resistencia
a los valores atípicos; alto punto de ruptura se asocia con la resistencia a una alta proporción de
valores atípicos. Los puntos de ruptura y la resistencia a las modas menores para los estimadores del
Anexo C se presentan en la Tabla D.1. Se debería señalar que los procedimientos requeridos en 6.3
y 6.4 deberían evitar el análisis de datos de conjuntos de datos con grandes proporciones de valores
atípicos. Sin embargo, hay situaciones en las que la revisión visual no es práctica.
Tabla D.1 – Puntos de ruptura para los estimadores de la media y la desviación estándar
(proporción de valores atípicos que pueden conducir a la falla del estimador)
Desviación estándar
Desviación estándar 0% Pobre
muestral
Moderado
Qn y Q/Hampel Media y desviación estándar 50% (Muy bueno para modos
menores a más de 6 s*)
NOTA La definición de punto de ruptura que se usa aquí es la proporción de un gran conjunto de datos distribuidos
normalmente que se puede mover a +infinito sin que la estimación también se mueva a infinito. Por ejemplo, si un poco
menos del 50% de un conjunto de datos se reemplaza por +infinito, la mediana permanecerá dentro de los datos finitos
restantes.
En resumen, la media muestral y la desviación estándar muestral pueden verse afectadas con un solo
valor atípico. Los métodos robustos que utilizan los métodos de la mediana, MADe y Q/Hampel pueden
tolerar una proporción muy grande de valores atípicos. El algoritmo A con desviación estándar iterada
y nIQR tiene un punto de ruptura del 25%. En cualquier situación con una gran proporción de valores
atípicos (> 20%), cualquier procedimiento convencional o robusto puede producir estimaciones poco
razonables de localización y dispersión, y se debería tener precaución en la interpretación de dichos
valores.
Todas las estimaciones tienen una varianza de muestreo, es decir, las estimaciones pueden variar
de una ronda a otra de un programa de ensayo de aptitud, incluso si todos los participantes son
competentes y no hay valores atípicos o subgrupos de participantes con diferentes medias o varianzas.
Los estimadores robustos modifican los resultados presentados que están excepcionalmente lejos de
la mitad de la distribución, en base a supuestos teóricos, por lo que estos estimadores tienen una
varianza mayor que los estimadores de varianza mínima, en el caso de que el conjunto de datos tenga
una distribución normal.
La media muestral y la desviación estándar son los estimadores de varianza mínima de la media
poblacional y la desviación estándar, por lo que tienen una eficiencia del 100%. Los estimadores
con menor eficiencia tienen una mayor varianza, es decir, podrían variar más de una ronda a otra
de un programa de ensayo de aptitud, incluso si no hay valores atípicos o diferentes subgrupos de
participantes. La Tabla D.2 proporciona eficiencias relativas para los estimadores presentados en
Anexo C.
Tabla D.2 – Eficiencia relativa de estimadores robustos para la media y desviación estándar de la
población, para conjuntos de datos normalmente distribuidos con n = 50 o 500 participantes:
Mediana y MADe
Estos resultados demuestran que no existe un método estadístico que sea perfecto para todas las
situaciones. La media muestral y la desviación estándar muestral son óptimas con una distribución
normal, pero se descomponen en caso de valores atípicos. Los métodos robustos simples como la
mediana, MADe o nIQR funcionan comparativamente mal para datos distribuidos normalmente, pero
pueden ser efectivos cuando hay valores atípicos o el conjunto de datos es pequeño.
b) cuando se tenga que evaluar la repetibilidad, cada ronda del programa de ensayos de aptitud
utilizada para la evaluación de la repetibilidad debería incluir al menos dos ítems de ensayo de
aptitud o un requisito para réplicas de observaciones;
c) cuando sea factible, los participantes deberían recibir réplicas ciegas identificadas por separado
en lugar de pedirles que realicen mediciones replicadas en el mismo ítem de ensayo de aptitud;
d) los ítems de ensayo de aptitud utilizados en una o varias rondas del programa de ensayo de
método de medición;
Anexo E
(informativo)
Ejemplos ilustrativos
Estos ejemplos pretenden ilustrar los procedimientos especificados en esta norma, para que el lector
pueda determinar que sus cálculos son correctos. Los ejemplos específicos no deberían considerarse
recomendaciones para su uso en programas de ensayos de aptitud particulares.
La Tabla E.1 muestra 23 resultados para una ronda de un programa de ensayo de aptitud, de los
cuales 5 resultados se indican como “Menos de” alguna cantidad. La media robusta (x*) y la desviación
estándar (s*) del Algoritmo A se muestran para 3 cálculos diferentes, donde los signos “<” se descartan
y los datos se analizan como datos cuantitativos; los resultados con valores “<” se ignoran; y donde
se inserta 0,5 veces el resultado como estimación del resultado cuantitativo. En cada escenario, los
resultados que habrían estado fuera del límite de aceptación se indican con “#”. Esto supone que la
evaluación sería “inaceptable” (señal de acción) para cualquier resultado donde la parte cuantitativa
esté fuera de x* ± 3 s*. El proveedor de ensayos de aptitud podría tener reglas alternativas para evaluar
los resultados con los signos “<” o “>”.
A < 10 10 - 5
B < 10 10 - 5
C 12 12 12 12
D 19 19 19 19
E < 20 20 - 10
F 20 20 20 20
G 23 23 23 23
H 23 23 23 23
J 25 25 25 25
K 25 25 25 25
L 26 26 26 26
M 28 28 28 28
N 28 28 28 28
P < 30 30 - 15
(continúa)
Q 28 28 28 28
R 29 29 29 29
S 30 30 30 30
T 30 30 30 30
U 31 31 31 31
V 32 32 32 32
W 32 32 32 32
Y 45 45 45 # 45
Z < 50 50 # - 25
Resumen
Número de resultados 23 23 18 23
La elección de cómo manejar las muestras “menores que” tiene un efecto significativo en la media
robusta y la desviación estándar, y en la evaluación del desempeño. Se espera que el proveedor de
ensayos de aptitud determine un método apropiado.
NOTA La Referencia [21] incluye algunos métodos, basados en la estimación de máxima verosimilitud, que pueden
acomodar adecuadamente los resultados citados como “inferiores a” un límite superior.
Tabla E.2 – Datos de homogeneidad para ítems de ensayo de aptitud de arsénico en chocolate
3 0,185 0,194
SD de promedios: 0,003 98
sw: 0,005 56
ss: 0,000 60
Tabla E.3 – Datos de estabilidad para ítems de ensayo de aptitud para arsénico en chocolate
NOTA Tanto el histograma como el gráfico de densidad muestran modas menores aparentes en ambos extremos.
Estos se deben a un pequeño número de valores atípicos más que a una característica de la distribución subyacente de
resultados válidos.
La Tabla E.5 muestra los estimaciones de localización (promedio) y desviación estándar usando varias
técnicas clásicas y robustas. También se muestra la incertidumbre de la estimación de la localización.
Los estadísticos para el método bootstrap se derivan de los procedimientos en las Referencias [17]
y [18] utilizando el paquete de software R (ver Ejemplo E.6 y Anexo F para un ejemplo de script).
La Figura E.4 muestra los diferentes estimaciones de localización y la estimación de la incertidumbre
expandida (2u(xpt)) como la barra de error.
Tabla E.4 – Cálculo del promedio robusto y la desviación estándar de atrazina en agua potable
1ª 2ª 3ª 4ª 5ª 6ª
xi
iteración iteración iteración iteración iteración iteración
x* - δ 0,204 163 0,199 732 0,198 466 0,198 037 0,197 865 0,197 790
x* + d 0,319 837 0,315 969 0,315 871 0,316 065 0,316 185 0,316 243
(continúa)
Tabla E.4 – Cálculo del promedio robusto y la desviación estándar de atrazina en agua potable
(conclusión)
1ª 2ª 3ª 4ª 5ª 6ª
xi
iteración iteración iteración iteración iteración iteración
x* - δ 0,204 163 0,199 732 0,198 466 0,198 037 0,197 865 0,197 790
x* + d 0,319 837 0,315 969 0,315 871 0,316 065 0,316 185 0,316 243
Y
0,5
0,4
0,3
0,2
0,1
X
4
78
22
42
93
10
19
26
50
39
20
45
32
33
14
27
91
79
30
24
37
43
75
99
40
11
68
114
106
100
110
105
108
102
X código de laboratorio
Figura E.1 – Resultados clasificados de los participantes para Atrazina (datos de la Tabla E.4)
12
0
0,08 0,16 0,24 0,32 0,40 X
Y densidad kernel
Figura E.3 – Gráfica de densidad kernel para los resultados de los participantes
NOTA Los diferentes paquetes de software comerciales tienen diferentes procedimientos para calcular los cuartiles,
lo que puede causar diferencias notables en el nIQR. Las discrepancias menores de las cifras anteriores podrían deberse
a esas diferencias o a los diferentes procedimientos de redondeo.
Y
0,32
xpt ± 2u(xpt)
0,28
0,24
0,2
1 2 3 4 5 6
3 robusto: Q/hampel
Las puntuaciones de desempeño se calcularon utilizando las técnicas descritas en cláusula 9. Para
todos los cálculos se utilizó un valor de referencia como xpt y σpt fue un valor de adecuación al propósito
basado en la experiencia previa. La incertidumbre del valor asignado fue la incertidumbre estándar
xpt = 0,044 mg/kg; U(xpt) = 0,008 2 mg/kg; σpt = 0,006 6 mg/kg (= 15%);
El gráfico de densidad kernel de la Figura E.6 muestra una distribución bimodal muy clara, debido
a las diferencias de método. Esto no afectó la evaluación del desempeño, porque se usó un valor
de referencia como xpt y un valor de idoneidad para el propósito como σpt. Para este análisis, se
eliminaron los resultados con un valor inferior a (<).
Tabla E.6 – Resultados del ensayo de aptitud de 24 participantes en el estudio IMEP 111
Código de
Valor Ulab k ulab Bandera Método
laboratorio
(continúa)
Tabla E.6 – Resultados del ensayo de aptitud de 24 participantes en el estudio IMEP 111 (conclusión)
Código de
Valor Ulab k ulab Bandera Método
laboratorio
Y
0,12
0,1
0,08
0
X
L04
L05
L23
L02
L15
L17
L06
L09
L26
L12
L13
L03
L29
L07
L21
L25
L16
L08
L10
L24
L18
L28
L01
L14
X código de laboratorio
NOTA 1 Las líneas discontinuas muestran xpt ± U(xpt) y las líneas punteadas muestran xpt ± 2 σpt.
NOTA 2 Los círculos abiertos y las líneas verticales discontinuas muestran los resultados ingresados como “menor que”.
Y
30
xpt = 0,044
25
20
15
10
0
0 0,02 0,04 0,06 0,08 X
Y densidad kernel
Figura E.6 – Gráfica de densidad kernel para los resultados de los participantes
Código de
D% PA z z’ ζ En
laboratorio
L17
L13
(continúa)
L14
*Este ejemplo es cortesía del Centro Común de Investigación de la Comisión Europea, Instituto de
estudio 111.
Y,
donde 0,26 es la incertidumbre estándar del valor certificado del MRC y 0,24 es la incertidumbre
estándar de d .
Tabla E.8 – Cálculo de la diferencia promedio entre un MRC y un ítem de ensayo de aptitud,
y de la incertidumbre estándar de esta diferencia
Diferencia en
Ítem de ensayo de aptitud MRC
valores promedio
Muestra
Ensayo 1 Ensayo 2 Ensayo 1 Ensayo 2 Ítem EA - MRC
Unidades LA Unidades LA Unidades LA Unidades LA Unidades LA
NOTA Los datos son medidas de la resistencia mecánica del agregado, obtenidas del ensayo de Los Ángeles (LA).
presenta una distribución asimétrica. Se aplicó el método bootstrap (1 000 repeticiones) para estimar
la moda y el error estándar correspondiente de la función de densidad kernel de la distribución de
datos, establecidos como xpt y u(xpt), respectivamente. El script de computadora se proporciona en
Anexo F. Se obtuvieron los siguientes valores:
NOTA Dado que u(xpt) > 0,3 σpt, los desempeños del laboratorio se evaluaron utilizando puntuaciones z’.
Y
1,5
0,5
1 2 3 4 5 X
X coliformes (log10UFC/ml)
Y densidad kernel
Figura E.7 – Gráfica de densidad kernel para los resultados de los participantes
xdiff = xref – x* = 0,044 – 0,032 = 0,012 por lo que la diferencia es dos veces la incertidumbre de la
diferencia.
de los programas de ensayos de aptitud en las que hubo 20 o más participantes, cubriendo niveles
regulados de toxafeno de 3 µg/L a 20 µg/L. La Tabla E.9 muestra los resultados de las 20 rondas de
los programas de ensayo de aptitud, ordenados de menor a mayor valor asignado. Las Figuras E.8
y E.9 muestran los diagramas de dispersión para la desviación estándar relativa robusta (% RSD)
y la desviación estándar robusta (SD) para cada ronda de los programas de ensayo de aptitud, en
comparación con el valor asignado (de la formulación). Las fórmulas para la línea de regresión lineal
de mínimos cuadrados simples se muestran para cada figura. Las líneas de regresión de mínimos
cuadrados se pueden determinar con el software de hoja de cálculo generalmente disponible. (También
se verificó un modelo polinomial de segundo orden para la relación entre la desviación estándar y el
valor asignado, pero el término cuadrático no fue significativo, lo que indica que no hay una curva
significativa en la línea, por lo que el modelo lineal simple es apropiado).
Es evidente que la RSD es bastante constante en torno al 19% para todos los niveles, y que la
línea de regresión para la desviación estándar es razonablemente fiable (coeficiente de determinación
r2 = 0,82). Un organismo regulador puede optar por exigir que la desviación estándar para la evaluación
de la aptitud sea el 19% del valor asignado (o quizás el 20%), o puede exigir el cálculo de la desviación
estándar esperada, utilizando la Ecuación de regresión para la desviación estándar.
(continúa)
© ISO 2022 - Todos los derechos reservados
© INN 2023 - Para la adopción nacional 95
Impreso por: Pablo Medina Dávila Solicitado por: Monica Vega
NCh3800:2023
ISO 13528:2022
Y
30
25
20 2
RSD = 18,774 - 0,036 9 xpt (R = 0,042 4)
RSD = 18,3%
15
10
0 4 8 12 16 20 xpt
Y RSD (%)
Figura E.8 – Desviación estándar relativa de los resultados de los participantes (%)
frente al valor de referencia asignado (µg/L)
Y
4
3,5
Y = 0,175 xpt + 0,088 7
3 2
R = 0,82
2,5
1,5
0,5
0 4 8 12 16 20 xpt
Y SD (µg L-1)
Figura E.9 – Desviación estándar del participante (µg/l) frente al valor asignado (µg/l)
σR = 0,02 × c0,849 5
Por ejemplo, un programa de ensayo de aptitud para la melamina en la leche en polvo utiliza dos ítems
de ensayo de aptitud con niveles de referencia A = 1,195 mg/kg y B = 2,565 mg/kg (0,000 001 195 y
0,000 002 565). Esto produce las siguientes desviaciones estándar de reproducibilidad esperadas:
Ítem A del ensayo de aptitud a 1,195 mg/kg: σR = 0,186 mg/kg o relativo σR = 15,6%.
Ítem B del ensayo de aptitud a 2 565 mg/kg: σR = 0,356 mg/kg o relativo σR = 13,9%.
Un experimento de precisión arrojó los siguientes resultados, para un concreto con un contenido
promedio de cemento de 260 kg/m3: σR = 23,2 kg/m3 y σr = 14,3 kg/m3. Suponga que se van a realizar
m = 2 mediciones replicadas.
Entonces, el objetivo de tener σpt < 25/2 kg/m3 = 12,5 kg/m3 puede no ser práctico.
NOTA En ISO 5725-2, σR = σL2 + σr2 siendo σL la componente de la varianza por diferencias interlaboratorio.
En este ejemplo, σL podría calcularse como σL = σR2 − σr2 = (23, 22 − 14, 32 ) = 18, 3 kg/m3.
Las puntuaciones z de una ronda de programa de ensayo de aptitud con tres mensurandos relacionados
(anticuerpos) se muestran en Figura E.10 representadas como un gráfico de barras. Los datos de
dos de los tres alérgenos se muestran en Tabla E.10. A partir de este gráfico, los laboratorios B y
Z (por ejemplo) pueden ver que deberían buscar una causa de sesgo que afecte a los tres niveles
aproximadamente en la misma cantidad, mientras que los laboratorios K y P (por ejemplo) pueden ver
que en su caso el signo de la puntuación z depende del tipo de anticuerpo.
Y
4
-1
-2
-4
A B CD E F GH I J K LMNO P QR S T U VW X Y Z a X
X código de laboratorio
Y puntuación z
Figura E.10 – Gráfico de barras de puntuaciones z (4,0 a −4,0) para una ronda de un programa de
ensayo de aptitud en el que los participantes determinaron las concentraciones de
tres anticuerpos IgE específicos de alérgenos
La inspección de la Figura E.11 revela dos participantes (números 5 y 23) en el cuadrante superior
derecho y, por lo tanto, podría tener un sesgo positivo coherente. El laboratorio 26 tiene una
puntuación z alta en el ítem B del ensayo de aptitud y una puntuación z negativa de -0,055 en el
ítem A del ensayo de aptitud, por lo que podría tener una repetibilidad deficiente.
Los participantes 5, 23 y 26 deberían tratar sus resultados como señales de “advertencia” y verificar
donde se ubican sus resultados en la próxima ronda del programa de ensayos de aptitud. La revisión
visual y el coeficiente de correlación indican una tendencia a puntuaciones z coherentes (positivas o
negativas), por lo que podría haber una oportunidad de mejorar el método de medición con instrucciones
más detalladas.
Y
4
-1
-2
-3
-4
-4 -3 -2 -1 0 1 2 3 4 X
X z para el alérgeno A
Y z para el alérgeno B
Tabla E.10 – Datos y cálculos sobre concentraciones de anticuerpos para dos alérgenos similares
2 1,85 0,21
3 1,80 0,08
4 1,80 0,24
5 1,90 0,36
6 1,90 0,32
7 1,90 0,14
8 2,05 0,26
9 2,35 0,39
10 2,03 0,53
11 2,08 0,25
12 1,25 0,24
13 1,13 0,72
14 1,00 0,26
15 1,08 0,17
16 1,20 0,32
17 1,35 0,4
18 1,23 0,36
19 1,23 0,33
20 0,90 0,43
21 1,48 0,40
22 1,20 0,55
23 1,73 0,39
24 1,43 0,30
25 1,28 0,22
Promedio robusto 1,57
Desviación estándar robusta 0,34
NOTA Los datos son números de unidades (U) en miles (k) por litro (L) de muestra, donde una unidad se define por la
concentración de un material de referencia internacional.
Y
1,6
a
1,4
1,2
b
1
0,8 c
0,6
0,4
0,2
0
0,8 1 1,2 1,4 1,6 1,8 2 2,2 2,4 X
a nivel 0,1%
b nivel 1%
c nivel 5%
E.14 Métodos gráficos para el seguimiento del desempeño a lo largo del tiempo
(ver 10.8)
Puede ser útil para un participante realizar un seguimiento de su propio desempeño a lo largo del
tiempo, o que el proveedor de ensayos de aptitud lo prepare. Una herramienta simple y convencional
es un gráfico de control de calidad o diagrama de Shewhart. Esto requiere tener una puntuación
de desempeño estandarizado, como la puntuación z o la puntuación PA y la participación en varias
rondas del programa de ensayo de aptitud. Este ejemplo es de un programa de ensayo de aptitud
médica para el potasio sérico.
Este proveedor de ensayos de aptitud utiliza un intervalo fijo para la aceptación del 5%, aunque con
redondeo al siguiente valor notificable (0,1 mmol/L), y no inferior a ± 0,2 mmol/L. El proveedor de
ensayos de aptitud utiliza puntuaciones PA en lugar de puntuaciones z.
Ítem de ensayo
Código redondo Resultado Valor asignado Puntuación PA PA promedio
de aptitud
Los resultados se pueden graficar fácilmente para su revisión - se recomiendan 2 tipos de gráficos:
— Carta de control de calidad de la puntuación de desempeño estandarizado para cada ronda, que
muestre múltiples ítems de ensayo de aptitud en la misma ronda del programa de ensayo de
aptitud. Esto resaltará el desempeño a lo largo del tiempo, incluidas las tendencias; se muestra
en Figura E.13.
Y
120
a
80
40
0 b
-40
-80
-120
100 101 102 103 104 105 106 X
X evento de EA
Y puntuación PA
a “acción”
b PA promedio
Y
120
90
60
30
-30
-60
3,5 4 4,5 5 5,5 6 6,5 X
actual
acción
a) sin reacción;
b) enrojecimiento moderado;
Se distribuyen dos ítems de ensayo de aptitud que consisten en dos productos diferentes, etiquetados
1 20 (40%) # 8 (16%)
2 18 (36%) @ 12 (24%)
3 10 (20%) 20 (40%) # @
4 2 (4%) 10 (20%)
# modo
@ mediana
Y
50
a a, b
40
b
30
20
10
0
1 2 3 4 X
X nivel de reacción
a #
b @
ab #,@
artículo A del EA
artículo B del EA
Anexo F
(informativo)
El siguiente script usó la versión 3.1.1 de R para producir las figuras y los resultados del Ejemplo E.6.
################################
#LIBRARY TO DOWNLOAD AND TO USE
################################
#DATA
#DATA
colif<-c(3.80, 3.90, 3.07, 3.64, 4.06, 3.40, 3.59, 3.39, 3.47, 3.47, 3.77,
3.53, 2.83, 2.75, 2.06, 3.75, 3.73, 3.82, 3.86, 3.88, 3.97, 3.96, 3.80,
3.88, 3.25, 3.45, 3.64, 2.86, 3.17, 3.19, 3.17, 4.22, 3.82, 3.82, 3.95)
#DESCRIPTIVE STATISTICS
options(digits = 3) #number of decimal
stat.desc(colif)
#CONDITIONS
sigmat<-0.25 #standard deviation “fitness for purpose”
bw=0.75*sigmat #standard deviation of kernel density
Anexo G
(informativo)
Bibliografía
[1] ISO 5725-2, Accuracy (trueness and precision) of measurement methods and results - Part 2:
Basic method for the determination of repeatability and reproducibility of a standard measurement
method.
[2] ISO 5725-3, Accuracy (trueness and precision) of measurement methods and results - Part 3:
Intermediate measures of the precision of a standard measurement method.
[3] ISO 5725-4, Accuracy (trueness and precision) of measurement methods and results - Part 4:
Basic methods for the determination of the trueness of a standard measurement method.
[4] ISO 5725-5, Accuracy (trueness and precision) of measurement methods and results - Part 5:
Alternative methods for the determination of the precision of a standard measurement method.
[5] ISO 5725-6, Accuracy (trueness and precision) of measurement methods and results - Part 6:
Use in practice of accuracy values.
[7] ISO 11352, Water quality - Estimation of measurement uncertainty based on validation and quality
control data.
[9] ISO 11843-2, Capability of detection - Part 2: Methodology in the linear calibration case.
[10] ISO 16269-4, Statistical interpretation of data - Part 4: Detection and treatment of outliers.
[11] ISO/IEC 17011, Evaluación de la conformidad - Requisitos para los organismos de acreditación
que realizan la acreditación de organismos de evaluación de la conformidad.
[12] ISO/IEC 17025, Requisitos generales para la competencia de los laboratorios de ensayo y
calibración.
[13] ISO Guide 35, Reference materials - Guidance for characterization and assessment of homogeneity
and stability.
[14] ISO/IEC Guide 98-3, Uncertainty of measurement - Part 3: Guide to the expression of uncertainty
in measurement (GUM:1995).
[15] Analytical Method Committee. Royal Society of Chemistry Accred Qual Assur. 2010, 15 pp. 73–79.
[16] CCQM Guidance note: Estimation of a consensus KCRV and associated Degrees of Equivalence.
Version 10. Bureau International des Poids et Mesures, Paris (2013).
[17] Davison A.C., Hinkley D.V. Bootstrap Methods and Their Application. Cambridge University Press,
1997.
[18] Efron B., Tibshirani R. An Introduction to the Bootstrap. Chapman & Hall, 1993.
[19] Lamberty A., Schimmel H., Pauwels J., The study of the stability of reference materials by
isochronous measurements. Fres J, Anal Chem. 1998, 360 pp. 359-361.
[20] Gower J.C. A general coefficient of similarity and some of its properties. Biometrics. 1971, 27 (4)
pp. 857–871.
[21] Helsel D.R. Nondetects and data analysis: statistics for censored environmental data. Wiley
Interscience, 2005.
[22] Horwitz W. Evaluation of analytical methods used for regulations of food and drugs. Anal. Chem.
1982, 54 pp. 67A–76A.
[23] Jackson J.E. Quality control methods for two related variables. Industrial Quality Control. 1956,
7 pp. 2–6.
[24] Kuselman I., Fajgelj A. IUPAC/CITAC Guide: Selection and use of proficiency testing schemes for
a limited number of participants-chemical analyticallaboratories (IUPAC Technical Report). Pure
Appl. Chem. 2010, 82 (5) pp. 1099–1135.
[25] Maronna R.A., Martin R.D., Yohai V.J. Robust Statistics: Theory and methods. John Wiley & Sons
Ltd, Chichester, England, 2006.
[26] Müller C.H., Uhlig S. Estimation of variance components with high breakdown point and high
efficiency; Biometrika; 88: Vol. 2, pp. 353-366, 2001.
[27] Rousseeuw P.J., Verboven S. Comput. Stat. Data Anal. 2002, 40 pp. 741–758.
[28] Scott D.W. Multivariate Density Estimation: Theory, Practice, and Visualization. Wiley, 1992.
[29] Sheather S.J., Jones M.C. A reliable data-based bandwidth selection method for kernel density
estimation. J. R. Stat. Soc., B. 1991, 53 pp. 683–690.
[30] Silverman B.W. Density Estimation. Chapman and Hall, London, 1986.
[32] Thompson M., Ellison S.L.R., Wood R. “The International Harmonized Protocol for the proficiency
testing of analytical chemistry laboratories” (IUPAC Technical Report). Pure Appl. Chem. 2006, 78
(1) pp. 145–196.
[33] Thompson M., Willetts P., Anderson S., Brereton P., Wood R. Collaborative trials of the sampling
of two foodstuffs, wheat and green coffee. Analyst (Lond.). 2002, 127 pp. 689–691.
[34] Uhlig S. Robust estimation of variance components with high breakdown point in the 1-way random
effect model. In: Kitsos, C.P. and Edler, L.; Industrial Statistics; Physica, S. 65-73, 1997.
[35] Uhlig S. Robust estimation of between and within laboratory standard deviation measurement
results below the detection limit, Journal of Consumer Protection and Food Safety, 2015.
[36] van Nuland Y. ISO 9002 and the circle technique. Qual. Eng. 1992, 5 pp. 269–291.
[37] https://quodata.de/en/web-services/QHampel.html.
[38] ISO 16269-4, Statistical interpretation of data - Part 4: Detection and treatment of outliers.
[39] Robouch P., Naji Y., Vermaercke, P. The “Naji Plot”, a simple graphical tool for the evaluation of
inter-laboratory comparisons, in Richter D., Wöger W., Hässelbarth W. (eds.), Data analysis of key
comparisons, Braunschweig and Berlin, 2003, ISBN 3-89701-933-3.
[41] Maechler M., Rousseeuw P., Croux C., Todorov V., Ruckstuhl A., Salibian-Barrera M. et al.
c(“Eduardo”, “L. T.”) Conceicao and Maria Anna di Palma (2021). robustbase: Basic Robust
Statistics R package version 0.93-7. URL http://CRAN.R-project.org/package=robustbase.
[42] Christophe Croux and Peter J. Rousseeuw, “Time-Efficient Algorithms for Two Highly Robust
Estimators of Scale,” in Computational Statistics, Volume 1, eds. Y . Dodge and J. Whittaker,
Heidelberg: Physika-Verlag, 41 1-428, 1992.
La equivalencia de las Normas Internacionales señaladas anteriormente con Norma Chilena, y su grado de correspondencia
es el siguiente:
(continúa)
© ISO 2022 - Todos los derechos reservados
110 © INN 2023 - Para la adopción nacional
(conclusión)
ISO 11843-2 No hay -
Anexo H
(informativo)
En toda la norma Se reemplaza “este documento” por “esta De acuerdo con estructura de NCh2.
norma”.
campo de aplicación”.
Figura E.5 Se crean NOTAS 1 y 2 con información Error editorial de la norma base.
sobre la figura.
Anexo I
(informativo)
La Norma Chilena NCh3800 ha sido preparada por la División de Normas del Instituto Nacional de
Normalización y en su elaboración participaron las personas naturales y organizaciones siguientes: