Norma 3800-2023

NORMA NCh3800:2023
CHILENA ISO 13528:2022
Primera edición
2023.08.30
Métodos estadísticos para uso en ensayos de

aptitud por comparación interlaboratorio
Statistical methods for use in proficiency testing by interlaboratory
comparison
USO EXCLUSIVO - SOCIEDAD DE DESARROLLO TECNOLOGICO - USACH LTDA. (PROHIBIDO LA REPRODUCCIÓN)

Copia para uso exclusivo - SOCIEDAD DE DESARROLLO TECNOLOGICO - USACH LTDA. - 78.172.420-3 - VD-0426-23
ICS 03.120.30
Número de referencia
NCh3800:2023
ISO 13528:2022
113 páginas
© INN 2023
Impreso por: Pablo Medina Dávila Solicitado por: Monica Vega
NCh3800:2023
ISO 13528:2022

DOCUMENTO PROTEGIDO POR COPYRIGHT
© ISO 2022 - Todos los derechos reservados

© INN 2023 - Para la adopción nacional
Derechos de autor:
La presente Norma Chilena se encuentra protegida por derechos de autor o copyright, por lo cual, no puede ser reproducida
o utilizada en cualquier forma o por cualquier medio, electrónico o mecánico, sin permiso escrito del INN. La publicación en
Internet se encuentra prohibida y penada por la ley.
Se deja expresa constancia que en caso de adquirir algún documento en formato impreso, éste no puede ser copiado
(fotocopia, digitalización o similares) en cualquier forma. Bajo ninguna circunstancia puede ser revendida. Asimismo, y sin
perjuicio de lo indicado en el párrafo anterior, los documentos adquiridos en formato .pdf, tiene autorizada sólo una impresión
por archivo, para uso personal del Cliente. El Cliente ha comprado una sola licencia de usuario para guardar este archivo en
su computador personal. El uso compartido de estos archivos está prohibido, sea que se materialice a través de envíos o
transferencias por correo electrónico, copia en CD, publicación en Intranet o Internet y similares.
Si tiene alguna dificultad en relación con las condiciones antes citadas, o si usted tiene alguna pregunta con respecto a los
derechos de autor, por favor contacte la siguiente dirección:
Instituto Nacional de Normalización - INN

Av. Libertador Bernardo O’Higgins 1449, Santiago Downtown Torre 7, piso 18 • Santiago de Chile
Tel. + 56 2 2445 88 00
Correo Electrónico contacto@inn.cl
Sitio Web www.inn.cl
Publicado en Chile
ii © INN 2023 - Para la adopción nacional

NCh3800:2023
ISO 13528:2022
Contenido Página
Preámbulo .........................................................................................................................................viii
0 Introducción .......................................................................................................................ix
0.1 Los propósitos de los ensayos de aptitud ......................................................................ix
0.2 Justificación de la puntuación en los programas de ensayos de aptitud ...................ix
0.3 ISO 13528 e ISO/IEC 17043 ...............................................................................................ix
0.4 Experiencia estadística......................................................................................................x
0.5 Software de computadora .................................................................................................x
1 Alcance................................................................................................................................1
2 Referencias normativas .....................................................................................................1
3 Términos y definiciones ....................................................................................................2
4 Principios generales ..........................................................................................................6
4.1 Requisitos generales para los métodos estadísticos.....................................................6

4.2 Modelo básico ....................................................................................................................6

4.3 Enfoques generales para la evaluación del desempeño ................................................7
5 Directrices para el diseño estadístico de programas de ensayos de aptitud ..............7
5.1 Introducción al diseño estadístico de programas de ensayos de aptitud ....................7
5.2 Base de un diseño estadístico ..........................................................................................8
5.3 Consideraciones para la distribución estadística de resultados ..................................9
5.4 Consideraciones para un pequeño número de participantes ......................................10
5.5 Directrices para elegir el formato de informe ................................................................10
6 Directrices para la revisión inicial de ítems y resultados de ensayos de aptitud ......12
6.1 Homogeneidad y estabilidad de los ítems de ensayo de aptitud ................................12
6.2 Consideraciones para diferentes métodos de medición ..............................................14
6.3 Eliminación de errores aberrantes .................................................................................14
6.4 Revisión visual de datos .................................................................................................15
6.5 Métodos estadísticos robustos.......................................................................................15
6.6 Técnicas de valores atípicos para resultados individuales .........................................16
7 Determinación del valor asignado y su incertidumbre estándar.................................17
7.1 Elección del método de determinación del valor asignado .........................................17
7.2 Determinación de la incertidumbre del valor asignado................................................17
7.3 Formulación ......................................................................................................................19
7.4 Material de referencia certificado ...................................................................................20
7.5 Resultados de un laboratorio..........................................................................................20
7.6 Valor de consenso de laboratorios expertos.................................................................21
7.7 Valor de consenso de los resultados de los participantes ..........................................22
7.8 Comparación del valor asignado con un valor de referencia independiente .............23
8 Determinación de criterios para la evaluación del desempeño ...................................24
8.1 Enfoques para determinar los criterios de evaluación .................................................24
8.2 Según la percepción de los expertos .............................................................................25
8.3 Por experiencia de rondas anteriores de un programa de ensayo de aptitud............25
8.4 Mediante el uso de un modelo general ..........................................................................26
© INN 2023 - Para la adopción nacional iii
NCh3800:2023
ISO 13528:2022
8.5 Uso de las desviaciones estándar de repetibilidad y reproducibilidad de

un estudio colaborativo previo de precisión de un método de medición ..................27
8.6 A partir de datos obtenidos en la misma ronda de un programa de
ensayo de aptitud .............................................................................................................27
8.7 Seguimiento del acuerdo interlaboratorio .....................................................................28
9 Cálculo de estadísticos de desempeño .........................................................................29
9.1 Consideraciones generales para determinar el desempeño .......................................29
9.2 Limitación de la incertidumbre del valor asignado.......................................................29
9.3 Estimaciones de desviación (error de medición) ..........................................................30
9.4 Puntuaciones z .................................................................................................................31
9.5 Puntuaciones z′ ................................................................................................................33
9.6 Puntuaciones zeta (ζ).......................................................................................................34
9.7 Puntuaciones En ......................................................................................................................................35

9.8 Evaluación de las incertidumbres de los participantes en los ensayos .....................36
9.9 Puntuaciones de desempeño combinados ...................................................................37

10 Métodos gráficos para describir puntuaciones de desempeño ..................................38
10.1 Aplicación de métodos gráficos .....................................................................................38
10.2 Histogramas de resultados o puntuaciones de desempeño .......................................38
10.3 Gráficas de densidad kernel ...........................................................................................39
10.4 Gráficos de barras de puntuaciones de desempeño estandarizadas .........................41
10.5 Gráfico de Youden ............................................................................................................41
10.6 Gráficas de desviaciones estándar de repetibilidad.....................................................42
10.7 Muestras divididas ...........................................................................................................43
10.8 Métodos gráficos para combinar puntuaciones de desempeño en
varias rondas de un programa de ensayo de aptitud ...................................................44
11 Diseño y análisis de programas de ensayos de aptitud cualitativos
(incluyendo propiedades nominales y ordinales) .........................................................45
11.1 Tipos de datos cualitativos .............................................................................................45
11.2 Diseño estadístico............................................................................................................46
11.3 Valores asignados para programas de ensayos de aptitud cualitativas.....................47
11.4 Evaluación del desempeño y puntuación para programas de ensayos de
aptitud cualitativas ...........................................................................................................48
Anexos
Anexo A (normativo) Símbolos..........................................................................................................51
Anexo B (informativo) Homogeneidad y estabilidad de los ítems de ensayo de aptitud .............53
B.1 Procedimiento general para un control de homogeneidad ..........................................53
B.2 Criterios de evaluación para un control de homogeneidad .........................................54
B.3 Fórmulas para el control de homogeneidad ..................................................................56
B.4 Procedimientos para comprobar la estabilidad ............................................................58
B.4.1 Consideraciones generales para comprobar la estabilidad ........................................58
iv © INN 2023 - Para la adopción nacional

NCh3800:2023
ISO 13528:2022
B.4.2 Procedimiento para verificar la estabilidad durante el curso de una ronda de

programa de ensayo de aptitud ......................................................................................58
B.5 Criterio de evaluación para un control de estabilidad ..................................................60
B.6 Estabilidad en condiciones de transporte .....................................................................61
Anexo C (informativo) Análisis robusto ............................................................................................62
C.1 Generalidades...................................................................................................................62
C.2 Estimadores simples resistentes a valores atípicos para la
desviación estándar y media de la población ...............................................................63
C.2.1 La mediana........................................................................................................................63
C.2.2 Desviación absoluta de la mediana escalada MADe.................................................................63
C.2.3 Rango intercuartílico normalizado nIQR........................................................................63
C.3 Análisis robusto: Algoritmo A .........................................................................................64
C.3.1 Algoritmo A con escala iterada.......................................................................................64

C.3.2 Variantes del Algoritmo A................................................................................................65
C.4 Análisis robusto: Algoritmo S .........................................................................................65

C.5 Estimadores robustos computacionalmente intensivos: método Q y
estimador de Hampel .......................................................................................................67
C.5.1 Justificación de los estimadores computacionalmente intensivos ............................67
C.5.2 Determinación de una desviación estándar robusta utilizando
los métodos Q y Qn ..........................................................................................................68
C.5.3 Determinación de una media robusta utilizando el estimador de Hampel .................71
C.5.4 El método Q/Hampel ........................................................................................................74
C.6 Otras técnicas robustas...................................................................................................74
Anexo D (informativo) Orientación adicional sobre procedimientos estadísticos .......................75
D.1 Procedimientos para un pequeño número de participantes ........................................75
D.1.1 Consideraciones generales.............................................................................................75
D.1.2 Procedimientos para identificar valores atípicos..........................................................75
D.1.3 Procedimientos para estimaciones de localización .....................................................76
D.1.4 Procedimientos para estimaciones de dispersión ........................................................76
D.2 Eficiencia y puntos de ruptura para procedimientos robustos ...................................77
D.2.2 Punto de ruptura ..............................................................................................................78
D.2.3 Eficiencia relativa .............................................................................................................78
D.3 Uso de datos de ensayos de aptitud para evaluar la reproducibilidad y
repetibilidad de un método de medición .......................................................................79
Anexo E (informativo) Ejemplos ilustrativos ....................................................................................81
E.1 Efecto de los valores censurados ..................................................................................81
E.2 Test de homogeneidad y estabilidad - Arsénico (As) en chocolate ............................82
E.3 Ejemplo completo de atrazina en agua potable ............................................................84
E.4 Ejemplo completo de mercurio en alimentos para animales .......................................89
E.5 Valor de referencia de un solo laboratorio: valor de Los Ángeles de
los agregados ...................................................................................................................92
E.6 Ejemplo de técnica bootstrap para coliformes en muestras de
alimentos...........................................................................................................................93
© INN 2023 - Para la adopción nacional v
NCh3800:2023
ISO 13528:2022
E.7 Comparación del valor de referencia y la media de consenso ....................................94

E.8 Determinación de criterios de evaluación por experiencia con rondas previas de
un programa de ensayo de aptitud: toxafeno en agua potable....................................95
E.9 A partir de un modelo general: ecuación de Horwitz ...................................................97
E.10 Determinación del desempeño a partir de un experimento de precisión:
Determinación del contenido de cemento del hormigón endurecido .........................97
E.11 Gráficos de barras de sesgos estandarizados: Concentraciones de anticuerpos ....98
E.12 Gráfico de Youden - concentraciones de anticuerpos ..................................................99
E.13 Gráfica de desviaciones estándar de repetibilidad: Concentraciones de
anticuerpos .....................................................................................................................101
E.14 Métodos gráficos para el seguimiento del desempeño a lo largo del tiempo ..........102
E.15 Análisis Cualitativo de Datos; ejemplo de una cantidad ordinal: reacción de
la piel a un cosmético ....................................................................................................105

Anexo F (informativo) Ejemplo de código de computadora para gráficos y análisis por
remuestreo (“bootstrapping”) de resultados de EA ...................................................107

Anexo G (informativo) Bibliografía ..................................................................................................108
Anexo H (informativo) Justificación de los cambios editoriales ..................................................112
Anexo I (informativo) Participantes en elaboración de Norma Chilena NCh3800 .......................113
Figuras
Figura E.1 – Resultados clasificados de los participantes para Atrazina
(datos de la Tabla E.4) ......................................................................................................86
Figura E.2 – Histograma de los resultados de los participantes ..................................................87
Figura E.3 – Gráfica de densidad kernel para los resultados de los participantes ....................87
Figura E.4 – Resumen de estadísticos robustos de Tabla E.5 ......................................................88
Figura E.5 – Resultados de los participantes e incertidumbres para los resultados
en IMEP 111 (datos de la Tabla E.6) ................................................................................90
Figura E.8 – Desviación estándar relativa de los resultados de los participantes (%)
frente al valor de referencia asignado (µg/L) .................................................................96
Figura E.9 – Desviación estándar del participante (µg/l) frente al valor asignado (µg/l)............97
Figura E.10 – Gráfico de barras de puntuaciones z (4,0 a −4,0) para una ronda de
un programa de ensayo de aptitud en el que los participantes determinaron las
concentraciones de tres anticuerpos IgE específicos de alérgenos ..........................98
Figura E.11 – Gráfico de Youden de puntuaciones z de la Tabla E.10 ..........................................99
Figura E.12 – Gráfica de desviaciones estándar contra promedios de 25 participantes
(datos de la Tabla E.10) ..................................................................................................102
Figura E.13 – Puntuaciones de desempeño para cada ronda del programa de
ensayos de aptitud (datos de la Tabla E.12) .................................................................104

vi © INN 2023 - Para la adopción nacional

NCh3800:2023
ISO 13528:2022
Figura E.14 – Puntuaciones de desempeño para diferentes niveles del mensurando.............104

Figura E.15 – Gráfico de barras de respuestas porcentuales a dos ítems de ensayo de
aptitud de irritación de la piel - # modo, @ mediana ..................................................106
Tablas
Tabla B.1 – Factores F1 y F2 para usar en el test de homogeneidad suficiente ..........................55
Tabla C.1 – Factores requeridos para un análisis robusto: Algoritmo S .....................................67
Tabla C.2 – Factor de corrección bp para 2 ≤ p ≤ 12.......................................................................69
Tabla D.1 – Puntos de ruptura para los estimadores de la media y la desviación estándar
(proporción de valores atípicos que pueden conducir a la falla del estimador) ........78
Tabla D.2 – Eficiencia relativa de estimadores robustos para la media y desviación
estándar de la población, para conjuntos de datos normalmente distribuidos

con n = 50 o 500 participantes: .......................................................................................79
Tabla E.1 – Conjunto de datos de muestra con resultados censurados (<) y

tres opciones para acomodar resultados censurados .................................................81
Tabla E.2 – Datos de homogeneidad para ítems de ensayo de aptitud de
arsénico en chocolate ......................................................................................................83
Tabla E.3 – Datos de estabilidad para ítems de ensayo de aptitud para arsénico en
chocolate...........................................................................................................................83
Tabla E.4 – Cálculo del promedio robusto y la desviación estándar de atrazina en
agua potable .....................................................................................................................84
Tabla E.5 – Estadísticos resumidos para el ejemplo de atrazina ..................................................88
Tabla E.6 – Resultados del ensayo de aptitud de 24 participantes en el estudio IMEP 111.......89
Tabla E.7 – Estadísticos de desempeño por varios métodos .......................................................91
Tabla E.8 – Cálculo de la diferencia promedio entre un MRC y un ítem de ensayo de
aptitud, y de la incertidumbre estándar de esta diferencia ..........................................93
Tabla E.9 – Rondas del programa de ensayos de aptitud para
toxafeno en agua potable y resultados de p ≥ 20 ..........................................................95
Tabla E.10 – Datos y cálculos sobre concentraciones de anticuerpos para
dos alérgenos similares ................................................................................................100
Tabla E.11 – Concentraciones de ciertos anticuerpos en ítems de ensayo de
aptitud en suero (cuatro determinaciones replicadas en un ítem de
ensayo de aptitud por cada participante) ....................................................................101
Tabla E.12 – Puntuaciones PA para 5 rondas a del programa de ensayo de aptitud,
cada una con 3 ítems de ensayo de aptitud para potasio sérico ..............................103
Tabla E.13 – Resultados de dos ítems de ensayo de aptitud, irritación de la piel ....................105
Tabla H.1 – Cambios editoriales .....................................................................................................112

© INN 2023 - Para la adopción nacional vii
NCh3800:2023
ISO 13528:2022
Preámbulo
El Instituto Nacional de Normalización, INN, es el organismo que tiene a su cargo el estudio y preparación
de las normas técnicas a nivel nacional. Es miembro de la INTERNATIONAL ORGANIZATION FOR
STANDARDIZATION (ISO) y de la COMISION PANAMERICANA DE NORMAS TECNICAS (COPANT),
representando a Chile ante esos organismos.
Esta norma se estudió a través del Comité Técnico CL040 Metrología, para proporcionar descripciones
detalladas de métodos estadísticos para que los proveedores de ensayos de aptitud utilicen para
diseñar programas de ensayos de aptitud y para analizar los datos obtenidos de esos programas.
Esta norma es una traducción idéntica de la versión en inglés de la Norma Internacional ISO 13528:2022
Statistical methods for use in proficiency testing by interlaboratory comparison.
Para los propósitos de esta norma, se han realizado los cambios editoriales que se indican y justifican

en Anexo H.
La Nota Explicativa incluida en un recuadro en cláusula 2 Referencias normativas y en Anexo G

Bibliografía, es un cambio editorial que se incluye con el propósito de informar la equivalencia de las
Normas Internacionales citadas en esta norma con las Normas Chilenas.
El Anexo A forma parte de la norma.
Los Anexos B, C, D, E, F, G, H e I no forman parte de la norma, se insertan solo a título informativo.
Esta norma ha sido aprobada por el Consejo del Instituto Nacional de Normalización, en sesión
efectuada el 30 de agosto de 2023.
Si bien se ha tomado todo el cuidado razonable en la preparación y revisión de los documentos

normativos producto de la presente comercialización, INN no garantiza que el contenido del documento
es actualizado o exacto o que el documento será adecuado para los fines esperados por el Cliente.
En la medida permitida por la legislación aplicable, el INN no es responsable de ningún daño directo,
indirecto, punitivo, incidental, especial, consecuencial o cualquier daño que surja o esté conectado con
el uso o el uso indebido de este documento.

viii © INN 2023 - Para la adopción nacional

NCh3800:2023
ISO 13528:2022
0 Introducción
0.1 Los propósitos de los ensayos de aptitud
Los ensayos de aptitud (EA) involucran el uso de comparaciones interlaboratorio para determinar el
desempeño de los participantes (que pueden ser laboratorios, organismos de inspección o individuos)
para ensayos o mediciones específicas, y para monitorear su desempeño continuo. Hay una serie de
propósitos típicos de los ensayos de aptitud, como se describe en la Introducción a ISO/IEC 17043.
Estos incluyen la evaluación del desempeño del laboratorio, la identificación de problemas en los
laboratorios, el establecimiento de la efectividad y la comparabilidad de los métodos de ensayo o
medición, la provisión de confianza adicional a los clientes del laboratorio, la validación de declaraciones
de incertidumbre y la educación de los laboratorios participantes. El diseño estadístico y las técnicas
analíticas aplicadas deben ser apropiados para los fines declarados.
0.2 Justificación de la puntuación en los programas de ensayos de aptitud

Hay una variedad de estrategias de puntuación disponibles y en uso para los ensayos de aptitud.
Aunque los cálculos detallados difieren, la mayoría de los programas de ensayos de aptitud comparan
la desviación del participante de un valor asignado con un criterio numérico que se utiliza para decidir si
la desviación representa o no un motivo de preocupación. Las estrategias utilizadas para la asignación
de valor y para elegir un criterio para la evaluación de las desviaciones de los participantes son,
por lo tanto, críticas. En particular, es importante considerar si el valor asignado y el criterio para
evaluar las desviaciones deberían ser independientes de los resultados de los participantes o
deberían derivarse de los resultados presentados. En esta norma se presentan ambas estrategias.
Sin embargo, tener en consideración la discusión que se encontrará en las cláusulas 7 y 8 de las
ventajas y desventajas de elegir valores asignados o criterios para evaluar desviaciones que no se
derivan de los resultados de los participantes. Se verá que, en general, elegir los valores asignados y
los criterios de evaluación independientemente de los resultados de los participantes ofrece ventajas.
Este es particularmente el caso del criterio utilizado para evaluar las desviaciones del valor asignado,
como la desviación estándar para la evaluación de la aptitud o una tolerancia para el error de medición,
para el cual una elección coherente basada en la idoneidad para un uso final particular de los resultados
de la medición, es especialmente útil.
0.3 ISO 13528 e ISO/IEC 17043
Esta norma proporciona apoyo para la implementación de ISO/IEC 17043 en particular, sobre los
requisitos para el diseño estadístico, la validación de ítems de ensayo de aptitud, la revisión de
resultados y la presentación de informes estadísticos resumidos. ISO/IEC 17043:2010, Anexo B,
describe brevemente los métodos estadísticos generales que se utilizan en los programas de ensayos
de aptitud. Esta norma pretende ser complementaria a ISO/IEC 17043, que proporciona una guía
detallada que falta en ese documento sobre métodos estadísticos particulares para ensayos de aptitud.
La definición de ensayo de aptitud en ISO/IEC 17043 se repite en esta norma, con las notas que
describen los diferentes tipos de ensayos de aptitud y la gama de diseños que se pueden utilizar. Esta
norma no puede cubrir específicamente todos los propósitos, diseños, matrices y mensurandos. Las
técnicas presentadas en esta norma están destinadas a ser ampliamente aplicables, especialmente
para programas de ensayos de aptitud recientemente establecidos. Se espera que las técnicas
estadísticas utilizadas para un esquema particular de ensayos de aptitud evolucionen a medida que el
esquema madure; y las puntuaciones, los criterios de evaluación y las técnicas gráficas se refinarán
para satisfacer mejor las necesidades específicas de un grupo objetivo de participantes, organismos
de acreditación y autoridades reguladoras.

© INN 2023 - Para la adopción nacional ix
NCh3800:2023
ISO 13528:2022
Esta norma incorpora una orientación publicada para los ensayos de aptitud de los laboratorios de
análisis químico[32] pero, además, incluye una gama más amplia de procedimientos para permitir
su uso con métodos de medición válidos e identificaciones cualitativas. La revisión de esta norma
contiene la mayoría de los métodos estadísticos y la orientación de la primera edición, ampliados
según sea necesario por los documentos mencionados anteriormente y el alcance ampliado de
ISO/IEC 17043. La ISO/IEC 17043 incluye ensayos de aptitud para individuos y organismos de
inspección, incluido ISO/IEC 17043:2010, Anexo B, que incluye consideraciones para resultados
cualitativos.
Esta norma incluye técnicas estadísticas que son coherentes con otras Normas Internacionales, en
particular las de TC 69/SC6, en particular la serie de normas ISO 5725 sobre Exactitud: veracidad
y precisión. Las técnicas también están destinadas a reflejar otras Normas Internacionales, cuando
corresponda, y están destinadas a ser coherentes con ISO/IEC Guide 98-3 (GUM) e ISO/IEC Guide 99
(VIM).
0.4 Experiencia estadística

La ISO/IEC 17043 requiere que, para ser competente, un proveedor de ensayos de aptitud debe tener
acceso a conocimientos estadísticos y debe autorizar a personal específico para realizar análisis
estadísticos. Ni ISO/IEC 17043 ni esta norma puede especificar más cuál es esa experiencia necesaria.
Para algunas aplicaciones es útil un título avanzado en estadística, pero por lo general las necesidades
de experiencia pueden ser satisfechas por personas con experiencia técnica en otras áreas, que
estén familiarizadas con los conceptos estadísticos básicos y tengan experiencia o capacitación en las
técnicas comunes aplicables al análisis de datos, datos de programas de ensayos de aptitud. Si una
persona es responsable del diseño y/o análisis estadístico, es muy importante que tenga experiencia
en comparaciones interlaboratorio, incluso si esa persona tiene un título avanzado en estadística. La
capacitación estadística avanzada convencional a menudo no incluye ejercicios con comparaciones
interlaboratorio, y las causas únicas de error de medición que ocurren en los ensayos de aptitud
pueden parecer ajenas. La guía de esta norma no puede proporcionar toda la experiencia necesaria
para considerar todas las aplicaciones y no puede reemplazar la experiencia adquirida al trabajar con
comparaciones interlaboratorio.
0.5 Software de computadora
El software de computadora que se necesita para el análisis estadístico de los datos de los ensayos
de aptitud puede variar mucho, desde la aritmética de una hoja de cálculo simple para programas de
ensayos de aptitud pequeños que usan valores de referencia conocidos hasta el software estadístico
sofisticado que se usa para métodos estadísticos que dependen de cálculos iterativos u otros
métodos numéricos avanzados. La mayoría de las técnicas de esta norma se pueden lograr mediante
aplicaciones de hojas de cálculo convencionales, tal vez con rutinas personalizadas para un esquema
o análisis de ensayo de aptitud en particular; algunas técnicas requerirán aplicaciones informáticas que
están disponibles gratuitamente. En todos los casos, se espera que los usuarios verifiquen la validez
y precisión de sus cálculos, especialmente cuando el usuario haya ingresado rutinas especiales.
Sin embargo, aun cuando las técnicas en esta norma sean apropiadas y correctamente implementadas
por aplicaciones informáticas adecuadas, no se pueden aplicar sin la atención de una persona con
conocimientos técnicos y estadísticos suficientes para comprender la naturaleza de las aplicaciones
y los supuestos estadísticos, y para identificar e investigar anomalías que pueden ocurrir en cualquier
ronda de un programa de ensayos de aptitud.

x © INN 2023 - Para la adopción nacional

NCh3800:2023
NORMA CHILENA
ISO 13528:2022
Métodos estadísticos para uso en ensayos de aptitud por comparación

interlaboratorio
1 Alcance
Esta norma proporciona descripciones detalladas de métodos estadísticos para que los proveedores
de ensayos de aptitud utilicen para diseñar programas de ensayos de aptitud y para analizar los datos
obtenidos de esos programas. Esta norma proporciona recomendaciones sobre la interpretación de
los datos de los ensayos de aptitud por parte de los participantes en tales programas de ensayos de
aptitud y por parte de los organismos de acreditación.
Los procedimientos de esta norma se pueden aplicar para demostrar que los resultados de medición
obtenidos por laboratorios, organismos de inspección e individuos cumplen con los criterios
especificados para un desempeño aceptable.

Esta norma es aplicable a los ensayos de aptitud donde los resultados informados son mediciones
cuantitativas u observaciones cualitativas en ítems de ensayo.
NOTA Los procedimientos de esta norma también se pueden aplicar para la evaluación de la opinión de expertos
donde las opiniones o juicios se informan en una forma que se puede comparar objetivamente con un valor de referencia
independiente o un estadístico de consenso. Por ejemplo, cuando se clasifiquen ítems de ensayos de aptitud en categorías
conocidas mediante inspección, o al determinar mediante inspección si los ítems de ensayos de aptitud surgen o no de
la misma fuente original, y los resultados de la clasificación se comparan objetivamente, las disposiciones de esta norma
que relacionar con propiedades nominales (cualitativas).
2 Referencias normativas
Los documentos siguientes son indispensables para la aplicación de esta norma. Para referencias
con fecha, sólo se aplica la edición citada. Para referencias sin fecha se aplica la última edición del
documento referenciado (incluyendo cualquier enmienda).
ISO 3534-1, Statistics - Vocabulary and symbols - Part 1: General statistical terms and terms used in
probability.
ISO 3534-2, Statistics - Vocabulary and symbols - Part 2: Applied statistics.
ISO 5725-1, Accuracy (trueness and precision) of measurement methods and results - Part 1: General
principles and definitions.
ISO/IEC 17043, Evaluación de la conformidad - Requisitos generales para los ensayos de aptitud.
ISO Guide 30, Reference materials - Selected terms and definitions.
ISO/IEC Guide 99, International vocabulary of metrology - Basic and general concepts and associated
terms (VIM).
© ISO xxxx - Todos los derechos reservados

© INN 2023 - Para la adopción nacional 1
NCh3800:2023
ISO 13528:2022
NOTA EXPLICATIVA NACIONAL
La equivalencia de las Normas Internacionales señaladas anteriormente con Norma Chilena, y su grado de
correspondencia es el siguiente:
Norma Internacional Norma nacional Grado de correspondencia

ISO 3534-1 NCh2420/1:1998 La Norma Chilena NCh2420/1:1998 es una
adopción idéntica de la versión en inglés de la
Norma Internacional ISO 3534-1:1993.
ISO Guide 30 NCh-ISO Guía 30:2016 La Norma Chilena NCh-ISO Guía 30:2016 es

una adopción idéntica de la versión en inglés de

la ISO Guide 30:2015.
ISO/IEC 17043 NCh-ISO 17043:2011 La Norma Chilena NCh-ISO 17043:2011 es una
adopción idéntica de la versión en español de la
Norma Internacional ISO/IEC 17043:2010.
ISO/IEC Guide 99 NCh2450:2010 La Norma Chilena NCh2450:2010 es una
ISO/IEC Guide 99:2007 adopción idéntica de la versión en inglés de la
ISO/IEC Guide 99:2007.
3 Términos y definiciones
Para los propósitos de esta norma, se aplican los términos y definiciones dados en ISO 3534-1,
ISO 3534-2, ISO 5725-1, ISO/IEC 1704-3, ISO/IEC Guide 99, ISO Guide 30, y los siguientes. En el
caso de diferencias entre estas referencias sobre el uso de términos, las definiciones en ISO 3534-1,
ISO 3534-2 aplican. Los símbolos matemáticos se enumeran en el Anexo A.
ISO e IEC mantienen bases terminológicas que se pueden utilizar para normalización en las siguientes
direcciones:
— Plataforma en línea de ISO: disponible en https://www.iso.org/obp
— IEC Electropedia: disponible en https://www.electropedia.org
3.1
comparación interlaboratorio
organización, realización y evaluación de mediciones o ensayos sobre el mismo ítem o ítems similares
por dos o más laboratorios de acuerdo con condiciones predeterminadas

2 © INN 2023 - Para la adopción nacional

NCh3800:2023
ISO 13528:2022
3.2
ensayo de aptitud
evaluación del desempeño de los participantes con respecto a criterios previamente establecidos a
través de comparaciones interlaboratorio (3.1)
Nota 1 a la entrada: Para los propósitos de esta norma, el término “ensayo de aptitud” se toma en su sentido más amplio
e incluye, pero no se limita a:
— programa cuantitativo - donde el objetivo es cuantificar uno o más mensurandos del ítem de ensayo de aptitud;
— programa cualitativo - donde el objetivo es identificar o describir una o más características cualitativas del ítem de
ensayo de aptitud;
— programa secuencial - donde uno o más ítems de ensayo de aptitud se distribuyen secuencialmente para ensayo o
medición y se devuelven a intervalos al proveedor de ensayos de aptitud;
— programa simultáneo - donde se distribuyen ítems de ensayo de aptitud para ensayos o mediciones simultáneas en un

período de tiempo definido;
— ejercicio aislado - donde los ítems de ensayo de aptitud se proporcionan por única vez;
— programa continuo - donde los ítems de ensayo de aptitud se proporcionan a intervalos regulares;
— muestreo - donde se toman muestras para su posterior análisis y el propósito del programa de ensayo de aptitud incluye
la evaluación de la ejecución del muestreo; y
— interpretación de datos - donde se proveen conjuntos de datos u otra información y se procesa la información para
proporcionar una interpretación (u otro resultado).
3.3
valor asignado
valor atribuido a una propiedad particular de un ítem de ensayo de aptitud
3.4
desviación estándar para la evaluación de la aptitud
medida de la dispersión utilizada en la evaluación de los resultados de los ensayos de aptitud (3.2)
Nota 1 a la entrada: Esto se puede interpretar como la desviación estándar de la población de los resultados de una
población hipotética de laboratorios que funcionan exactamente de acuerdo con los requisitos.
Nota 2 a la entrada: La desviación estándar para la evaluación de la aptitud se aplica únicamente a los resultados de la
escala de relación y de intervalo.
Nota 3 a la entrada: No todos los programas de ensayos de aptitud evalúan el desempeño sobre la base de la dispersión
de los resultados.
[FUENTE: ISO/IEC 17043:2010, modificado - En la definición se ha eliminado “basados en la información

disponible”. Se ha añadido la Nota 1 a la entrada y se han editado ligeramente las Notas 2 y 3.]

NCh3800:2023
ISO 13528:2022
3.5
error de medición
valor de la cantidad medida menos un valor de la cantidad de referencia
[FUENTE: ISO/IEC Guide 99:2007, modificado - Se han eliminado las Notas.]
3.6
error máximo permitido
valor extremo del error de medición (3.5), con respecto a un valor de cantidad de referencia conocido,
permitido por especificaciones o reglamentos para una medición, instrumento de medición o sistema
de medición dado
[FUENTE: ISO/IEC Guide 99:2007, modificado - Se han eliminado las Notas.]
3.7
puntuación z

medida normalizada de desempeño, calculada utilizando el resultado del participante, el valor
asignado (3.3) y la desviación estándar para la evaluación de la aptitud (3.4)
Nota 1 a la entrada: Una variación común en la puntuación z, a veces denominada z’ (comúnmente pronunciado z-primo),
se forma combinando la incertidumbre del valor asignado con la desviación estándar para la evaluación de la aptitud
antes de calcular la puntuación z.
3.8
puntuación zeta
asignado (3.3) y las incertidumbres estándar combinadas para el resultado y el valor asignado (3.3)
3.9
proporción de la puntuación límite permitida
asignado (3.3) y el criterio de error de medición (3.5) en un ensayo de aptitud
Nota 1 a la entrada: Para resultados únicos, el desempeño se puede expresar como la desviación del valor
asignado (D o D%).
3.10
señal de acción
indicación de la necesidad de una acción que surja del resultado de un ensayo de aptitud
EJEMPLO Una puntuación z superior a 2 se toma convencionalmente como una indicación de la necesidad de investigar
las posibles causas; una puntuación z de 3 o mayor se toma convencionalmente como una señal de acción que indica la
necesidad de una acción correctiva.
3.11
valor de consenso
valor derivado de una colección de resultados en una comparación interlaboratorio (3.1)
Nota 1 a la entrada: La frase “valor de consenso” se usa típicamente para describir estimaciones de localización y
dispersión derivadas de los resultados de los participantes en una ronda de un programa de ensayo de aptitud, pero
también puede usarse para referirse a valores derivados de los resultados de un subconjunto especificado de tales
resultados o, por ejemplo, de varios laboratorios expertos.


NCh3800:2023
ISO 13528:2022
3.12
valor atípico
miembro de un conjunto de valores que no concuerda con otros miembros de dicho conjunto
Nota 1 a la entrada: Un valor atípico puede surgir por casualidad de la población esperada, originarse en una población
diferente o ser el resultado de un registro incorrecto u otro error aberrante.
Nota 2 a la entrada: Muchos programas de ensayos de aptitud usan el término valor atípico para designar un resultado
que genera una señal de acción. Este no es el uso previsto del término. Si bien los valores atípicos generalmente
generarán señales de acción, es posible tener señales de acción de resultados que no sean atípicos.
[FUENTE: ISO 5725-1:1994, modificado - Se han agregado las Notas a la entrada.]
3.13
participante
laboratorio, organización o persona que recibe ítems de ensayo de aptitud y presenta los resultados
para su revisión por el proveedor de ensayos de aptitud (3.2)

3.14
ítem de ensayo de aptitud
muestra, producto, artefacto, material de referencia, parte de un equipo, patrón de medición, conjunto
de datos u otra información utilizada para evaluar el desempeño del participante (3.13) en los ensayos
de aptitud (3.2)
Nota 1 a la entrada: En la mayoría de los casos, los ítems de ensayo de aptitud cumplen con la definición ISO Guide 30
de “material de referencia” (3.17).
3.15
proveedor de ensayos de aptitud
organización que es responsable de todas las tareas relacionadas con el desarrollo y la operación de
un programa de ensayos de aptitud (3.2)
3.16
programa de ensayos de aptitud
ensayos de aptitud (3.2) diseñados y operados en una o más rondas para un área específica de
ensayo, medición, calibración o inspección
Nota 1 a la entrada: Un programa de ensayos de aptitud puede cubrir un tipo particular de ensayo, calibración, inspección
o varios de ensayos, calibraciones o inspecciones de ítems de ensayos de aptitud.
3.17
material de referencia
MR
material, suficientemente homogéneo y estable con respecto a una o más propiedades especificadas,
que se ha establecido como apto para su uso previsto en un proceso de medición
Nota 1 a la entrada: MR es un término genérico.
Nota 2 a la entrada: Las propiedades pueden ser cuantitativas o cualitativas, por ejemplo, la identidad de sustancias o
especies.

NCh3800:2023
ISO 13528:2022
Nota 3 a la entrada: Los usos pueden incluir la calibración de un sistema de medición, la evaluación de un procedimiento
de medición, la asignación de valores a otros materiales y el control de calidad.
[FUENTE: ISO Guide 30:2015, modificado - Se ha eliminado la Nota 4.]
3.18
material de referencia certificado
MRC
material de referencia (MR) (3.17) caracterizado por un procedimiento metrológicamente válido para
una o más propiedades especificadas, acompañado por un certificado de MR que proporciona el valor
de la propiedad especificada, su incertidumbre asociada y una declaración de trazabilidad metrológica
Nota 1 a la entrada: El concepto de valor incluye una propiedad nominal o un atributo cualitativo como identidad o
secuencia. Las incertidumbres de tales atributos pueden expresarse como probabilidades o niveles de confianza.
[FUENTE: ISO Guide 30:2015, modificado - Se han eliminado las Notas 2, 3 y 4.]

4 Principios generales
4.1 Requisitos generales para los métodos estadísticos
4.1.1 Los métodos estadísticos utilizados deben ser adecuados para su propósito y estadísticamente
válidos. Cualquier supuesto estadístico en la que se basen los métodos o el diseño debe establecerse
en el diseño o en una descripción escrita del programa de ensayo de aptitud, y debe demostrarse que
estos supuestos son razonables.
NOTA Un método estadísticamente válido tiene una base teórica robusta, tiene un desempeño conocido en las
condiciones de uso esperadas y se basa en supuestos o condiciones que se puede demostrar que se aplican a los datos
lo suficientemente bien para el propósito en cuestión.
4.1.2 El diseño estadístico y las técnicas de análisis de datos deben ser coherentes con los objetivos
establecidos para el programa de ensayos de aptitud.
4.1.3 El proveedor de ensayos de aptitud debe proporcionar a los participantes una descripción de
los métodos de cálculo utilizados, una explicación de la interpretación general de los resultados y
una declaración de cualquier limitación relacionada con la interpretación. Esta descripción debe estar
disponible en cada informe para cada ronda del programa de ensayos de aptitud o en un resumen de
procedimientos por separado que esté disponible para los participantes.
4.1.4 El proveedor de ensayos de aptitud debe asegurarse de que todo el software esté adecuadamente
validado.
4.2 Modelo básico
4.2.1 Para resultados cuantitativos en programas de ensayos de aptitud donde se reporta un solo
resultado para un ítem de ensayo de aptitud dado, el modelo básico se da en la Ecuación (1).
xi = µ + εi (1)
en que:
xi = resultado del ensayo de aptitud del participante, i;


NCh3800:2023
ISO 13528:2022
µ = valor verdadero del mensurando;
εi = error de medición del participante i, distribuido según un modelo pertinente.
NOTA 1 Los modelos comunes para ε incluyen: la distribución normal εi ∼ N(0, σ2) con media 0 y varianza constante
o diferente para cada laboratorio; o más comúnmente, una distribución ‘normal contaminada con valores atípicos’ que
consiste en una mezcla de una distribución normal con una distribución más amplia que representa la población de
resultados erróneos.
NOTA 2 La base de la evaluación del desempeño con puntuaciones z y σpt es que en una población “idealizada” de
laboratorios competentes, la desviación estándar de los resultados de los ensayos de aptitud sería σpt o menos.
NOTA 3 Este modelo difiere del modelo básico en ISO 5725, ya que no incluye el término de sesgo de
laboratorio Bi. Esto se debe a que los términos de sesgo de laboratorio y error residual no se pueden distinguir cuando
se informa solo una observación. Sin embargo, cuando se consideren los resultados de un participante de varias rondas
o ítems de ensayo dentro del programa de ensayo de aptitud, puede ser útil incluir un término separado para el sesgo de
laboratorio.

4.2.2 Para resultados ordinales o cualitativos, pueden ser apropiados otros modelos, o podría no
haber un modelo estadístico.
4.3 Enfoques generales para la evaluación del desempeño
4.3.1 Hay tres enfoques generales diferentes para evaluar el desempeño en un programa de ensayos
de aptitud. Estos enfoques se utilizan para cumplir diferentes propósitos para el programa de ensayos
de aptitud. Los enfoques se enumeran a continuación:
a) desempeño evaluado por comparación con criterios derivados externamente;
b) desempeño evaluado por comparación con otros participantes;
c) desempeño evaluado por comparación con la incertidumbre de medición declarada.
4.3.2 Los enfoques generales pueden aplicarse de manera diferente para determinar el valor asignado
y para determinar los criterios para la evaluación del desempeño; por ejemplo, cuando el valor asignado
es la media robusta de los resultados de los participantes y la evaluación del desempeño se deriva
de σpt o δE, donde δE es una tolerancia predefinida para el error de medición y σpt = δE/3; de manera
similar, en algunas situaciones, el valor asignado puede ser un valor de referencia, pero σpt puede ser
una desviación estándar robusta de los resultados de los participantes. En el enfoque c) que utiliza la
incertidumbre de la medición, el valor asignado suele ser un valor de referencia adecuado.
5 Directrices para el diseño estadístico de programas de ensayos de aptitud

5.1 Introducción al diseño estadístico de programas de ensayos de aptitud
Los ensayos de aptitud se ocupan de la evaluación del desempeño de los participantes y, como tales,
no abordan específicamente el sesgo o la precisión (aunque estos pueden evaluarse con diseños
específicos). El desempeño de los participantes se evalúa a través de la evaluación estadística de sus
resultados en base a las mediciones o interpretaciones que realizan sobre los ítems de ensayo de
aptitud. El desempeño a menudo se expresa en forma de puntuaciones de desempeño que permiten
una interpretación coherente a través de un rango de medidas y pueden permitir que los resultados
de diferentes medidas se comparen en igualdad de condiciones. Las puntuaciones de desempeño
generalmente se obtienen al comparar la diferencia entre el resultado de un participante informado y
NCh3800:2023
ISO 13528:2022
un valor asignado con una desviación permitida o con una estimación de la incertidumbre de medición
de la diferencia. El examen de las puntuaciones de desempeño en múltiples rondas de un programa
de ensayo de aptitud puede proporcionar información sobre si los laboratorios individuales muestran
evidencia de efectos sistemáticos coherentes (“sesgo”) o poca precisión a largo plazo.
Las siguientes cláusulas 5 a 10 brindan orientación sobre el diseño de programas de ensayos de aptitud
cuantitativas y sobre el tratamiento estadístico de los resultados, incluido el cálculo y la interpretación
de varias puntuaciones de desempeño. Las consideraciones para los programas de ensayos de aptitud
cualitativas (incluidos los esquemas ordinales) se dan en la cláusula 11.
5.2 Base de un diseño estadístico
5.2.1 Según ISO/IEC 17043:2010, 4.4.4.1, el diseño estadístico “debe ser desarrollado para cumplir
con los objetivos del programa de ensayos de aptitud, basado en la naturaleza de los datos (cuantitativos
o cualitativos incluyendo ordinales y categóricos), supuestos estadísticos, la naturaleza de los errores,
y el número esperado de resultados”. Por lo tanto, los programas de ensayos de aptitud con diferentes

objetivos y con diferentes fuentes de error podrían tener diferentes diseños.
Las consideraciones de diseño para los objetivos comunes se enumeran a continuación. Otros objetivos
son posibles.
EJEMPLO 1 Para que un programa de ensayo de aptitud compare el resultado de un participante con un valor de
referencia predeterminado y dentro de los límites que se especifican antes de que comience la ronda, el diseño debe
incluir un método para obtener un valor de referencia definido externamente, un método para establecer límites, y un
método de puntuación.
EJEMPLO 2 Para que un programa de ensayo de aptitud compare el resultado de un participante con los resultados
combinados de un grupo en la misma ronda, y los límites que se especifican antes de que comience la ronda, el diseño
también debe considerar cómo se determinará el valor asignado a partir de los resultados combinados así como también
los métodos para establecer límites y puntuación.
EJEMPLO 3 Para que un programa de ensayo de aptitud compare el resultado de un participante con los resultados
combinados de un grupo en la misma ronda, y los límites determinados por la variabilidad de los resultados de los
participantes, el diseño debe considerar el cálculo de un valor asignado y una medida apropiada de dispersión así como
también el método de puntuación.
EJEMPLO 4 Para que un programa de ensayo de aptitud compare el resultado de un participante con el valor
asignado, utilizando la propia incertidumbre de medición del participante, el diseño debe considerar cómo se obtendrán el
valor asignado y su incertidumbre y cómo se utilizarán las incertidumbres de medición del participante en la puntuación.
EJEMPLO 5 Para un programa de ensayo de aptitud con el objetivo de comparar el desempeño de diferentes métodos
de medición, el diseño debe considerar los estadísticos de resumen pertinentes y los procedimientos para calcularlos.
5.2.2 Hay varios tipos de datos utilizados en los ensayos de aptitud, incluidos los cuantitativos,
nominales (categóricos) y ordinales. Entre las variables cuantitativas, algunos resultados pueden
estar en una escala de intervalo; o una relativa, o escala de razón. Para algunas mediciones
en una escala cuantitativa, solo se puede realizar un conjunto discreto y discontinuo de valores
(por ejemplo, diluciones secuenciales); sin embargo, en muchos casos estos resultados pueden
tratarse mediante técnicas aplicables a variables cuantitativas continuas.
NOTA 1 Para valores cuantitativos, una escala de intervalo es una escala en la que los intervalos (diferencias) son
significativos pero las relaciones no lo son, como la escala de temperatura Celsius. Una escala de razón es una escala
en la que tanto los intervalos como las razones son significativos, como la escala de temperatura Kelvin o las unidades
de longitud más comunes.


NCh3800:2023
ISO 13528:2022
NOTA 2 Para valores cualitativos, una escala categórica tiene valores distintos para los cuales el orden no es
significativo, como los nombres de las especies bacterianas. Los valores en una escala ordinal tienen un orden significativo
pero las diferencias no son significativas; por ejemplo, se puede ordenar una escala como ‘grande, mediana, pequeña’
pero las diferencias entre los valores no están definidas más que en términos del número de valores intermedios.
5.2.3 Los programas de ensayos de aptitud pueden utilizarse para otros fines además de los
anteriores, como se explica en 0.1 y en ISO/IEC 17043. El diseño debe ser apropiado para todos los
propósitos establecidos para el programa de ensayos de aptitud en particular.
5.3 Consideraciones para la distribución estadística de resultados
5.3.1 La subcláusula 4.4.4.2 de ISO/IEC 17043:2010 requiere que las técnicas de análisis estadístico
sean coherentes con los supuestos estadísticos para los datos. Las técnicas de análisis más comunes
para los ensayos de aptitud suponen que un conjunto de resultados de participantes competentes
se distribuirá de forma aproximadamente normal, o al menos unimodal y razonablemente simétrico
(después de la transformación, si es necesario). Un supuesto adicional común es que la distribución
de resultados de mediciones determinadas de manera competente se mezcla (o “contamina”) con

resultados de una población de valores erróneos que pueden generar valores atípicos. Por lo general,
la interpretación de la puntuación se basa en el supuesto de normalidad, pero solo para la distribución
subyacente asumida para los participantes competentes.
5.3.2 Por lo general, no es necesario verificar que los resultados se distribuyen normalmente, pero es
importante verificar la simetría aproximada, al menos visualmente. Si no se puede verificar la simetría,
el proveedor de ensayos de aptitud debería usar técnicas que sean robustas a la asimetría.
5.3.3 Cuando la distribución esperada para el programa de ensayos de aptitud no es lo suficientemente

simétrica (permitiendo la contaminación por valores atípicos), el proveedor de ensayos de aptitud debería
seleccionar métodos de análisis de datos que tomen debidamente en cuenta la asimetría esperada
y que sean resistentes a los valores atípicos, y métodos de puntuación que tomen debidamente en
cuenta la distribución esperada de los resultados de los participantes competentes. Los métodos de
análisis de datos pueden incluir:
— transformación para proporcionar una simetría aproximada;
— métodos de estimación resistentes a la asimetría;
— métodos de estimación que incorporen supuestos de distribución apropiados (por ejemplo, ajuste
de máxima verosimilitud con supuestos de distribución adecuados y, si es necesario, rechazo de
valores atípicos).
EJEMPLO 1 Los resultados basados en la dilución, como los recuentos microbiológicos cuantitativos o las técnicas
de inmunoensayo, a menudo se distribuyen según la distribución normal logarítmica, por lo que una transformación
logarítmica puede ser adecuada como primer paso del análisis.
EJEMPLO 2 Los conteos de pequeñas cantidades de partículas se pueden distribuir de acuerdo con una distribución
de Poisson y, por lo tanto, los criterios para la evaluación del desempeño se pueden determinar utilizando una tabla de
probabilidades de Poisson, con base en el conteo promedio del grupo de participantes.
NOTA 1 La transformación de los datos puede afectar el tratamiento y la interpretación de las incertidumbres asociadas
con los resultados de los participantes y el valor asignado.
NOTA 2 El Anexo C proporciona información adicional sobre el tratamiento de las distribuciones asimétricas con
valores atípicos y el Ejemplo E.6 proporciona un ejemplo de un método de estimación que es resistente a la asimetría.”

NCh3800:2023
ISO 13528:2022
5.3.4 En algunas áreas de calibración, los resultados de los participantes pueden seguir distribuciones
estadísticas que se describen en el procedimiento de medición (por ejemplo, exponencial o una
forma de onda); estas distribuciones definidas deberían ser consideradas en cualquier protocolo de
evaluación.
5.3.5 Según ISO/IEC 17043:2010, 4.4.4.2, el proveedor de ensayos de aptitud debe establecer la base
de cualquier supuesto estadístico y demostrar que los supuestos son razonables. Esta demostración
puede basarse, por ejemplo, en los datos observados, los resultados de rondas anteriores del programa
de ensayos de aptitud o la literatura técnica.
NOTA La demostración de la razonabilidad de un supuesto de distribución es menos rigurosa que la demostración

de la validez de ese supuesto.
5.4 Consideraciones para un pequeño número de participantes
5.4.1 El diseño estadístico para un programa de ensayos de aptitud debe considerar el número mínimo
de participantes que se necesitan para cumplir con los objetivos del diseño y establecer enfoques

alternativos que se utilizarán si no se logra el número mínimo [ISO/IEC 17043:2010, 4.4.4.3 b)]. Los
métodos estadísticos que son apropiados para un gran número de participantes pueden no serlo
para un número limitado de participantes. Las preocupaciones son que los estadísticos determinados
a partir de un pequeño número de resultados de los participantes pueden no ser lo suficientemente
confiables, y un participante podría ser evaluado frente a un grupo de comparación inadecuado.
NOTA El Informe Técnico de IUPAC/CITAC: Selection and use of proficiency testing schemes for a limited number
of participants[24] proporciona una guía útil para los programas de ensayos de aptitud donde hay pocos participantes. En
resumen, el informe IUPAC/CITAC recomienda que el valor asignado se debería basar en mediciones independientes
confiables; por ejemplo, mediante el uso de un material de referencia certificado, asignación independiente por parte
de un instituto nacional de calibración o metrología, o mediante preparación gravimétrica. El informe establece además
que la desviación estándar para la evaluación de la aptitud puede no estar basada en la dispersión observada entre los
resultados de los participantes para una sola ronda de un programa de ensayo de aptitud.
5.4.2 El número mínimo de participantes necesarios para los diversos métodos estadísticos
dependerá de una variedad de situaciones:
— los métodos estadísticos utilizados, por ejemplo, el método robusto en particular o la estrategia
elegida de eliminación de valores atípicos;
— la experiencia de los participantes con el esquema particular de ensayos de aptitud;
— la experiencia del proveedor de ensayos de aptitud con la matriz, mensurando, métodos y grupo
de participantes;
— si la intención es determinar el valor asignado o la desviación estándar (o ambos).
En cláusula D.1 se proporciona más orientación sobre técnicas para manejar un pequeño número de
participantes.
5.5 Directrices para elegir el formato de informe
5.5.1 Requisitos generales para el formato de informe
5.5.1.1 Es un requisito de ISO/IEC 17043: 2010, 4.6.1.2, que los proveedores de ensayos de aptitud
instruyen a los participantes para que realicen mediciones e informen los resultados de los ítems
de ensayo de aptitud de la misma manera en que realizan sus mediciones rutinarias, excepto en
circunstancias especiales.

NCh3800:2023
ISO 13528:2022
5.5.1.2 Este requisito puede, en algunas situaciones, dificultar la obtención de una evaluación exacta
de la precisión y veracidad de los participantes, o la competencia con un procedimiento de medición.
El proveedor de ensayos de aptitud debería adoptar un formato de informe coherente para el programa
de ensayos de aptitud pero, en lo posible, debería usar unidades que sean familiares para la mayoría
de los participantes y elegir un formato de informe que minimice la transcripción y otros errores. Esto
puede incluir advertencias automáticas de unidades inapropiadas cuando se sabe que los participantes
informan rutinariamente en unidades distintas a las requeridas por el programa de ensayos de aptitud.
NOTA 1 Para algunos programas de ensayos de aptitud, un objetivo es evaluar la capacidad de un participante para
seguir un método normalizado (por ejemplo, requerido oficialmente o normalizado internacionalmente), que podría incluir
el uso de una unidad de medida particular o un número de dígitos significativos.
NOTA 2 Los errores de transcripción en la recopilación de resultados por parte del proveedor de ensayos de aptitud
pueden reducirse o eliminarse sustancialmente mediante el uso de sistemas de informes electrónicos que permitan a los
participantes ingresar sus propios datos directamente.
5.5.2 Informes de mediciones replicadas

Si un programa de ensayo de aptitud requiere mediciones replicadas de los ítems de ensayo de

aptitud, se debería requerir al participante que informe el valor de cada réplica. Esto puede ocurrir,
por ejemplo, si un objetivo es evaluar la precisión de un participante sobre los ítems de ensayo de
aptitud conocidos y replicados, o cuando un procedimiento de medición requiere separar informes
de múltiples observaciones. En estas situaciones, el proveedor de ensayos de aptitud también puede
necesitar solicitar el valor medio del participante (u otra estimación de localización) y la incertidumbre
para ayudar al proveedor de ensayos de aptitud a analizar los datos.
5.5.3 Informe de “menor que” o “mayor que” un límite (datos censurados)
5.5.3.1 Cuando la práctica convencional de reporte sea informar los resultados como ‘menor que’ o
‘mayor que’ un límite (como un nivel de calibración o un límite de cuantificación) y cuando se requieran
resultados numéricos para una puntuación, el proveedor de ensayos de aptitud debe determinar cómo
los resultados serán procesados.
5.5.3.2 El proveedor de ensayos de aptitud debería adoptar procedimientos de puntuación y

tratamiento de datos validados que se adapten a los datos censurados (ver cláusula E.1), o exigir a
los participantes que informen el valor medido del resultado, ya sea en lugar de, o además de, el valor
habitualmente informado.
NOTA 1 Una opción del procedimiento de puntuación podría ser no puntuar dichos datos y/o informar si el límite
superior (o inferior) informado por el participante es coherente con el valor asignado.
NOTA 2 Solicitar a los participantes que informen valores numéricos fuera del rango normalmente informado
(por ejemplo, por debajo del límite de cuantificación del participante) permitirá el uso de métodos estadísticos que
requieren valores numéricos pero pueden dar como resultado puntuaciones que no reflejan el servicio de rutina del
participante a los clientes.
5.5.3.3 Cuando se utilizan estadísticos de consenso, puede que no sea posible evaluar el desempeño
si el número de valores censurados es lo suficientemente grande como para que la censura afecte a un
método robusto. En circunstancias en las que el número de resultados censurados sea suficiente para
afectar un método robusto, entonces los resultados deberían evaluarse utilizando métodos estadísticos
que permitan una estimación insesgada en presencia de datos censurados[21], o los resultados no
se deberían evaluar. En caso de duda sobre el efecto del procedimiento elegido, el proveedor de
ensayos de aptitud debería calcular estadísticas de resumen y evaluaciones de desempeño con cada
uno de los procedimientos estadísticos alternativos considerados potencialmente aplicables en las
circunstancias, e investigar la importancia de cualquier diferencia.
NCh3800:2023
ISO 13528:2022
5.5.3.4 Cuando se esperen o se hayan observado resultados censurados tales como declaraciones
‘menor que’, el diseño del programa de ensayos de aptitud debería incluir disposiciones para la
puntuación y/u otra acción sobre los valores censurados informados por los participantes, y los
participantes deberían ser notificados de estas disposiciones.
NOTA La cláusula E.1 tiene un ejemplo de algunos enfoques de análisis para datos censurados. Este ejemplo
muestra estadísticos robustos de consenso con tres enfoques diferentes; con los valores censurados eliminados, con los
valores retenidos pero el signo “<” eliminado, y con los resultados reemplazados con la mitad del valor límite.
5.5.4 Número de dígitos significativos
5.5.4.1 Por lo general, el número de dígitos significativos a reportar estará determinado por el diseño
del programa de ensayo de aptitud.
5.5.4.2 Al especificar el número de dígitos significativos a informar, el error de redondeo debería ser
insignificante en comparación con la variación esperada entre los participantes.

NOTA En algunas situaciones, el informe correcto es parte de la determinación de la competencia del participante,
y la cantidad de dígitos significativos y lugares decimales puede variar.
5.5.4.3 Cuando el número de dígitos reportados bajo condiciones de medición de rutina tiene un
efecto adverso apreciable en el tratamiento de datos por parte del proveedor de ensayos de aptitud
(por ejemplo, cuando los procedimientos de medición requieren reportar un número pequeño de dígitos
significativos), el proveedor de ensayos de aptitud puede especificar el número de dígitos a reportar.
EJEMPLO Un procedimiento de medición podría especificar informes de 0,1 g, lo que daría lugar a una gran proporción
(> 50%) de resultados idénticos y, a su vez, comprometería el cálculo de desviaciones estándar y medias robustas. El
proveedor de ensayos de aptitud podría entonces exigir a los participantes que informen con dos o tres decimales para
obtener estimaciones de localización y variación suficientemente fiables.
5.5.4.4 Si se permite que diferentes participantes informen los resultados utilizando diferentes
números de dígitos significativos, el proveedor de ensayos de aptitud debería tener esto en cuenta al
generar cualquier estadístico de consenso (como el valor asignado y la desviación estándar para la
evaluación de aptitud).
6 Directrices para la revisión inicial de ítems y resultados de ensayos de aptitud

6.1 Homogeneidad y estabilidad de los ítems de ensayo de aptitud
6.1.1 El proveedor de ensayos de aptitud debe asegurarse de que los lotes de ítems de ensayo
de aptitud sean lo suficientemente homogéneos y estables para los propósitos del programa de
ensayos de aptitud. El proveedor debe evaluar la homogeneidad y la estabilidad utilizando criterios que
aseguren que la falta de homogeneidad y la inestabilidad de los ítems del ensayo de aptitud no afecten
negativamente la evaluación del desempeño. La evaluación de la homogeneidad y la estabilidad
debería utilizar uno o más de los siguientes enfoques:
a) estudios experimentales como se describe en Anexo B o métodos experimentales alternativos

que brinden una garantía de homogeneidad y estabilidad equivalente o mayor;
b) experiencia con el comportamiento de ítems de ensayo de aptitud muy similares en rondas

anteriores del programa de ensayo de aptitud, verificada según sea necesario para la ronda actual;


NCh3800:2023
ISO 13528:2022
c) evaluación de los datos de los participantes en la ronda actual del programa de ensayos de
aptitud para evidencia de consistencia con rondas anteriores, para evidencia de cambio con el
tiempo de informe o el orden de producción, o cualquier dispersión inesperada atribuible a falta de
homogeneidad o inestabilidad.
NOTA 1 Estos enfoques pueden adoptarse caso por caso, utilizando técnicas estadísticas apropiadas y justificación
técnica. El enfoque a menudo cambiará durante la vida útil de un programa de ensayo de aptitud, por ejemplo, cuando la
experiencia acumulada reduzca el requisito inicial para el estudio experimental.
NOTA 2 Confiar en la experiencia (como en b arriba) solo es razonable en la medida que:
a) El proceso para producir lotes de los ítems de ensayo de aptitud no cambia de ninguna manera que pueda afectar la
homogeneidad;
b) Los materiales utilizados en la producción de los ítems de ensayo de aptitud no cambian de ninguna manera que pueda
afectar la homogeneidad;

c) No hay una “falta” de homogeneidad identificada mediante test de homogeneidad o respuestas de los participantes; y,
d) Los requisitos de homogeneidad del material se revisan periódicamente, teniendo en cuenta el uso previsto del material
en el momento de la revisión, para garantizar que la homogeneidad lograda por el proceso de producción sigue siendo
adecuada para el propósito.
EJEMPLO Si las rondas anteriores de un programa de ensayo de aptitud utilizaron ítems de ensayo de aptitud que fueron
probados y demostraron ser suficientemente homogéneos y estables, y con los mismos participantes que en rondas
anteriores, entonces si la desviación estándar de los resultados del ensayo de aptitud en la ronda actual no es mayor
que la desviación estándar en rondas anteriores, existe evidencia de suficiente homogeneidad y estabilidad en la ronda
actual.
6.1.2 Para programas de ensayos de aptitud de calibración en los que varios participantes utilizan
el mismo artefacto, el proveedor de ensayos de aptitud debe asegurar la estabilidad a lo largo de la
ronda o contar con procedimientos para identificar y dar cuenta de la inestabilidad a lo largo de la
progresión de una ronda del programa de ensayos de aptitud. Los procedimientos deberían incluir
la consideración de las tendencias de los ítems y mensurandos de ensayos de aptitud particulares,
como la deriva. Cuando corresponda, el aseguramiento de estabilidad debería considerar los efectos
de múltiples envíos del mismo artefacto.
6.1.3 Normalmente, se debería verificar la homogeneidad y estabilidad de todos los mensurandos

(o propiedades). Sin embargo, cuando se pueda demostrar que el comportamiento de un subconjunto
de propiedades proporciona una buena indicación de la estabilidad y/o la homogeneidad de todas las
propiedades sobre las que se informa en una ronda del programa de ensayos de aptitud, la evaluación
descrita en 6.1.1 puede limitarse a ese subconjunto de propiedades. Los mensurandos que se verifican
deberían ser sensibles a las fuentes de falta de homogeneidad o inestabilidad en el procesamiento del
ítem de ensayo de aptitud. Algunos casos importantes son:
a) cuando la medición es una proporción, una característica que es una pequeña proporción
puede ser más difícil de homogeneizar y, por lo tanto, ser más sensible en una verificación de
homogeneidad;
b) si un ítem de ensayo de aptitud se calienta durante el procesamiento, entonces elegir un

mensurando que sea sensible al calentamiento irregular;

NCh3800:2023
ISO 13528:2022
c) si una propiedad medida puede verse afectada por el asentamiento, la precipitación u otros efectos
dependientes del tiempo durante la preparación de los ítems del ensayo de aptitud, entonces esta
propiedad debería verificarse en el orden de llenado.
EJEMPLO En un programa de ensayo de aptitud para el contenido de metales tóxicos de los suelos, el contenido de
metales medido se ve afectado principalmente por el contenido de humedad. Una verificación del contenido de humedad
constante puede entonces considerarse suficiente para garantizar la estabilidad adecuada de los metales tóxicos.
NOTA En cláusula E.2 se proporciona un ejemplo de comprobaciones de homogeneidad y estabilidad, utilizando los
métodos estadísticos recomendados en Anexo B.
6.2 Consideraciones para diferentes métodos de medición
6.2.1 Cuando se espera que todos los participantes informen un valor para el mismo mensurando, el
valor asignado normalmente debería ser el mismo para todos los participantes. Sin embargo, cuando se
permite a los participantes elegir su propio método de medición, es posible que un solo valor asignado
para cada analito o propiedad no sea apropiado para todos los participantes. Esto puede ocurrir, por

ejemplo, cuando diferentes métodos de medición proporcionan resultados que no son comparables.
En este caso, el proveedor de ensayos de aptitud puede utilizar un valor asignado diferente para cada
método de medición.
EJEMPLOS:
a) los exámenes médicos donde se sabe que diferentes métodos de medición aprobados responden de manera diferente
al mismo material de examen y usan diferentes rangos de referencia para el diagnóstico;
b) los mensurandos definidos operativamente, tales como metales tóxicos lixiviables en suelos, para los cuales están
disponibles diferentes métodos estándar y no se espera que sean comparados directamente, pero donde el programa
de ensayo de aptitud especifica el mensurando sin referencia a un método de ensayo específico.
6.2.2 La necesidad de diferentes valores asignados para subconjuntos de participantes se debería

considerar en el diseño del programa de ensayos de aptitud (por ejemplo, para prever el informe de
métodos específicos) y también se debería considerar al revisar los datos para cada ronda.
6.3 Eliminación de errores aberrantes
6.3.1 La subcláusula ISO/IEC 17043:2010, B.2.5 y el Protocolo Armonizado de la IUPAC recomiendan

eliminar los errores aberrantes obvios de un conjunto de datos en una etapa temprana del análisis,
antes de utilizar cualquier procedimiento robusto o cualquier prueba para identificar valores atípicos
estadísticos. En general, estos resultados se tratarían por separado (como contactar al participante).
Es posible corregir algunos errores aberrantes, pero esto solo se debería hacer de acuerdo con una
política y un procedimiento aprobados.
NOTA Los errores aberrantes evidentes, como informar los resultados en unidades incorrectas o cambiar los
resultados de diferentes ítems de ensayo de aptitud, ocurren en la mayoría de las rondas de ensayos de aptitud, y estos
resultados solo perjudican el desempeño de los métodos estadísticos posteriores.
6.3.2 Si existe alguna duda sobre si un resultado es un error aberrante, se debería conservar en el
conjunto de datos y someterse a un tratamiento posterior, como se describe en 6.4 a 6.6.


NCh3800:2023
ISO 13528:2022
6.4 Revisión visual de datos
6.4.1 Como primer paso en cualquier análisis de datos, el proveedor de ensayos de aptitud debería
organizar una revisión visual de los datos, realizada por una persona que tenga la experiencia técnica
y estadística adecuada. Esta verificación es para confirmar la distribución esperada de resultados
e identificar anomalías o fuentes imprevistas de variabilidad. Por ejemplo, una distribución bimodal
podría ser evidencia de una población mixta de resultados causada por diferentes métodos, muestras
contaminadas o instrucciones mal redactadas. En esta situación, la inquietud se debería resolver
antes de proceder con el análisis o la evaluación.
NOTA 1 Un histograma de los valores de los participantes es un procedimiento de revisión útil y ampliamente disponible
para buscar una distribución que sea unimodal y simétrica, y para identificar valores atípicos inusuales (ver 10.2).
Sin embargo, los intervalos utilizados para combinar resultados en un histograma son sensibles a la cantidad de
resultados y puntos de corte, por lo que pueden ser difíciles de crear. Una gráfica de densidad kernel suele ser más útil
para identificar posibles bimodalidades o falta de simetría (ver 10.3).
NOTA 2 Pueden ser útiles otras técnicas de revisión, como un gráfico de distribución acumulativa o un diagrama de tallo y

hojas. Algunos métodos gráficos para la revisión de datos se ilustran en cláusulas E.3 y E.4.
6.4.2 Cuando no sea factible realizar una revisión visual de todos los conjuntos de datos de interés,
debe existir un procedimiento para advertir sobre la variabilidad inesperada en un conjunto de datos;
por ejemplo, revisando la incertidumbre del valor asignado en comparación con los criterios de
evaluación, o en comparación con rondas anteriores del programa de ensayos de aptitud.
6.5 Métodos estadísticos robustos
6.5.1 Se pueden utilizar métodos estadísticos robustos para describir la parte central de un conjunto
de resultados distribuidos normalmente, pero sin requerir la identificación de valores específicos como
valores atípicos y excluyéndolos de análisis posteriores. Muchas técnicas robustas utilizadas se basan
(en el primer paso) en la mediana y el rango del 50% central de los resultados: estas son medidas
del centro y la dispersión de los datos, similares a la media y la desviación estándar. En general, se
deberían usar métodos robustos con preferencia a los métodos que eliminan los resultados etiquetados
como atípicos.
NOTA Las estrategias que aplican estadísticos clásicos, como la desviación estándar después de eliminar los
valores atípicos, generalmente conducen a una subestimación de la dispersión para datos casi normales; los estadísticos
robustos generalmente se ajustan para dar estimaciones insesgadas de la dispersión.
6.5.2 La mediana, la desviación absoluta de la mediana escalada (MADe1) y el IQR2 normalizado

(nIQR) se permiten como estimadores simples. El algoritmo A transforma los datos originales mediante
un proceso llamado winsorización para proporcionar estimadores alternativos de media y desviación
estándar para datos casi normales y es más útil cuando la proporción esperada de valores atípicos
es inferior al 20%. Los métodos Qn y Q (descritos en Anexo C) para estimar la desviación estándar
son particularmente útiles para situaciones en las que una gran proporción (> 20%) de los resultados
pueden ser discrepantes, o donde los datos no pueden ser revisados de manera confiable por expertos.
Otros métodos descritos en Anexo C también proporcionan un buen desempeño cuando la proporción
esperada de valores extremos es superior al 20% (ver cláusula D.2).
1 En inglés: median absolute deviation, MAD.

2 En inglés: interquartile range, IQR.

NCh3800:2023
ISO 13528:2022
NOTA La mediana, el rango intercuartílico y la desviación absoluta de la mediana escalada tienen una varianza
mayor que la media y la desviación estándar cuando se aplican a datos aproximadamente distribuidos normalmente. Los
estimadores robustos más sofisticados brindan un mejor desempeño para datos que se aproximan a una distribución
normal, al mismo tiempo que retienen gran parte de la resistencia a los resultados atípicos que ofrece la mediana y el
rango intercuartílico.
6.5.3 La elección de los métodos estadísticos es responsabilidad del proveedor de ensayos de aptitud.
La desviación estándar y media robustas se pueden utilizar para varios propósitos, de los cuales la
evaluación del desempeño es solo uno. Las desviaciones estándar y medias robustas también se
pueden usar como estadísticos de resumen para diferentes grupos de participantes o para métodos
específicos.
NOTA Los detalles de los procedimientos robustos se proporcionan en Anexo C. Las cláusulas E.3 y E.4 tienen
ejemplos completos que ilustran el uso de una variedad de técnicas estadísticas robustas presentadas en Anexo C.
6.6 Técnicas de valores atípicos para resultados individuales

6.6.1 Las pruebas estadísticas de valores atípicos se pueden usar para respaldar la revisión visual
de anomalías o, junto con el rechazo de valores atípicos, para proporcionar un grado de resistencia
a los valores extremos al calcular estadísticos de resumen. Cuando se utilicen técnicas de detección
de valores atípicos, se debería demostrar que los supuestos subyacentes a la prueba estadística se
aplican suficientemente a los fines del programa de ensayo de aptitud; en particular, muchas pruebas
de valores atípicos asumen una normalidad subyacente.
NOTA Las ISO 16269-4[10] e ISO 5725-2[1] proporcionan varios procedimientos de identificación de valores atípicos
que son aplicables a los datos interlaboratorio.
6.6.2 Las estrategias de rechazo de valores atípicos, que se basan en el rechazo de los valores
atípicos detectados por una prueba de valores atípicos con un alto nivel de confianza, seguido de la
aplicación de estadísticos simples como la media y la desviación estándar, están permitidas cuando
métodos robustos no son aplicables (ver 6.5.1). Cuando se utilicen estrategias de rechazo de valores
atípicos, el proveedor de ensayos de aptitud debe:
a) documentar las pruebas estadísticas y el nivel de confianza requerido para el rechazo;
b) establecer límites para la proporción de datos rechazados por sucesivas pruebas de valores
atípicos, si se utilizan;
c) demostrar que las estimaciones de localización y de escala (si corresponde) resultantes tienen un
desempeño suficiente (incluida la eficiencia y el sesgo) para los fines del programa de ensayos
de aptitud.
NOTA La ISO 5725-2 proporciona recomendaciones para el nivel de confianza apropiado para el rechazo de valores
atípicos en estudios interlaboratorio para la determinación de la precisión de los métodos de ensayo. En particular,
ISO 5725-2 recomienda el rechazo solo al nivel del 99% a menos que exista otra razón de peso para rechazar un
resultado en particular.


NCh3800:2023
ISO 13528:2022
6.6.3 Cuando el rechazo de valores atípicos sea parte de un procedimiento de manejo de datos, y un
resultado se elimine como atípico, el desempeño del participante aún se debe evaluar de acuerdo con
los criterios utilizados para todos los participantes en el programa de ensayos de aptitud.
NOTA 1 Los valores atípicos entre los valores informados a menudo se identifican empleando la prueba de Grubbs
para valores atípicos, como se indica en ISO 5725-2. La evaluación en este procedimiento se aplica utilizando la
desviación estándar de todos los participantes, incluidos los posibles valores atípicos. Por lo tanto, este procedimiento
se aplica mejor cuando el desempeño de los participantes es coherente con las expectativas de las rondas anteriores
del programa de ensayos de aptitud y hay una pequeña cantidad de valores atípicos (uno o dos valores atípicos a cada
lado de la media). Las tablas convencionales para la prueba de Grubbs asumen una sola aplicación para un posible valor
atípico (o 2) en una localización definida, no una aplicación secuencial ilimitada. Si las pruebas de Grubbs se aplican
secuencialmente, las probabilidades de error de Tipo I no aplican para estas pruebas estadísticas.
NOTA 2 Cuando se reportan resultados replicados o se incluyen ítems de ensayo de aptitud idénticos en una ronda de
un programa de ensayo de aptitud, es común usar la prueba de Cochran para valores atípicos de repetibilidad, también
descritos en ISO 5725-2.

NOTA 3 Los valores atípicos también pueden identificarse mediante técnicas robustas o no paramétricas;
por ejemplo, si se calculan una desviación estándar y media robustas, los valores que se desvían de la media robusta en
más de 3 veces la desviación estándar robusta pueden identificarse como valores atípicos.
7 Determinación del valor asignado y su incertidumbre estándar

7.1 Elección del método de determinación del valor asignado
7.1.1 En 7.3 a 7.7 se describen cinco formas de determinar el valor asignado xpt. La elección entre
estos métodos es responsabilidad del proveedor de ensayos de aptitud.
NOTA Las subcláusulas 7.3 a 7.6 son muy similares a los enfoques utilizados para determinar los valores de
propiedad de los materiales de referencia certificados descritos en ISO Guide 35[13].
7.1.2 Se pueden usar métodos alternativos para determinar el valor asignado y su incertidumbre,
siempre que tengan una base estadística robusta y que el método utilizado se describa en el plan
documentado para el programa de ensayo de aptitud y se describa completamente a los participantes.
Independientemente del método utilizado para determinar el valor asignado, siempre es apropiado
verificar la validez del valor asignado para esa ronda de un programa de ensayo de aptitud. Esto se
discute en 7.8.
7.1.3 Los enfoques para determinar los valores cualitativos asignados se analizan en 11.3.
7.1.4 El método para determinar el valor asignado y su incertidumbre asociada se debe indicar en
cada informe a los participantes o se describirá claramente en un protocolo del programa de ensayo
de aptitud disponible para todos los participantes.
7.2 Determinación de la incertidumbre del valor asignado
7.2.1 La ISO/IEC Guide 98-3[14] brinda orientación sobre la evaluación de las incertidumbres de
medición. La ISO Guide 35 proporciona orientación sobre la incertidumbre del valor asignado para
los valores de propiedad certificados, que se puede aplicar para muchos diseños de programas de
ensayos de aptitud.

NCh3800:2023
ISO 13528:2022
7.2.2 En las Ecuaciones (2) y (3) se describe un modelo general para el valor asignado y su
incertidumbre:
El modelo para el valor asignado se puede expresar de la siguiente manera:
xpt = xchar + δhom + δtrans + δstab (2)
en que:
xpt = denota el valor asignado;
xchar = denota el valor de la propiedad obtenido de la caracterización (determinación del valor

asignado);
δhom = denota un término de error debido a la diferencia entre los ítems del ensayo de aptitud;
δtrans = denota un término de error debido a la inestabilidad en las condiciones de transporte;

δstab = denota un término de error debido a la inestabilidad durante el período de ensayo de

aptitud.
El modelo asociado para la incertidumbre del valor asignado se puede expresar de la siguiente manera:
u (x pt ) = u char
2 + uhom
2 + u trans
2 + u stab
2 (3)
en que:
u(xpt) = denota la incertidumbre estándar del valor asignado;
uchar = denota la incertidumbre estándar debida a la caracterización;
uhom = denota la incertidumbre estándar debido a las diferencias entre los ítems del ensayo de
aptitud (“falta de homogeneidad”);
utrans = denota la incertidumbre estándar debido a la inestabilidad causada por el transporte de

ítems de ensayo de aptitud;
ustab = denota la incertidumbre estándar debido a la inestabilidad durante el período de ensayo

de aptitud.
NOTA 1 La covarianza entre fuentes de incertidumbre, o fuentes insignificantes, puede conducir a un modelo diferente
para aplicaciones específicas. Cualquiera de los componentes de la incertidumbre puede ser cero o despreciable, en
algunas situaciones.
NOTA 2 Cuando σpt se calcula como la desviación estándar de los resultados de los participantes, los componentes
de incertidumbre debidos a la falta de homogeneidad, el transporte y la inestabilidad se reflejan en gran parte en la
variabilidad de los resultados de los participantes. En este caso, la incertidumbre de caracterización, como se describe
en 7.3 a 7.7, es suficiente.
NOTA 3 Normalmente se espera que el proveedor de ensayos de aptitud garantice que los cambios relacionados
con la inestabilidad o incurridos en el transporte sean insignificantes en comparación con la desviación estándar para la
evaluación de la aptitud; es decir, para asegurar que δtrans y δstab sean despreciables. Cuando se cumple este requisito,
ustab y utrans se pueden establecer en cero.


NCh3800:2023
ISO 13528:2022
7.2.3 Puede haber un sesgo en el valor asignado que no se tenga en cuenta en la expresión anterior.
Siempre que sea posible, esto se debe tener en cuenta en el diseño del programa de ensayos de
aptitud. Si existe un ajuste por sesgo en el valor asignado, la incertidumbre de este ajuste se debe
incluir en la evaluación de la incertidumbre del valor asignado.
7.3 Formulación
7.3.1 El ítem de ensayo de aptitud se puede preparar mezclando materiales con diferentes niveles
conocidos de una propiedad en proporciones específicas, o agregando una proporción específica de
una sustancia a un material base.
7.3.2 El valor asignado xpt se obtiene por cálculo a partir de las masas de propiedades utilizadas.
Este enfoque es especialmente valioso cuando los ítems de ensayo de aptitud individuales se preparan
de esta manera, y es la proporción de las propiedades lo que se debe determinar.
7.3.3 Se debería tener un cuidado razonable para asegurar que:

a) el material base está efectivamente libre del componente agregado, o que la proporción del
componente agregado en el material base se conoce con precisión;
b) los constituyentes se mezclan de manera homogénea (cuando sea necesario);
c) se identifican todas las fuentes significativas de error (por ejemplo, no siempre se tiene en cuenta
que el vidrio absorbe compuestos de mercurio, de modo que la concentración de una solución
acuosa de un compuesto de mercurio puede verse alterada por su recipiente);
d) no hay interacción adversa entre los constituyentes y la matriz;
e) el comportamiento de los ítems de ensayo de aptitud que contienen material agregado es similar
a las muestras de clientes que se prueban de forma rutinaria. Por ejemplo, los materiales puros
agregados a una matriz natural a menudo se extraen más fácilmente que la misma sustancia
que se encuentra naturalmente en el material. Si existe la preocupación de que esto suceda, el
proveedor de ensayos de aptitud debería asegurarse de la idoneidad de los ítems de ensayo de
aptitud para los métodos que se utilizarán.
7.3.4 Cuando la formulación produce ítems de ensayo de aptitud en los que la adición está más
débilmente unida a la matriz que en las muestras ensayadas de forma rutinaria, o en una forma
diferente, puede ser preferible utilizar otro enfoque para preparar los ítems de ensayo de aptitud.
7.3.5 La determinación del valor asignado por formulación es un caso de un enfoque general para
la caracterización de materiales de referencia certificados descrito por ISO Guide 35, donde un solo
laboratorio determina un valor asignado utilizando un método de medición primario. Se pueden usar
otros usos de un método primario por parte de un solo laboratorio para determinar el valor asignado
para los ensayos de aptitud (ver 7.5).
7.3.6 Cuando el valor asignado se calcula a partir de la formulación del ítem de ensayo de aptitud,
la incertidumbre estándar para la caracterización (uchar) se estima mediante una combinación de
incertidumbres usando un modelo apropiado. Por ejemplo, en los ensayos de aptitud para mediciones
químicas, las incertidumbres generalmente serán las asociadas con las mediciones gravimétricas y
volumétricas y la pureza de cualquier material utilizado en la formulación. La incertidumbre estándar
del valor asignado [u(xpt)] se calcula luego de acuerdo con Ecuación (3).

NCh3800:2023
ISO 13528:2022
7.4 Material de referencia certificado
7.4.1 Cuando un ítem de ensayo de aptitud es un material de referencia certificado (MRC), su valor
de propiedad certificado xMRC se usa como el valor asignado xpt.
Las limitaciones de este enfoque son que:
— puede ser costoso proporcionar a cada participante una unidad de un material de referencia
certificado;
— los MRC a menudo se procesan exhaustivamente para garantizar la estabilidad a largo plazo, lo
que puede comprometer la conmutabilidad de los ítems del ensayo de aptitud.
— los participantes pueden conocer un MRC, por lo que es importante ocultar la identidad del ítem
de ensayo de aptitud.
7.4.2 Cuando se utiliza un material de referencia certificado como ítem de ensayo de aptitud, la

incertidumbre estándar del valor asignado se deriva de la información sobre la incertidumbre del
valor de la propiedad proporcionada en el certificado. La información del certificado debería incluir los
componentes de la Ecuación (3) y tener un uso previsto apropiado para el propósito del programa de
ensayo de aptitud.
7.5 Resultados de un laboratorio
7.5.1 Un solo laboratorio puede determinar un valor asignado utilizando un método de referencia,
como, por ejemplo, un método primario. El método de referencia utilizado debería estar completamente
descrito y comprendido, y con una declaración de incertidumbre completa y trazabilidad metrológica
documentada que sea apropiada para el programa de ensayo de aptitud. El método de referencia
debería ser conmutable para todos los métodos de medición utilizados por los participantes.
7.5.1.1 El valor asignado debería ser el promedio de un estudio diseñado utilizando más de un ítem
de ensayo de aptitud o condiciones de medición, y un número suficiente de mediciones replicadas.
7.5.1.2 La incertidumbre de la caracterización es la estimación adecuada de la incertidumbre para el

método de referencia y las condiciones de estudio diseñadas.
7.5.2 El valor asignado xpt del ítem de ensayo de aptitud puede ser obtenido por un solo laboratorio
utilizando un método de medición adecuado, a partir de una calibración contra el valor de referencia
de un material de referencia certificado que coincida estrechamente. Este enfoque asume que el MRC
es conmutable para todos los métodos de medición utilizados por los participantes.
7.5.2.1 Esta determinación requiere que se lleven a cabo una serie de ensayos, en un laboratorio,
sobre ítems de ensayo de aptitud y el MRC, utilizando el mismo método de medición y en condiciones
de repetibilidad. Cuando
xMRC es el valor de la propiedad certificada para el MRC;
xpt es el valor asignado para el ítem de ensayo de aptitud;
di es la diferencia entre los resultados promedio para el ítem de ensayo de aptitud y el MRC en
la i-ésima muestra;
d es el promedio de las diferencias di.


NCh3800:2023
ISO 13528:2022
después,
(4)
x pt = x MRC + d
NOTA xMRC y d son independientes excepto en la rara situación en que el laboratorio experto también produjo el MRC.
7.5.2.2 La incertidumbre estándar de caracterización se deriva de la incertidumbre de la medición

utilizada para la asignación de valor. Este enfoque permite que el valor asignado se establezca de una
manera metrológicamente trazable al valor certificado del MRC, con una incertidumbre estándar que
se puede calcular a partir de la Ecuación (5).
u char = uMRC
2 + ud2 (5)
El ejemplo en cláusula E.5 ilustra cómo se puede calcular la incertidumbre requerida en el caso simple
cuando el valor asignado de un ítem de ensayo de aptitud se establece por comparación directa con
un solo MRC.

7.5.3 Cuando se asigna un valor de referencia antes del comienzo de una ronda de un programa
de ensayo de aptitud secuencial, y luego el valor de referencia se verifica posteriormente usando
el mismo sistema de medición, la diferencia entre los valores debe ser menor que dos veces la
incertidumbre de esa diferencia (es decir, los resultados deben ser metrológicamente compatibles). En
tales casos, el proveedor de ensayos de aptitud puede optar por utilizar un promedio de las mediciones
como el valor asignado, con la incertidumbre adecuada. Si los resultados no son metrológicamente
compatibles, el proveedor de ensayos de aptitud debería investigar el motivo de la diferencia y tomar
las medidas adecuadas, incluido el uso de métodos alternativos para determinar el valor asignado y
su incertidumbre o el abandono de la ronda del programa de ensayos de aptitud.
NOTA Con el supuesto de una distribución normal, se puede esperar que ocurra por casualidad una diferencia de
más de dos veces la incertidumbre estándar aproximadamente en una ocasión en veinte.
7.6 Valor de consenso de laboratorios expertos
7.6.1 Los valores asignados se pueden determinar utilizando un estudio de comparación

interlaboratorio con laboratorios expertos, como se describe en ISO Guide 35 para el uso de
comparaciones interlaboratorio para caracterizar un MRC. Los ítems del ensayo de aptitud se preparan
primero y se preparan para su distribución a los participantes. Algunos de estos ítems de ensayo de
aptitud son luego seleccionados al azar y analizados por un grupo de expertos usando un protocolo
que especifica el número de ítems de ensayo de aptitud y repeticiones y cualquier otra condición
relevante. Cada laboratorio experto está obligado a proporcionar una incertidumbre estándar con sus
resultados.
7.6.2 Cuando los laboratorios expertos informen un solo resultado y el protocolo de medición
no requiera que proporcionen suficiente información sobre la incertidumbre con los resultados, o
cuando la evidencia de los resultados informados o en otro lugar sugiera que las incertidumbres
informadas no son lo suficientemente confiables, el valor de consenso se debería obtener
normalmente por los métodos de 7.7, aplicados al conjunto de resultados de laboratorio experto.
Cuando los laboratorios expertos notifiquen más de un resultado cada uno (por ejemplo, incluidas
las réplicas), el proveedor del plan de ensayos de aptitud debe establecer un método alternativo
para determinar el valor asignado y la incertidumbre asociada que sea estadísticamente válido
(ver 4.1.1) y permita la posibilidad de valores atípicos u otras desviaciones de la distribución esperada
de resultados.

NCh3800:2023
ISO 13528:2022
7.6.3 Cuando los laboratorios expertos reportan incertidumbres con los resultados, la estimación
de un valor por consenso de los resultados es un problema complejo y se ha sugerido una amplia
variedad de enfoques, incluidos, por ejemplo, promedios ponderados, promedios no ponderados,
procedimientos que tengan en cuenta la sobredispersión y los procedimientos que permitan posibles
resultados atípicos o erróneos y estimaciones de incertidumbre[16]. En consecuencia, el proveedor de
ensayos de aptitud debe establecer un procedimiento para estimar que:
a) debería incluir comprobaciones de la validez de las estimaciones de incertidumbre notificadas,

por ejemplo, comprobando si las incertidumbres notificadas explican completamente la dispersión
observada de los resultados;
b) debería usar un procedimiento de ponderación apropiado para la escala y la confiabilidad de

las incertidumbres reportadas, que puede incluir una ponderación igual si las incertidumbres
reportadas son similares o de confiabilidad pobre o desconocida (ver 7.6.2);
c) debería tener en cuenta la posibilidad de que las incertidumbres notificadas no representen

completamente la dispersión observada (“sobredispersión”), por ejemplo, mediante la inclusión
de un término adicional para tener en cuenta la sobredispersión;
d) debería permitir la posibilidad de valores atípicos inesperados para el resultado informado o la

incertidumbre;
e) debería tener una base teórica robusta;
f) debe haber demostrado un desempeño (por ejemplo, en datos de ensayo o en simulaciones)

suficiente para los propósitos del programa de ensayo de aptitud.
7.7 Valor de consenso de los resultados de los participantes
7.7.1 Con este enfoque, el valor asignado xpt para el ítem de ensayo de aptitud utilizado en una ronda
de un programa de ensayo de aptitud es la estimación de localización (por ejemplo, media robusta,
mediana o media aritmética) formada a partir de los resultados informados por los participantes en el
redondo, calculado utilizando un procedimiento apropiado de acuerdo con el diseño, como se describe
en Anexo C. Se deberían utilizar las técnicas descritas en 6.2 a 6.6 para confirmar que existe un
acuerdo suficiente, antes de combinar los resultados.
7.7.2 En algunas situaciones, el proveedor de ensayos de aptitud puede desear utilizar un subconjunto
de participantes que se determine que son confiables, según algunos criterios predefinidos, como el
estado de acreditación o sobre la base de un desempeño anterior. Las técnicas de esta sección se
aplican a esas situaciones, incluidas las consideraciones sobre el tamaño del grupo.
7.7.3 Se pueden usar otros métodos de cálculo en lugar de los del Anexo C, siempre que tengan una
base estadística robusta y el informe indique el método que se usa.
7.7.4 Las ventajas de este enfoque son que:
a) no se requieren mediciones adicionales para obtener el valor asignado;
b) el enfoque puede ser particularmente útil con un mensurando estandarizado y definido

operativamente, ya que a menudo no existe un método más confiable para obtener resultados
equivalentes.


NCh3800:2023
ISO 13528:2022
7.7.5 Las limitaciones de este enfoque son que:
a) puede haber acuerdo insuficiente entre los participantes;
b) el valor de consenso puede incluir un sesgo desconocido debido al uso general de una metodología
defectuosa y este sesgo no se reflejará en la incertidumbre estándar del valor asignado;
c) el valor de consenso podría estar sesgado por el efecto del sesgo en los métodos que se utilizan
para determinar el valor asignado.
d) Puede ser difícil determinar la trazabilidad metrológica del valor de consenso. Si bien el resultado
es siempre trazable a los resultados de los laboratorios individuales, solo se puede hacer una
declaración clara de la trazabilidad más allá de eso cuando el proveedor de ensayos de aptitud
tiene información completa sobre los estándares de calibración utilizados y el control de otras
condiciones relevantes del método por parte de todos los participantes contribuyendo al valor de
consenso.

7.7.6 La incertidumbre estándar del valor asignado dependerá del procedimiento utilizado. Si se
necesita un enfoque completamente general, el proveedor de ensayos de aptitud debería considerar el
uso de técnicas de remuestreo (“bootstrapping”) para estimar un error estándar para el valor asignado.
Las referencias [17] y [18] dan detalles de las técnicas de bootstrapping.
NOTA En cláusula E.6 se proporciona un ejemplo usando una técnica bootstrap.
7.7.7 Cuando el valor asignado se obtiene como un promedio robusto calculado usando los
procedimientos de las cláusulas C.2, C.3, la incertidumbre estándar del valor asignado xpt puede
estimarse como:
s∗
u ( x pt ) = 1, 25 × (6)
p
donde s* es la desviación estándar robusta de los resultados. (Aquí, un “resultado” para un participante
es el promedio de todas sus mediciones en el ítem de ensayo de aptitud).
NOTA 1 En este modelo, donde el valor asignado y la desviación estándar robusta se determinan a partir de los
resultados de los participantes, se puede suponer que la incertidumbre del valor asignado incluye los efectos de la
incertidumbre debido a la falta de homogeneidad, el transporte y la inestabilidad.
NOTA 2 El factor 1,25 se basa en la desviación estándar de la mediana, o la eficiencia de la mediana como estimación
de la media, en un gran conjunto de resultados extraídos de una distribución normal. Se aprecia que la eficiencia de
métodos robustos más sofisticados puede ser mucho mayor que la de la mediana, justificando un factor de corrección
menor a 1,25. Sin embargo, se ha recomendado este factor porque los resultados de los ensayos de aptitud normalmente
no tienen una distribución estrictamente normal y contienen proporciones desconocidas de resultados de diferentes
distribuciones (“resultados contaminados”). El factor de 1,25 se considera una estimación conservadora (alta) para tener
en cuenta la posible contaminación. Se puede justificar un factor más pequeño, o una ecuación diferente, según la
experiencia y el procedimiento robusto utilizado.
NOTA 3 En cláusula E.3 se proporciona un ejemplo del uso de un valor asignado de los resultados de los participantes.
7.8 Comparación del valor asignado con un valor de referencia independiente
7.8.1 Cuando se utilizan los métodos descritos en 7.7 para establecer el valor asignado (xpt),
y cuando se dispone de una estimación independiente fiable (indicada xref), por ejemplo, a partir
del conocimiento de la preparación o de un valor de referencia, el valor de consenso xpt debería
compararse con xref.
NCh3800:2023
ISO 13528:2022
Cuando se utilizan los métodos descritos en 7.3 a 7.6 para establecer el valor asignado, el promedio
robusto x* derivado de los resultados de la ronda debería compararse con el valor asignado después
de cada ronda de un programa de ensayo de aptitud.
La diferencia se calcula como xdiff = xref - xpt (o x* - xpt) y la incertidumbre estándar udiff de la diferencia
se estima como:
u diff = u 2 ( x ref ) + u 2 ( x pt ) (7)
en que:
u(xref) = incertidumbre del valor de referencia para la comparación;
u(xpt) = incertidumbre del valor asignado.
NOTA En cláusula E.7 se incluye un ejemplo de comparación de un valor de referencia con un valor de consenso.

7.8.2 Si la diferencia es más del doble de su incertidumbre estándar, se debería investigar el motivo.
Las posibles razones son:
— sesgo en el método de medición de referencia;
— un sesgo común en los resultados de los participantes;
— falta de apreciación de las limitaciones del método de medición cuando se usa el método de
formulación descrito en 7.3;
— sesgo en los resultados de los “expertos” al usar los enfoques en 7.5 o 7.6;
— el valor de comparación y el valor asignado no son trazables a la misma referencia metrológica.
7.8.3 Dependiendo de la razón de la diferencia, el proveedor de ensayos de aptitud debería decidir si

evalúa o no los resultados y (para programas de ensayos de aptitud continuos), si modifica el diseño
para programas de ensayos de aptitud posteriores. Cuando la diferencia sea lo suficientemente grande
como para afectar la evaluación del desempeño o para sugerir un sesgo importante en los métodos de
medición utilizados por los participantes, la diferencia debería anotarse en el informe de la ronda del
programa de ensayos de aptitud. En tales casos, la diferencia debería ser considerada en el diseño de
futuros programas de ensayos de aptitud.
8 Determinación de criterios para la evaluación del desempeño

8.1 Enfoques para determinar los criterios de evaluación
8.1.1 El enfoque básico para todos los propósitos es comparar un resultado en un ítem de ensayo de
aptitud (xi) con un valor asignado (xpt). Para la evaluación, la diferencia se compara con una tolerancia
para el error de medición. Esta comparación se realiza comúnmente a través de un estadístico de
desempeño estandarizado (por ejemplo, z, z’, ζ, En), como se analiza en 9.4 a 9.7. Esto también se
puede hacer comparando la diferencia con un criterio definido (D o D% comparado con δE) como se
describe en 9.3. Un enfoque alternativo para la evaluación es comparar la diferencia con la afirmación
de un participante sobre la incertidumbre de su resultado combinada con la incertidumbre del valor
asignado (En y ζ).


NCh3800:2023
ISO 13528:2022
8.1.2 Si un requisito reglamentario o un objetivo de idoneidad para el propósito se da como una

desviación estándar, se puede usar directamente como σpt. Si el requisito o el objetivo es un error de
medición máximo permisible, ese criterio puede dividirse por el límite de acción para obtener σpt. Un
error máximo permisible prescrito se puede usar directamente como δE para usar con D o D%. Las
ventajas de este enfoque para los programas de ensayos de aptitud continuos son:
a) las puntuaciones de desempeño tienen una interpretación coherente en términos de idoneidad

para el propósito de una ronda a la siguiente de un programa de ensayo de aptitud;
b) las puntuaciones de desempeño no están sujetos a la variación esperada al estimar la dispersión

de los resultados informados.
EJEMPLO Si un criterio regulatorio se especifica como un error máximo permisible y 3,0 es un límite de acción para la
evaluación con una puntuación z, entonces el criterio especificado se divide por 3,0 para determinar σpt.
8.1.3 Cuando el criterio para la evaluación del desempeño se basa en estadísticos de consenso
de la ronda actual o rondas anteriores del programa de ensayos de aptitud, entonces el estadístico

preferido es una estimación robusta de la desviación estándar de los resultados de los participantes.
Cuando se usa este enfoque, generalmente es más conveniente usar una puntuación de desempeño
como la puntuación z y establecer la desviación estándar para la evaluación de la aptitud (σpt) en la
estimación calculada de la desviación estándar.
8.2 Según la percepción de los expertos
8.2.1 El error máximo permisible o la desviación estándar para la evaluación de la aptitud se puede
establecer en un valor que corresponda al nivel de desempeño que una autoridad reguladora, un
organismo de acreditación o los expertos técnicos del proveedor de ensayos de aptitud crean que es
razonable para los participantes.
8.2.2 Un error máximo permisible especificado se puede transformar en una desviación estándar
para la evaluación de la aptitud dividiendo el límite por el número de múltiplos del σpt que se utilizan
para definir una señal de acción (o un resultado inaceptable). De manera similar, un σpt especificado
se puede transformar en δE.
8.3 Por experiencia de rondas anteriores de un programa de ensayo de aptitud
8.3.1 La desviación estándar para la evaluación de la aptitud (σpt) y el error máximo permisible
(δE) pueden determinarse por experiencia con rondas previas de un programa de ensayo de aptitud
para el mismo mensurando con valores de propiedad comparables, y donde los participantes usan
procedimientos de medición compatibles. Este es un enfoque útil cuando no hay acuerdo entre los
expertos sobre la idoneidad para el propósito. Las ventajas de este enfoque son las siguientes:
— las evaluaciones se basarán en expectativas de desempeño razonables;
— los criterios de evaluación no variarán de una ronda a otra del programa de ensayos de aptitud
debido a variaciones aleatorias o cambios en la población de participantes;
— los criterios de evaluación no variarán entre diferentes proveedores de ensayos de aptitud,

cuando haya dos o más proveedores de ensayos de aptitud aprobados para un área de ensayo
o calibración.

NCh3800:2023
ISO 13528:2022
8.3.2 La revisión de rondas previas de un programa de ensayos de aptitud debería incluir la

consideración del desempeño que pueden lograr los participantes competentes, y que no se ve
afectado por nuevos participantes o variaciones aleatorias debido, por ejemplo, a grupos más
pequeños u otros factores exclusivos de un individuo en particular redondo. Las determinaciones
pueden hacerse subjetivamente mediante el examen de rondas previas del programa de ensayos de
aptitud para determinar la consistencia, u objetivamente con promedios o con un modelo de regresión
que se ajusta al valor del mensurando. La ecuación de regresión puede ser una línea recta o puede
ser curva[31]. Se deberían considerar las desviaciones estándar y las desviaciones estándar relativas,
y la selección se basará en cuál es más coherente en el rango apropiado de niveles de mensurando.
El error máximo permisible apropiado también se puede obtener de esta manera.
8.3.3 Cuando el criterio para la evaluación del desempeño se basa en estadísticos de consenso de
rondas anteriores de un programa de ensayo de aptitud, se deberían usar estimaciones robustas de
la desviación estándar.
NOTA 1 El algoritmo S (ver cláusula C.4) proporciona una desviación estándar agrupada robusta que es aplicable

cuando todas las rondas anteriores de un programa de ensayo de aptitud bajo consideración tienen la misma desviación
estándar esperada o (si se usan desviaciones relativas para la evaluación) la misma desviación estándar relativa.
NOTA 2 En cláusula E.8 se proporciona un ejemplo de obtención de un valor a partir de la experiencia de rondas
anteriores de un programa de ensayos de aptitud.
8.4 Mediante el uso de un modelo general
8.4.1 El valor de la desviación estándar para la evaluación de la aptitud se puede derivar de un

modelo general para la reproducibilidad del método de medición. Este método tiene la ventaja de la
objetividad y la coherencia entre los mensurandos, además de tener una base empírica. Dependiendo
del modelo utilizado, este enfoque podría considerarse un caso especial de un criterio de adecuación
al propósito.
8.4.2 Cualquier desviación estándar esperada elegida por un modelo general debería ser razonable.
Si se asignan señales de acción o advertencia a proporciones muy grandes o muy pequeñas de
participantes, el proveedor de ensayos de aptitud debería asegurarse de que esto sea coherente con
el propósito del programa de ensayos de aptitud.
8.4.3 En general, es preferible una estimación específica que tenga en cuenta las especificidades del
problema de medición a un enfoque genérico. En consecuencia, antes de utilizar un modelo general,
se debería explorar la posibilidad de utilizar los enfoques descritos en 8.2, 8.3 y 8.5.
EJEMPLO Curva de Horwitz.
Un modelo general común para aplicaciones químicas fue descrito por Horwitz[22] y modificado
por Thompson[31]. Este enfoque brinda un modelo general para la reproducibilidad de los métodos
analíticos que se puede utilizar para derivar la siguiente expresión para la desviación estándar de la
reproducibilidad:
⎧ 0, 22c si c < 1, 2 × 10 −7
⎪ (8)
σR = ⎨0, 02c 0,849 5 si 1, 2 × 10 −7 ≤ c ≤ 0,138
⎪ 0, 01c 0,5 si c > 0,138
⎩
donde c es la fracción de masa de la especie química a determinar donde 0 ≤ c ≤ 1.


NCh3800:2023
ISO 13528:2022
NOTA 1 El modelo de Horwitz es empírico, basado en observaciones de ensayos colaborativos de muchos parámetros
durante un período de tiempo prolongado. Los valores de σR son los límites superiores esperados de la variabilidad
interlaboratorio cuando el ensayo colaborativo no tuvo problemas significativos. Por lo tanto, los valores de σR podrían no
ser criterios apropiados para determinar la competencia en un programa de ensayos de aptitud.
NOTA 2 En cláusula E.9 se proporciona un ejemplo de cómo derivar un valor del modelo de Horwitz modificado.
8.5 Uso de las desviaciones estándar de repetibilidad y reproducibilidad de un estudio

colaborativo previo de precisión de un método de medición
8.5.1 Cuando el método de medición que se usará en el programa de ensayo de aptitud está
estandarizado y se dispone de información sobre la repetibilidad (σr) y la reproducibilidad (σR) del
método, la desviación estándar para la evaluación de la aptitud (σpt) puede calcularse utilizando esta
información, de la siguiente manera:
σpt = σR2 − σr2 (1 − 1/ m ) (9)

donde m es el número de mediciones replicadas que cada participante debe realizar en una ronda del
programa de ensayo de aptitud.
NOTA Esta fórmula se deriva de un modelo básico de efectos aleatorios de ISO 5725-2.
8.5.2 Cuando las desviaciones estándar de repetibilidad y reproducibilidad dependen del valor
promedio de los resultados del ensayo, las relaciones funcionales deberían derivarse mediante los
métodos descritos en ISO 5725-2. Estas relaciones deberían usarse para calcular los valores de las
desviaciones estándar de repetibilidad y reproducibilidad apropiadas para el valor asignado que se
utilizará en el programa de ensayo de aptitud.
8.5.3 Para que las técnicas anteriores sean válidas, el estudio colaborativo debe haberse realizado
de acuerdo con los requisitos de ISO 5725-2 o un procedimiento equivalente.
NOTA En cláusula E.10 se presenta un ejemplo.
8.6 A partir de datos obtenidos en la misma ronda de un programa de ensayo de aptitud
8.6.1 Con este enfoque, la desviación estándar para la evaluación de la aptitud (σpt) se calcula a
partir de los resultados de los participantes en la misma ronda del programa de ensayos de aptitud.
Cuando se utiliza este enfoque, suele ser más conveniente utilizar una puntuación de desempeño
como la puntuación z. Para calcular σpt normalmente se debería usar una estimación robusta de
la desviación estándar de los resultados informados por todos los participantes, calculada usando
una técnica listada en Anexo C. En los programas de ensayos de aptitud que usan δE y D o D%,
PA (Porcentaje de desviación permitida) se puede usar como una puntuación normalizada, para la
comparación entre mensurandos y rondas (ver 9.3.6).
8.6.2 El uso de los resultados de los participantes puede dar lugar a criterios de evaluación del
desempeño que no son apropiados. El proveedor de ensayos de aptitud debería asegurarse de que el
σpt utilizado para las evaluaciones de desempeño sea adecuado para su propósito.
8.6.2.1 El proveedor de ensayos de aptitud debería colocar un límite en el valor más bajo de σpt que
se utilizará, en el caso de que la desviación estándar robusta sea muy pequeña. Este límite debería
elegirse de modo que cuando el error de medición sea adecuado para el uso previsto más exigente, la
puntuación de desempeño sea z < 3,0.

NCh3800:2023
ISO 13528:2022
EJEMPLO En un programa de ensayo de aptitud para tela, un mensurando es el número de hilos por centímetro.
La desviación estándar robusta puede ser pequeña en algunas rondas (< 1 hilo por cm), y los errores de menos de
4 hilos/cm se consideran insignificantes. El proveedor de ensayos de aptitud determina que la desviación estándar robusta
se utiliza como σpt, a menos que sea inferior a 1,3 hilos/cm, en cuyo caso se utiliza σpt = 1,3.
8.6.2.2 El proveedor de ensayos de aptitud debería establecer un límite en el σpt más grande que se
utilizará, o en los resultados de medición que pueden evaluarse como “aceptables” (sin señal), en el
caso de que la desviación estándar robusta sea muy grande. Este límite debería elegirse para que los
resultados que no se ajusten al propósito reciban una señal de acción.
8.6.2.3 En algunos casos, el proveedor de ensayos de aptitud puede establecer límites superiores
o inferiores en el intervalo de resultados que pueden evaluarse como ‘aceptables’ (sin señal de
advertencia o acción), cuando los intervalos simétricos incluyen resultados que no serían adecuados
para el propósito.
EJEMPLO Para un programa de ensayo de aptitud reglamentario para agua no potable, las reglamentaciones
especifican que los resultados deben estar dentro de los 3 σpt de la media robusta de los resultados de los participantes.

Sin embargo, debido a que en algunos casos el rango de resultados aceptables podría incluir 0 µg/L, cualquier resultado
inferior al 10% de un valor formulado debe generar una señal de acción (o “inaceptable”). Un ítem de ensayo de aptitud
se formula con 4,0 µg/L de una sustancia regulada. La media robusta del participante es 3,2 µg/L y σpt es 1,1 µg/L.
Por lo tanto, es posible que un participante envíe un resultado de 0,0 µg/L y esté dentro de los 3 σpt, pero cualquier
resultado inferior a 0,4 µg/L se evaluará como “inaceptable”.
8.6.3 Las principales ventajas de este enfoque son la simplicidad y la aceptación convencional debido
al uso exitoso en muchas situaciones. Este puede ser el único enfoque factible.
8.6.4 Hay varias desventajas con este enfoque:
a) El valor de σpt puede variar sustancialmente de una ronda a otra de un programa de ensayo
de aptitud, lo que dificulta que un participante use los valores de la puntuación z para buscar
tendencias que persisten durante varias rondas.
b) Las desviaciones estándar pueden ser poco fiables cuando el número de participantes en el
programa de ensayos de aptitud es pequeño o cuando se combinan los resultados de diferentes
métodos. Por ejemplo, si p = 20, la desviación estándar para datos normalmente distribuidos
puede variar en un ±30% de su valor real de una ronda de un programa de ensayo de aptitud a
la siguiente.
c) El uso de medidas de dispersión derivadas de los datos puede conducir a una proporción
aproximadamente constante de puntuaciones aparentemente aceptables. Por lo general, el
desempeño deficiente no se detectará mediante la inspección de las puntuaciones y, en general,
el buen desempeño dará como resultado que los buenos participantes reciban puntuaciones
deficientes.
d) No existe una interpretación útil en términos de idoneidad para cualquier uso final de los resultados.
NOTA En el ejemplo completo de cláusula E.3 se proporcionan ejemplos del uso de los datos de los participantes.
8.7 Seguimiento del acuerdo interlaboratorio
8.7.1 Como verificación del desempeño de los participantes, y para evaluar el beneficio del programa
de ensayos de aptitud para los participantes, el proveedor de ensayos de aptitud debería aplicar
un procedimiento para monitorear el acuerdo interlaboratorio, rastrear cambios en el desempeño y
garantizar la razonabilidad de procedimientos estadísticos.

NCh3800:2023
ISO 13528:2022
8.7.2 Los resultados obtenidos en cada ronda de un programa de ensayo de aptitud deberían usarse
para calcular estimaciones de las desviaciones estándar de reproducibilidad del método de medición
(y repetibilidad, si está disponible), usando los métodos robustos descritos en Anexo C. Estas
estimaciones deberían trazarse en gráficos secuencialmente o como una serie de tiempo, junto con
los valores de las desviaciones estándar de repetibilidad y reproducibilidad obtenidos en experimentos
de precisión de ISO 5725-2 (si está disponible), y/o σpt, si se utilizan las técnicas de 8.2 a 8.4.
8.7.3 Estos gráficos deberían ser examinados luego por el proveedor de ensayos de aptitud. Si los
gráficos muestran que los valores de precisión obtenidos en una ronda específica de ensayos de
aptitud son mayores por un factor de dos o más de los valores esperados de datos o experiencias
anteriores, entonces el proveedor de ensayos de aptitud debería investigar por qué el acuerdo en
esta ronda fue peor que antes de. Del mismo modo, una tendencia hacia mejores o peores valores de
precisión debería desencadenar una investigación de las causas más probables.
9 Cálculo de estadísticos de desempeño

9.1 Consideraciones generales para determinar el desempeño
9.1.1 Los estadísticos utilizados para determinar el desempeño deben ser coherentes con los
objetivos del programa de ensayos de aptitud.
NOTA Los estadísticos de desempeño son más útiles si los participantes y otras partes interesadas entienden los
estadísticos y su derivación.
9.1.2 Las puntuaciones de desempeño deberían revisarse fácilmente a través de los niveles de
medición y las diferentes rondas de un programa de ensayo de aptitud.
9.1.3 Los resultados de los participantes deberían revisarse y determinarse para que sean coherentes
con los supuestos utilizados en el diseño del programa de ensayo de aptitud, para permitir estadísticos
de desempeño significativos. Por ejemplo, que no haya evidencia de deterioro del ítem de ensayo
de aptitud, o de una mezcla de poblaciones de participantes, o de violaciones graves de cualquier
supuesto estadístico sobre la naturaleza de los datos.
9.1.4 En general, no es apropiado utilizar métodos de evaluación que clasifiquen intencionalmente

una proporción fija de resultados como generadores de una señal de acción.
9.2 Limitación de la incertidumbre del valor asignado
9.2.1 Si la incertidumbre estándar u(xpt) del valor asignado es grande en comparación con el criterio
de evaluación del desempeño, existe el riesgo de que algunos participantes reciban señales de acción
y advertencia debido a la inexactitud en la determinación del valor asignado, no por causa alguna del
participante. Por esta razón, se debe determinar la incertidumbre estándar del valor asignado y se
debe informar a los participantes (ver ISO/IEC 17043:2010, 4.4.5 y 4.8.2).
Si se cumple el siguiente criterio, la incertidumbre del valor asignado puede considerarse insignificante
y no es necesario incluirla en la interpretación de los resultados de la ronda del programa de ensayos
de aptitud.
u(xpt) < 0,30 σpt ó u(xpt) < 0,1 δE (10)
NOTA 0,30 σpt es equivalente a 0,1 δE cuando |z| ≥ 3,0 genera una señal de acción.

NCh3800:2023
ISO 13528:2022
9.2.2 Si no se cumple este criterio, entonces el proveedor de ensayos de aptitud debería considerar
lo siguiente, asegurándose de que cualquier acción tomada siga siendo coherente con la política de
evaluación del desempeño acordada para el programa de ensayos de aptitud.
a) Seleccionar un método para determinar el valor asignado tal que su incertidumbre cumpla con el
criterio de la Ecuación (10).
b) Usar la incertidumbre del valor asignado en la interpretación de los resultados del programa
de ensayo de aptitud (ver 9.5 en la puntuación z’, o 9.6 en las puntuaciones ζ, o 9.7 en las
puntuaciones En).
c) Si el valor asignado se deriva de los resultados de los participantes, y la gran incertidumbre

surge de las diferencias entre subpoblaciones identificables de participantes, informar valores
e incertidumbres separados para cada subpoblación (por ejemplo, participantes que utilizan
diferentes métodos de medición).

NOTA El Protocolo Armonizado de la IUPAC[32] describe un procedimiento específico para detectar la
bimodalidad, basado en una inspección de un gráfico de densidad kernel con un ancho de banda especificado.
d) Informar a los participantes que la incertidumbre del valor asignado no es despreciable y las
evaluaciones podrían verse afectadas.
Si no se aplica ninguno de los puntos a) a d), se debe informar a los participantes de que no se puede
determinar un valor asignado confiable y que no se pueden proporcionar puntuaciones de desempeño.
NOTA En cláusulas E.3 y E.4 se demuestran las técnicas presentadas en esta cláusula
9.3 Estimaciones de desviación (error de medición)
9.3.1 Sea xi el resultado (o el promedio de las réplicas) informado por el participante i para la medición
de una propiedad del ítem de ensayo de aptitud en una ronda de un programa de ensayo de aptitud.
Luego se puede calcular una medida simple del desempeño del participante como la diferencia entre
el resultado xi y el valor asignado xpt:
Di = xi – xpt (11)
Di puede interpretarse como el error de medida de ese resultado, en la medida en que el valor asignado
puede considerarse un valor de cantidad convencional o de referencia.
La diferencia Di puede expresarse en las mismas unidades que el valor asignado o como una diferencia
porcentual, calculada como:
Di% = 100 (xi – xpt)/ xpt% (12)
NOTA La Ecuación (12) no se puede aplicar cuando xpt = 0.
9.3.2 La diferencia Di o Di% generalmente se compara con un criterio δE basado en la idoneidad

para el propósito o con la experiencia de rondas anteriores de un programa de ensayo de aptitud; el
criterio se indica aquí como δE, una tolerancia para el error de medición. Si - δE < Di < δE, entonces el
desempeño se considera ‘aceptable’ (o “sin señal”). (El mismo criterio aplica para Di%, dependiendo
de la expresión de δE).


NCh3800:2023
ISO 13528:2022
9.3.3 δE está estrechamente relacionado con σpt como se usa para las puntuaciones z (ver 9.4),
cuando σpt está determinado por la idoneidad para el propósito o las expectativas de rondas anteriores
del programa de ensayos de aptitud. La relación está determinada por el criterio de evaluación de las
puntuaciones z. Por ejemplo, si z ≥ 3 crea una señal de acción entonces δE = 3 σpt, o equivalentemente
σpt = δE/3. Varias expresiones de δE son convencionales en ensayos de aptitud para aplicaciones
médicas y en especificaciones de desempeño para métodos y productos de medición.
9.3.4 La ventaja de D como estadístico de desempeño y δE como criterio de desempeño es que

los participantes tienen una comprensión intuitiva de estos estadísticos, ya que están directamente
vinculadas al error de medición y son criterios comunes para determinar la idoneidad para el propósito.
La ventaja de D% es que la comprensión es intuitiva, está estandarizado para el nivel de mensurando
y está relacionado con causas comunes de error (por ejemplo, calibración incorrecta o sesgo en la
dilución).
9.3.5 Las desventajas son que no es convencional para ensayos de aptitud en muchos países o
campos de medición; y que D no está estandarizado, para permitir el escaneo simple de informes en

busca de señales de acción en programas de ensayo de aptitud con múltiples analitos o donde los
criterios de aptitud para el propósito pueden variar según el nivel del mensurando.
NOTA El uso de D y D% generalmente asume la simetría de la distribución de los resultados de los participantes en
el sentido de que el rango aceptable es -δE < D < δE.
9.3.6 Para fines de comparación entre niveles de mensurandos, donde los criterios de idoneidad para
el propósito pueden variar; o para la combinación entre rondas o entre mensurandos, D y D% en el
programa de ensayos de aptitud se pueden transformar en una puntuación de desempeño estandarizado
que muestra las diferencias relativas a los criterios de desempeño para los mensurandos. Para ello,
Calcular el “Porcentaje de desviación permitida” (PA) para cada resultado de la siguiente manera:
PAi% = (Di/δE) × 100% (13)
Por lo tanto, PA ≥ 100% o PA ≤ -100% indica una señal de acción (o “desempeño inaceptable”).
NOTA 1 Las puntuaciones de PA pueden compararse entre niveles y diferentes rondas de un programa de ensayo
de aptitud o rastrearse en gráficos. Estas puntuaciones de desempeño son similares en uso e interpretación a las
puntuaciones z que tienen un criterio de evaluación común, como z ≤ -3 o z ≥ 3 para señales de acción.
NOTA 2 Las variaciones de este estadístico se usan comúnmente, particularmente en aplicaciones médicas, donde
generalmente hay una mayor frecuencia de ensayos de aptitud y una gran cantidad de analitos.
NOTA 3 Puede ser apropiado usar el valor absoluto de PA para reflejar resultados coherentemente aceptables (o
inaceptables) en relación con el valor asignado.
9.4 Puntuaciones z
9.4.1 La puntuación z para el resultado de un ensayo de aptitud xi se calcula como:

x i − x pt (14)
zi =
σpt
en que:
xpt = valor asignado;
σpt = desviación estándar para la evaluación de la aptitud.

NCh3800:2023
ISO 13528:2022
9.4.2 La interpretación convencional de las puntuaciones z es la siguiente (ver ISO/IEC 17043:2010,

B.4.1.1):
— Un resultado que da ⎮z⎮ ≤ 2,0 se considera aceptable.
— Un resultado que da 2,0 < ⎮z⎮ < 3,0 se considera una señal de advertencia.
— Un resultado que da ⎮z⎮ ≥ 3,0 se considera inaceptable (o señal de acción).
Se debería recomendar a los participantes que verifiquen sus procedimientos de medición siguiendo
las señales de advertencia en caso de que indiquen un problema emergente o recurrente.
NOTA 1 En algunas aplicaciones, los proveedores de ensayos de aptitud utilizan 2,0 como señal de acción para las
puntuaciones z.
NOTA 2 La elección del criterio σpt normalmente se hace para permitir la interpretación anterior, que se usa
ampliamente para la evaluación de la aptitud y también es muy similar a los límites familiares de las gráficas de control.

NOTA 3 La justificación para el uso de los límites de 2,0 y 3,0 para las puntuaciones z es la siguiente. Se supone que
las mediciones que se realizan correctamente generan resultados que pueden describirse (después de la transformación
si es necesario) mediante una distribución normal con media xpt y desviación estándar de la población σpt. Entonces, las
puntuaciones z se distribuirán normalmente con una media poblacional de cero y una desviación estándar poblacional
de 1,0. En estas circunstancias, se esperaría que solo alrededor del 0,3% de las puntuaciones quedaran fuera del
rango -3,0 ≤ z ≤ 3,0 y solo alrededor del 5% se esperaría que quedaran fuera del rango -2,0 ≤ z ≤ 2,0. Debido a que la
probabilidad de que z caiga fuera de ± 3,0 es tan baja, es poco probable que las señales de acción ocurran por casualidad
cuando no existe un problema real, por lo que es probable que haya una causa identificable para una anomalía cuando
se da una señal de acción. .
NOTA 4 El supuesto en el que se basa esta interpretación se aplica solo a una distribución hipotética de laboratorios
competentes y no a algún supuesto sobre la distribución de los resultados observados. No es necesario hacer supuestos
acerca de los resultados observados en sí mismos.
NOTA 5 Si la verdadera variabilidad interlaboratorio (desviación estándar de la población) es menor que σpt, las
probabilidades de clasificación errónea se reducen.
NOTA 6 Cuando la desviación estándar para la evaluación de la aptitud se fija mediante cualquiera de los métodos
descritos en 8.2 ó 8.4, puede diferir sustancialmente de la desviación estándar (robusta) de los resultados, y las proporciones
de los resultados quedan fuera de ± 2,0 y ± 3,0 puede diferir considerablemente del 5% y el 0,3% respectivamente.
9.4.3 El proveedor de ensayos de aptitud debe determinar el redondeo adecuado para las
puntuaciones z notificadas, en función del número de dígitos significativos del resultado y del valor
asignado y la desviación estándar para los ensayos de aptitud. Las reglas de redondeo se deben
incluir en la información a disposición de los participantes.
NOTA Rara vez es útil tener más de dos dígitos después del decimal para las puntuaciones z.
9.4.4 Cuando la desviación estándar de los resultados de los participantes se usa como σpt y los
programas de ensayos de aptitud involucran a un gran número de participantes, el proveedor de
ensayos de aptitud puede desear verificar la normalidad de la distribución, utilizando resultados reales
o puntuaciones z. En el otro extremo, cuando solo hay un pequeño número de participantes, es posible
que no se dé ninguna señal de acción. En este caso, los métodos gráficos que combinan puntuaciones
de desempeño en varias rondas en el programa de ensayos de aptitud pueden brindar indicaciones
más útiles sobre el desempeño de los participantes que los resultados de rondas individuales.


NCh3800:2023
ISO 13528:2022
9.5 Puntuaciones z′
9.5.1 Cuando existe preocupación acerca de la incertidumbre de un valor asignado u(xpt), por
ejemplo, cuando u(xpt) > 0,3 σpt, entonces la incertidumbre se puede tener en cuenta expandiendo el
denominador de la puntuación de desempeño. Este estadístico se llama puntuación z′ y se calcula de
la siguiente manera (con notación como en 9.4):
x i − x pt (15)
zi =
σpt
NOTA Cuando xpt y/o σpt se calculan a partir de los resultados de los participantes, la puntuación de desempeño
se correlaciona con los resultados individuales de los participantes, porque los resultados individuales tienen un impacto
tanto en una desviación estándar como en una media robustas. La correlación para un participante individual depende de
la ponderación otorgada a ese participante en el estadístico combinado. Por esta razón, las puntuaciones de desempeño
que incluyen la incertidumbre del valor asignado sin tener en cuenta la correlación representan subestimaciones de
las puntuaciones que resultarían si se incluyera la covarianza. Por ejemplo, cuando u(xpt) = 0,3 σpt entonces hay una
subestimación de alrededor del 10% de la puntuación z’. Por lo tanto, la Ecuación (15) se puede utilizar cuando xpt y/o σpt

se determinan a partir de los resultados de los participantes.
9.5.2 Las puntuaciones D y D% también se pueden modificar para considerar la incertidumbre del
valor asignado con la siguiente Ecuación (16) para expandir δE a δE’.
(16)
δE’ = δE2 + U 2 ( x pt )
donde U(xpt) es la incertidumbre expandida del valor asignado xpt calculado con factor de cobertura
k =2.
9.5.3 Las puntuaciones z′ pueden interpretarse de la misma manera que las puntuaciones z (ver 9.4)
y usando los mismos valores críticos de 2,0 y 3,0, dependiendo del diseño del programa de ensayo de
aptitud. De manera similar, las puntuaciones D y D% se compararían con δE’ (ver 9.3).
9.5.4 La comparación de las ecuaciones para la puntuación z y la puntuación z′ en 9.4 y 9.5 muestra
que las puntuaciones z′ para una ronda de un programa de ensayo de aptitud siempre serán más
pequeños que las puntuaciones z correspondientes por un factor constante dado por Ecuación (17).
σpt (17)
σ pt2 + u 2 (x pt )
Cuando se cumple la pauta para limitar la incertidumbre del valor asignado en 9.2.1, este factor caerá
en el rango de la Ecuación (18):
σpt (18)
0, 96 < < 1, 00
σ pt2 + u 2 (x pt )
Así, en este caso, las puntuaciones z′ serán casi idénticos a las puntuaciones z, y se puede concluir
que la incertidumbre del valor asignado es despreciable para la evaluación del desempeño.
Cuando no se cumple la pauta en 9.2.1 para la incertidumbre del valor asignado, la diferencia en
la magnitud de las puntuaciones z′ y las puntuaciones z puede ser tal que algunos puntuaciones z
excedan los valores críticos de 2,0 o 3,0 y por lo tanto, dé “señales de advertencia” o “señales de
acción”, mientras que las puntuaciones z′ correspondientes no excedan estos valores críticos y, por lo
tanto, no den señales.

NCh3800:2023
ISO 13528:2022
En general, para situaciones en las que el valor asignado y/o σpt no se determina a partir de los
resultados de los participantes, se puede preferir z′ porque cuando se cumple el criterio de 9.2.1, la
diferencia entre z y z′ será insignificante.
9.6 Puntuaciones zeta (ζ)
9.6.1 Las puntuaciones zeta pueden ser útiles cuando un objetivo del programa de ensayo de aptitud
es evaluar la capacidad de un participante para proporcionar resultados cercanos al valor asignado
dentro de la incertidumbre declarada.
Con notación como en 9.4, las puntuaciones de ζ se calculan como:
x i − x pt (19)
ζi =
u2 (x i ) + u2 (x pt )
en que:

u(xi) = estimación propia del participante de la incertidumbre estándar de su resultado xi; y
u(xpt) = incertidumbre estándar del valor asignado xpt.
NOTA 1 Cuando el valor asignado xpt se calcula como el valor de consenso de los resultados de los participantes,
entonces xpt se correlaciona con los resultados de los participantes individuales. La correlación para un participante
individual depende de la ponderación que se le dé a ese participante en el valor asignado y, en menor medida, en la
incertidumbre del valor asignado. Por esta razón, las puntuaciones de desempeño que incluyen la incertidumbre del
valor asignado sin tener en cuenta la correlación representan subestimaciones de las puntuaciones que resultarían si
se incluyera la covarianza. La subestimación no es grave si la incertidumbre del valor asignado es pequeña; cuando se
utilizan métodos robustos, es menos grave para los participantes más alejados que tienen más probabilidades de recibir
puntuaciones de desempeño adversas. Por lo tanto, la Ecuación (19) se puede utilizar con estadísticos de consenso sin
ajuste por correlación.
NOTA 2 Las puntuaciones ζ difieren de las puntuaciones En (ver 9.7) al usar incertidumbres estándar u(xi) y u(xpt),
en lugar de incertidumbres expandidas U(xi) y U(xpt). ζ puede ser particularmente útil cuando los participantes usan
diferentes procedimientos de medición que conducen a incertidumbres de medición muy diferentes. Las puntuaciones
de ζ por encima de 2 o por debajo de -2 pueden ser causadas por métodos sistemáticamente sesgados o por una mala
estimación de la incertidumbre de medición por parte del participante. Por lo tanto, las puntuaciones ζ proporcionan una
evaluación rigurosa del resultado completo presentado por el participante.
9.6.2 El uso de puntuaciones ζ permite evaluar directamente si los laboratorios pueden entregar
resultados correctos, es decir, resultados que concuerdan con xpt dentro de sus incertidumbres de
medición. Las puntuaciones ζ se pueden interpretar usando los mismos valores críticos de 2,0 y
3,0 que para las puntuaciones z, o con múltiplos del factor de cobertura del participante que se usa
al estimar la incertidumbre expandida. Sin embargo, una puntuación ζ adversa puede indicar una
gran desviación de xi de xpt, una subestimación de la incertidumbre por parte del participante o una
combinación de ambas.
NOTA Puede ser útil para el proveedor de ensayos de aptitud brindar información adicional sobre la validez de las
incertidumbres informadas. En 9.8 se sugieren pautas útiles para dicha evaluación.
9.6.3 Las puntuaciones ζ se pueden usar junto con las puntuaciones z, como una ayuda para mejorar
el desempeño de los participantes, de la siguiente manera. Si un participante obtiene puntuaciones z
que exceden repetidamente el valor crítico de 3,0, puede resultarle útil examinar su procedimiento de
ensayo paso a paso y derivar una evaluación de incertidumbre para ese procedimiento. La evaluación de
la incertidumbre identificará los pasos del procedimiento donde surgen las mayores incertidumbres, de


NCh3800:2023
ISO 13528:2022
modo que el participante pueda ver donde debe esforzarse para lograr una mejora. Si las puntuaciones
ζ del participante también exceden repetidamente el valor crítico de 3,0, implica que la evaluación
de la incertidumbre del participante no incluye todas las fuentes significativas de incertidumbre
(es decir, les falta algo importante). Por el contrario, si un participante obtiene repetidamente
puntuaciones z ≥ 3 pero puntuaciones ζ ≤ 2, esto demuestra que el participante puede haber
evaluado la incertidumbre de sus resultados con precisión, pero que sus resultados no cumplen
con el desempeño esperado para el programa de ensayo de aptitud. Este puede ser el caso,
por ejemplo, de un participante que utiliza un método de cribado en procedimientos de medición en
los que los demás participantes aplican métodos cuantitativos. No es necesaria ninguna acción si el
participante considera que la incertidumbre de sus resultados es suficiente.
NOTA Cuando se usa solo una puntuación ζ, solo puede interpretarse como una prueba de si la incertidumbre del
participante es coherente con la desviación particular observada y no puede interpretarse como una indicación de la
idoneidad para el propósito de los resultados de un participante en particular. La determinación de la idoneidad para el
propósito se puede realizar por separado (por ejemplo, por el participante o por un organismo de acreditación) examinando
la desviación x-xpt o las incertidumbres estándar combinadas en comparación con una incertidumbre objetivo.

9.7 Puntuaciones En
9.7.1 Las puntuaciones En pueden ser útiles cuando un objetivo para el programa de ensayo de
aptitud es evaluar la capacidad de un participante para obtener resultados cercanos al valor asignado
dentro de su incertidumbre expandida declarada. Este estadístico es convencional para ensayos de
aptitud en calibración, pero puede usarse para otros tipos de ensayos de aptitud.
Este estadístico de desempeño se calcula mediante la Ecuación (20):

x i − x pt (20)
(E n )i =
U 2 ( x i ) + U 2 ( x pt )
en que:
xpt = valor asignado determinado en un laboratorio de referencia;
U(xpt) = incertidumbre expandida del valor asignado xpt;
u(xi) = incertidumbre expandida del resultado xi de un participante.
NOTA La combinación directa de incertidumbres expandidas no es coherente con el requisito de ISO/IEC Guide 98-3
y no es equivalente al cálculo de una incertidumbre expandida combinada a menos que tanto los factores de cobertura
como los grados de libertad efectivos sean idénticos para U(xi) y U(xpt).
9.7.2 Las puntuaciones En deberían interpretarse con cautela, porque son proporciones de dos
medidas de desempeño separadas (pero relacionadas). El numerador es la desviación del resultado
del valor asignado y tiene una interpretación discutida en 9.3. El denominador es una incertidumbre
expandida combinada que no debería ser mayor que la desviación en el numerador, si el participante
ha determinado U(xi) correctamente y si el proveedor de ensayos de aptitud ha determinado U(xpt)
correctamente. Por lo tanto, las puntuaciones de En ≥ 1,0 o En ≤ -1,0 podrían indicar la necesidad de
revisar las estimaciones de incertidumbre o corregir un problema de medición; De manera similar,
-1,0 < En < 1,0 debería tomarse como un indicador de desempeño exitoso solo si las incertidumbres
son válidas y la desviación xi-xpt es menor que la que necesitan los clientes del participante.
NOTA Si bien la interpretación de las puntuaciones En puede ser difícil, eso no impide su uso. La incorporación de
información sobre la incertidumbre en la interpretación de los resultados de los ensayos de aptitud puede desempeñar
un papel importante en la mejora de la comprensión de los participantes sobre la incertidumbre de la medición y su
evaluación.
NCh3800:2023
ISO 13528:2022
9.8 Evaluación de las incertidumbres de los participantes en los ensayos
9.8.1 Con la creciente aplicación de ISO/IEC 17025 hay una mejor comprensión de la incertidumbre
de medición. El uso de evaluaciones de laboratorio de la incertidumbre en la evaluación del desempeño
ha sido común en los programas de ensayo de aptitud en diferentes áreas de calibración, como con las
puntuaciones En, pero no ha sido común en los ensayos de aptitud para laboratorios de ensayo. Las
puntuaciones ζ descritas en 9.6 y las puntuaciones En en 9.7 son opciones para evaluar los resultados
frente a la incertidumbre declarada.
9.8.2 Algunos proveedores de ensayos de aptitud han reconocido la utilidad de pedir a los laboratorios
que informen sobre la incertidumbre de los resultados en los ensayos de aptitud. Esto puede ser útil
incluso cuando las incertidumbres no se utilizan en la puntuación. Hay varios propósitos para recopilar
dicha información:
a) los organismos de acreditación pueden asegurar que los participantes están informando
incertidumbres que son coherentes con su alcance de acreditación;

b) los participantes pueden revisar su incertidumbre informada junto con la de otros participantes,
para evaluar la coherencia (o no) y, por lo tanto, tener la oportunidad de identificar si su evaluación
de la incertidumbre no está contando todos los componentes relevantes o está contando en
exceso algunos componentes;
c) los ensayos de aptitud se pueden utilizar para confirmar afirmaciones de incertidumbre, y esto es
más fácil cuando la incertidumbre se informa con el resultado.
NOTA En cláusula E.4 se encuentra un ejemplo del análisis de datos cuando se informan incertidumbres.
9.8.3 Cuando xpt se determina utilizando los procedimientos de 7.3 a 7.6 y u(xpt) cumple el criterio
de 9.2.1, entonces es poco probable que el resultado de un participante tenga una incertidumbre
estándar menor que esta, por lo que u(xpt) podría ser utilizado como un límite inferior para la detección,
llamado umín.. Si el valor asignado se determina a partir de los resultados de los participantes (ver 7.7),
entonces el proveedor de ensayos de aptitud debería determinar los límites prácticos de detección
para umin.
NOTA Si u(xpt) incluye variabilidad debido a falta de homogeneidad o inestabilidad, el u(xi) del participante puede
ser menor que umin.
9.8.4 También es poco probable que la incertidumbre estándar informada de cualquier participante
sea mayor que 1,5 veces la desviación estándar robusta de los participantes (1,5s*), por lo que
esto puede usarse como un límite superior práctico para evaluar las incertidumbres informadas,
denominadas umáx..
NOTA 1 El factor 1,5 es el límite superior de la variabilidad en las desviaciones estándar que se puede esperar
para una desviación estándar de consenso con 10 o más resultados, con base en la raíz cuadrada de los percentiles
de la distribución F. Un proveedor de ensayos de aptitud que adopte este procedimiento puede utilizar un multiplicador
diferente.
NOTA 2 Son posibles proporciones superiores a 1,5 cuando los participantes utilizan una amplia variedad de métodos.


NCh3800:2023
ISO 13528:2022
9.8.5 Si se utilizan umín. o umáx., u otros criterios, para identificar incertidumbres aberrantes, el
proveedor de ensayos de aptitud debería explicar esto a los participantes y dejar en claro que una
incertidumbre informada, u(xi), puede ser válida incluso si es menor que umin o mayor que umáx.;
y cuando esto ocurra, los participantes y las partes interesadas deberían verificar el resultado o la
estimación de la incertidumbre. De manera similar, una incertidumbre informada puede ser mayor que
umín. y menor que umáx., y aun así no ser válida. Estos son solo indicadores informativos.
9.8.6 Los proveedores de ensayos de aptitud también pueden llamar la atención sobre incertidumbres
inusualmente altas o bajas en función de, por ejemplo:
— cuantiles especificados para las incertidumbres informadas (por ejemplo, por debajo del
percentil 5 y por encima del percentil 95 de las incertidumbres estándar o ampliadas informadas);
— límites basados en una distribución supuesta con una escala basada en la dispersión de las
incertidumbres notificadas;

— una incertidumbre de medida requerida.
NOTA Dado que es poco probable que las incertidumbres se distribuyan normalmente, es probable que sea necesaria
una transformación cuando se utilizan límites que se basan en una normalidad aproximada o subyacente; por ejemplo, los
límites de los bigotes de los diagramas de caja basados en el rango intercuartílico tienen una interpretación probabilística
solo cuando la distribución es aproximadamente normal.
9.9 Puntuaciones de desempeño combinados
9.9.1 Es común, dentro de una sola ronda de un programa de ensayo de aptitud, que se obtengan
resultados para más de un ítem de ensayo de aptitud o para más de un mensurando. En esta situación,
los resultados de cada ítem de ensayo de aptitud y de cada mensurando deberían interpretarse
como se describe en 9.3 a 9.7; es decir, los resultados para cada ítem de ensayo de aptitud y cada
mensurando deberían evaluarse por separado.
9.9.2 Hay aplicaciones cuando se incluyen dos o más ítems de ensayo de aptitud con niveles
especialmente diseñados en un programa de ensayo de aptitud para medir otros aspectos del
desempeño, como investigar la repetibilidad, el error sistemático o la linealidad. Por ejemplo, se pueden
usar dos ítems de ensayo de aptitud similares en un programa de ensayo de aptitud con la intención de
tratarlos con un gráfico de Youden, como se describe en 10.5. En tales casos, el proveedor de ensayos
de aptitud debería proporcionar a los participantes las descripciones completas del diseño estadístico
y los procedimientos que se utilizan.
9.9.3 Los métodos gráficos descritos en cláusula 10 deberían usarse cuando se obtienen resultados
para más de un ítem de ensayo de aptitud o para varios mensurandos, siempre que estén estrechamente
relacionados y/o se obtengan por el mismo método. Estos procedimientos combinan puntuaciones de
desempeño de manera que no ocultan valores altos de puntuaciones individuales y pueden revelar
información adicional sobre el desempeño de los participantes, como la correlación entre resultados
para diferentes medidas, que no es evidente en las tablas de puntuaciones individuales.
9.9.4 En los programas de ensayos de aptitud que involucran una gran cantidad de mensurandos,
se puede usar un conteo o proporción de la cantidad de señales de acción y advertencia para evaluar
el desempeño.

NCh3800:2023
ISO 13528:2022
9.9.5 Las puntuaciones de desempeño combinados o las puntuaciones de premios o penalizaciones

deberían usarse solo con precaución, ya que puede ser difícil describir los supuestos estadísticos que
subyacen a las puntuaciones. Si bien las puntuaciones de desempeño combinados para los resultados
de diferentes ítems de ensayos de aptitud en el mismo ítem de medida pueden tener distribuciones
esperadas y pueden ser útiles para detectar sesgos persistentes, las puntuaciones promediadas o
sumadas en diferentes ítems de medida en el mismo o diferentes ítems de ensayos de aptitud pueden
ocultar el sesgo en los resultados para mensurandos únicos. El método de cálculo, la interpretación y
las limitaciones de las puntuaciones combinadas o de penalización que se utilicen, por lo tanto, deben
quedar claros para los participantes.
10 Métodos gráficos para describir puntuaciones de desempeño

10.1 Aplicación de métodos gráficos
El proveedor de ensayos de aptitud normalmente debería usar las puntuaciones de desempeño

obtenidos en cada ronda de un programa de ensayos de aptitud para preparar gráficos como los
descritos en 10.2 y 10.3. El uso de puntuaciones de desempeño, como las puntuaciones PA, z, z’,
ζ o En en estos gráficos tienen la ventaja de que se pueden dibujar utilizando ejes estandarizados,
lo que simplifica su presentación e interpretación. Los gráficos deberían estar disponibles para los
participantes, lo que permite que cada participante vea donde se encuentran sus propios resultados
en relación con los obtenidos por los demás participantes. Se pueden usar códigos de letras o
números para representar a los participantes, de modo que cada participante pueda identificar sus
propios resultados pero no pueda determinar qué participante obtuvo ningún otro resultado. Los
gráficos también pueden ser utilizados por el proveedor de ensayos de aptitud y cualquier organismo
de acreditación, para permitirles juzgar la efectividad general del programa de ensayos de aptitud y ver
si es necesario revisar los criterios utilizados para evaluar el desempeño.
NOTA Las siguientes subsecciones dan una lista no exhaustiva de técnicas gráficas seleccionadas que se han
encontrado útiles en los ejercicios de ensayo de aptitud. Otros métodos gráficos pueden ser útiles, incluidos los diagramas
de caja y bigotes y los gráficos de los resultados de los participantes frente a la incertidumbre informada. Los diagramas
de caja y bigotes se describen, por ejemplo, en ISO 16269-4[38]. En la referencia [39] se describe un diagrama gráfico útil
para los resultados de los participantes y las incertidumbres.
10.2 Histogramas de resultados o puntuaciones de desempeño
10.2.1 El histograma es una herramienta estadística común y es útil en dos puntos diferentes en el
análisis de los resultados de los ensayos de aptitud. El gráfico es útil en la etapa de análisis preliminar,
para verificar si los supuestos estadísticos son razonables o si existe una anomalía, como una
distribución bimodal, una gran proporción de valores atípicos o un sesgo inusual que no se anticipó.
Los histogramas también pueden ser útiles en informes para el programa de ensayos de aptitud, para
describir las puntuaciones de desempeño o para comparar resultados, por ejemplo, en diferentes
métodos o diferentes ítems de ensayos de aptitud. Los histogramas son particularmente útiles en
informes individuales para programas de ensayos de aptitud de tamaño pequeño o moderado (menos
de 100 participantes) para permitirles a los participantes evaluar cómo se compara su desempeño con
otros participantes, por ejemplo, resaltando un bloque dentro de una barra vertical para representar el
desempeño de un participante resultado o, en pequeños programas de ensayo de aptitud (menos de
50 participantes), utilizando caracteres de trama individualizados para cada participante.


NCh3800:2023
ISO 13528:2022
10.2.2 Los histogramas se pueden preparar utilizando los resultados reales de los participantes o las
puntuaciones de desempeño. Los resultados de los participantes tienen la ventaja de estar directamente
relacionados con los datos enviados y pueden evaluarse sin más cálculos o transformaciones de
la puntuación de desempeño al error de medición. Los histogramas basados en puntuaciones de
desempeño tienen la ventaja de relacionarse directamente con las evaluaciones de desempeño y
pueden compararse fácilmente entre medidas y rondas de un programa de ensayo de aptitud.
El rango y el ancho de la clase utilizada para un histograma deberían determinarse para cada conjunto
de datos, en función de la variabilidad y la cantidad de resultados. A menudo es posible hacer esto en
base a la experiencia con los ensayos de aptitud, pero en la mayoría de las situaciones será necesario
ajustar las agrupaciones después de la primera vista. Si se utilizan puntuaciones de desempeño en el
histograma, es útil tener una escala basada en la desviación estándar para la evaluación de la aptitud
y puntos de corte para las señales de advertencia y acción.
10.2.3 La escala y los intervalos de los gráficos deberían elegirse de manera que se pueda detectar la
bimodalidad (si está presente), sin crear falsas advertencias debido a la resolución de los resultados

de las mediciones o a la pequeña cantidad de resultados.
NOTA 1 La apariencia de los histogramas es sensible al ancho del intervalo elegido y a la localización de los límites
del intervalo (para un ancho de intervalo constante, esto depende en gran medida del punto de partida). Si el ancho del
contenedor es demasiado pequeño, el gráfico mostrará muchos modos pequeños; Es posible que los modos demasiado
grandes y apreciables cerca del cuerpo principal no se distingan lo suficiente. La apariencia de los modos angostos y las
alturas relativas de las barras adyacentes pueden cambiar considerablemente al cambiar la posición inicial o el ancho del
contenedor, especialmente cuando el conjunto de datos es pequeño y/o muestra algún agrupamiento.
NOTA 2 En cláusula E.3 se proporciona un ejemplo de un gráfico de histograma.
10.3 Gráficas de densidad kernel
10.3.1 Un gráfico de densidad kernel, a menudo abreviado como ‘gráfico de densidad’, proporciona
una curva suave que describe la forma general de la distribución de un conjunto de datos. La idea
que subyace a la estimación del kernel es que cada punto de datos se reemplaza por una distribución
específica (típicamente normal), centrada en el punto y con una desviación estándar σk; σk suele
denominarse “ancho de banda”. Estas distribuciones se suman y la distribución resultante, escalada
para tener una unidad de área, da una “estimación de densidad” que se puede trazar como una curva
suave.
10.3.2 Se pueden seguir los siguientes pasos para preparar un diagrama de densidad kernel. Se
supone que un conjunto de datos X que consta de p valores x1, x2, ..., xp se incluirán en el gráfico.
Por lo general, estos son resultados de los participantes, pero pueden ser puntuaciones de desempeño
derivados de los resultados.
i) Elegir un ancho de banda apropiado σk. Dos opciones son particularmente útiles:
a) Para una inspección general, establezca σk = 0,9 s*/p0,2 donde s* es una desviación estándar
robusta de los valores x1, ..., xp calculados usando los procedimientos en cláusula C.2 o C.3.

NCh3800:2023
ISO 13528:2022
b) Para examinar el conjunto de datos para modos brutos que son importantes en comparación
con el criterio para la evaluación del desempeño, establezca σk = 0,75 σpt si usa puntuaciones
z o ζ, o σk = 0,25 δE si usa D o D%.
NOTA 1 La opción a) anterior sigue a Silverman[30], que recomienda s* en función del rango intercuartílico
normalizado (nIQR). Otras reglas de selección de ancho de banda que proporcionan resultados similares incluyen la de
Scott[29], que reemplaza el multiplicador de 0,9 por 1,06. La Referencia [29] describe un método de selección de ancho
de banda casi óptimo, pero mucho más complejo. En la práctica, las diferencias para la inspección visual son leves y la
elección depende de la disponibilidad del software.
NOTA 2 La opción b) anterior sigue la orientación de la IUPAC[32].
ii) Establecer un rango de trazado qmín. a qmáx. para que qmín. ≤ mín.(x1, ...xp ) - 3 σk y qmáx. ≥ máx.
(x1, ...xp) + 3 σk.
iii) Elegir un número de puntos nk para la curva trazada. nk = 200 suele ser suficiente a menos que

haya valores atípicos extremos dentro del rango de la gráfica.
iv) Calcular las ubicaciones de trazado q1 a qnk de la Ecuación (21)
qi = q min + (i − 1)
(qnk − q1 ) (21)
nk − 1
v) Calcular nk densidades h1 a hnk de la Ecuación (22)
1 ⎛ x j − qi ⎞ (22)
∑
p
hi = ϕ⎜ para i = 1 a i = nk
p j =1 ⎝ σk ⎟⎠
donde φ(.) denota la densidad normal estándar.
vi) Graficar hi contra qi.
NOTA 1 Una curva de densidad generalmente se extenderá más allá del rango de los datos; el rango de trazado q1
a qnk se elige comúnmente para que esté al menos 3 σk más allá de los extremos del conjunto de datos. En ocasiones,
cuando esto se extiende más allá del rango factible de los datos (por ejemplo, por debajo de cero), la gráfica se puede
truncar en el límite del rango factible según sea necesario para evitar malas interpretaciones.
NOTA 2 Puede ser útil agregar las ubicaciones de los puntos de datos individuales al gráfico. Esto se hace más
comúnmente trazando las ubicaciones debajo de la curva de densidad trazada como marcadores verticales cortos
(a veces llamados “alfombra”), pero también se puede hacer trazando los puntos de datos en los puntos apropiados a lo
largo de la curva de densidad calculada.
NOTA 3 Los diagramas de densidad se realizan mejor mediante software. El cálculo paso a paso anterior se puede
realizar en una hoja de cálculo para tamaños de conjuntos de datos modestos. El software estadístico patentado y disponible
gratuitamente a menudo incluye diagramas de densidad basados en opciones de ancho de banda predeterminadas
similares. Las implementaciones de software avanzadas de gráficos de densidad pueden usar este algoritmo o cálculos
más rápidos basados en métodos de convolución.
NOTA 4 En cláusulas E.3, E.4 y E.6 se dan ejemplos de diagramas de densidad kernel.


NCh3800:2023
ISO 13528:2022
10.3.3 La forma de la curva se toma como una indicación de la distribución a partir de la cual se
extrajeron los datos. Los distintos modos aparecen como picos separados. Los valores atípicos
aparecen como picos separados bien separados del cuerpo principal de los datos.
NOTA 1 Un gráfico de densidad es sensible al ancho de banda k elegido. Si el ancho de banda es demasiado pequeño,
el gráfico mostrará muchos modos pequeños; Es posible que los modos demasiado grandes y apreciables cerca del
cuerpo principal no se distingan lo suficiente.
NOTA 2 Al igual que los histogramas, los diagramas de densidad se utilizan mejor con conjuntos de datos de moderados
a grandes porque los conjuntos de datos pequeños (diez o menos) pueden por casualidad incluir valores atípicos leves o
modas aparentes, particularmente cuando se usa una desviación estándar robusta como base para el ancho de banda.
10.4 Gráficos de barras de puntuaciones de desempeño estandarizadas
10.4.1 Los diagramas de barras son un método adecuado para presentar las puntuaciones de
desempeño para un número de características similares en un gráfico. Revelarán si hay alguna
característica común en las puntuaciones de un participante, por ejemplo, si un participante logra

varias puntuaciones z altos que indican un desempeño generalmente bajo, ese participante puede
tener un sesgo positivo.
10.4.2 Para preparar un diagrama de barras, recopile las puntuaciones de desempeño estandarizados
en un diagrama de barras, como se muestra en Figura E.10, en el que se agrupan las puntuaciones
de cada participante. Se pueden trazar otras puntuaciones de desempeño estandarizadas, como D%
o PA con el mismo propósito.
10.4.3 Cuando se realizan determinaciones replicadas en una ronda de un programa de ensayo

de aptitud, los resultados pueden usarse para calcular un gráfico de medidas de precisión;
por ejemplo, estadísticos k como se describe en ISO 5725-2, o una medida relacionada escalada
contra la desviación estándar promedio robusta como la definida en el Algoritmo S (ver cláusula C.4).
NOTA 1 Un gráfico de barras u otro gráfico de puntuaciones de desempeño en orden de puntuación creciente puede
ayudar a los participantes a comparar su desempeño rápidamente con el de la mayoría de los demás participantes.
NOTA 2 En cláusula E.11 se proporciona un ejemplo de un gráfico de barras con puntuaciones z.
10.5 Gráfico de Youden
10.5.1 Cuando se han probado dos ítems de ensayo de aptitud similares en una ronda de un programa
de ensayo de aptitud, el gráfico de Youden proporciona un método gráfico muy informativo para estudiar
los resultados. Puede ser útil para demostrar la correlación (o independencia) de los resultados en
diferentes ítems de ensayos de aptitud y para orientar las investigaciones sobre las razones de las
señales de acción.
10.5.2 El gráfico se construye trazando los resultados de los participantes, o las puntuaciones z,
obtenidas en uno de los ítems de ensayo de aptitud contra los resultados de los participantes o las
puntuaciones z obtenidos en el otro ítem de ensayo de aptitud. Las líneas verticales y horizontales
generalmente se dibujan para crear cuatro cuadrantes de valores, para ayudar a la interpretación. Las
líneas se dibujan en los valores asignados o en las medianas para las dos distribuciones de resultados,
o se dibujan en 0 si se trazan puntuaciones z.
NOTA Para una interpretación adecuada de los gráficos de Youden, es importante que los dos ítems del ensayo
de aptitud tengan niveles similares (o idénticos) del mensurando; esto es para que la naturaleza de cualquier error de
medición sistemático sea la misma en esa área del intervalo de medición. Los gráficos de Youden pueden ser útiles para
niveles muy diferentes de un mensurando en presencia de un error sistemático coherente, pero pueden ser engañosos si
un error de calibración no es coherentemente positivo o negativo en todo el rango de niveles de mensurando.
NCh3800:2023
ISO 13528:2022
10.5.3 Cuando se construye un gráfico de Youden, la interpretación es la siguiente:
a) Inspeccionar la gráfica en busca de puntos que estén bien separados del resto de los datos. Si un
participante no está siguiendo el método de ensayo correctamente, de modo que sus resultados
estén sujetos a errores sistemáticos, se le otorgará un punto en los cuadrantes inferior izquierdo
o superior derecho. Los puntos alejados de los demás en los cuadrantes superior izquierdo e
inferior derecho representan participantes cuya repetibilidad es mayor que la de la mayoría de
los demás participantes, cuyos métodos de medición muestran una sensibilidad diferente a la
composición de los ítems de ensayo de aptitud o, a veces, participantes que han intercambiado
accidentalmente los ítems de ensayo de aptitud.
b) Inspeccionar el gráfico para ver si hay evidencia de una relación general entre los resultados de
los dos ítems del ensayo de aptitud (por ejemplo, si se encuentran aproximadamente a lo largo
de una línea inclinada). Si hay evidencia de una relación, entonces muestra que hay evidencia de
sesgo del participante que afecta a diferentes ítems del ensayo de aptitud de manera similar. Si
no existe una relación visual aparente entre los resultados (por ejemplo, los puntos se distribuyen

de manera aproximadamente uniforme en una región circular, generalmente con mayor densidad
hacia el centro), entonces los errores de medición para los dos ítems de ensayo de aptitud son en
gran medida independientes. Esto se puede verificar con un estadístico de correlación de rango,
si el examen visual no es concluyente.
c) Inspeccionar la parcela en busca de grupos cercanos de participantes, ya sea a lo largo de las

diagonales o en cualquier otro lugar. Es probable que los grupos claros indiquen diferencias entre
diferentes métodos.
NOTA 1 En estudios en los que todos los participantes usan el mismo método de medición, o los gráficos de resultados
son de un solo método de medición, si los resultados se encuentran a lo largo de una línea, esto puede ser evidencia
de que el método de medición no se ha especificado adecuadamente. La investigación del método de ensayo puede
entonces permitir mejorar la reproducibilidad del método en general.
NOTA 2 En cláusula E.12 se proporciona un ejemplo de gráfico de Youden.
NOTA 3 En Referencia [36] se proporciona un método general para construir elipses de confianza que se puede utilizar
para ayudar a la interpretación de un gráfico de Youden. Los estimadores resistentes a valores atípicos del coeficiente
de correlación y la covarianza para elipses de confianza en presencia de valores atípicos se analizan y comparan en
Referencia [40].
10.6 Gráficas de desviaciones estándar de repetibilidad
10.6.1 Cuando los participantes realizan mediciones replicadas en una ronda de un programa de
ensayo de aptitud, los resultados pueden usarse para producir una gráfica para identificar a cualquier
participante cuyo promedio y desviación estándar sean inusuales.
10.6.2 El gráfico se construye trazando la desviación estándar si dentro de los participantes para cada
participante contra el promedio xi correspondiente para el participante. Alternativamente, se puede
usar el rango de resultados replicados en lugar de la desviación estándar. Dejar
x* = el promedio robusto de x1, x2, ..., xp, calculado por el Algoritmo A
w* = el promedio combinado robusto de s1, s2, ..., sp, calculado por el Algoritmo S


NCh3800:2023
ISO 13528:2022
y suponga que los datos se distribuyen normalmente. Bajo la hipótesis nula de que no hay diferencia
entre los participantes en los valores poblacionales de las medias de los participantes o de las
desviaciones estándar dentro de los participantes, el estadístico
2
xi − x ∗⎞
2
⎛ ⎛ ⎛ si ⎞ ⎞ (23)
⎜⎝ m + ⎜ 2 (m − 1) ln ⎜ ⎟ ⎟
w ∗ ⎟⎠ ⎝ ⎝w ∗ ⎠ ⎠
tiene aproximadamente la distribución χ2 con 2 grados de libertad. Por lo tanto, se puede dibujar en el
gráfico una región crítica con un nivel de significación de aproximadamente el 1% trazando
⎧ x − x ∗ ⎞ ⎫⎪
⎛
2 (24)
⎪ 1
s = w ∗ exp ⎨± χ22;0,99 − ⎜ m ⎬
⎪⎩ 2 (m − 1) ⎝ w ∗ ⎟⎠ ⎪
⎭
en el eje de desviación estándar contra x en el eje promedio para
χ22;0,99 χ22;0,99 (25)

x = x∗ −w∗ a x∗ +w∗
m m
NOTA Este procedimiento se basa en la técnica del círculo introducida por van Nuland[36]. El método descrito
utilizó una aproximación Normal simple para la distribución de la desviación estándar que puede dar una región crítica
que contiene desviaciones estándar negativas. El método dado aquí usa una aproximación para la distribución de la
desviación estándar que evita este problema, pero la región crítica ya no es un círculo como en el original. Además, se
utilizan valores robustos para el punto central en lugar de promedios simples como en el método original.
10.6.3 La gráfica puede indicar participantes con un sesgo inusualmente grande, dada su repetibilidad.
Si hay una gran cantidad de repeticiones, esta técnica también puede identificar a los participantes
con una repetibilidad excepcionalmente pequeña. Sin embargo, debido a que generalmente hay un
pequeño número de réplicas, las interpretaciones son difíciles.
NOTA En cláusula E.13 se proporciona un ejemplo de un gráfico de desviaciones estándar de repetibilidad.
10.7 Muestras divididas
10.7.1 Las muestras divididas se utilizan cuando es necesario realizar una comparación detallada
de dos participantes, o cuando no se dispone de ensayos de aptitud y se necesita alguna verificación
externa. Se obtienen muestras de varios materiales, que representan una amplia gama de niveles de
la propiedad de interés, cada muestra se divide en dos partes y cada laboratorio obtiene cierto número
(al menos dos) de determinaciones replicadas en parte de cada muestra.
En ocasiones, pueden estar involucrados más de dos participantes, en cuyo caso uno debería ser
tratado como referencia y los demás deberían ser comparados con él utilizando las técnicas aquí
descritas.
NOTA 1 Este tipo de estudio es común, pero a menudo se denomina de manera diferente, como “muestra pareada” o
“comparaciones bilaterales”.
NOTA 2 Este diseño de muestra dividida no debe confundirse con el diseño de “nivel dividido” utilizado en ISO 5725,
que involucra dos ítems de ensayo con niveles ligeramente diferentes proporcionados a todos los participantes.

NCh3800:2023
ISO 13528:2022
10.7.2 Los datos de un diseño de muestra dividida se pueden usar para producir gráficos que
muestren la variación entre las mediciones replicadas para los dos participantes y las diferencias
entre sus resultados promedio para cada ítem de ensayo de aptitud. Los gráficos bivariados que
usan el rango completo de concentraciones pueden tener una escala que dificulta la identificación
de diferencias importantes entre los participantes, por lo que los gráficos de las diferencias o las
diferencias porcentuales entre los resultados de los dos participantes pueden ser más útiles. El análisis
posterior dependerá de las deducciones hechas a partir de estos gráficos.
10.8 Métodos gráficos para combinar puntuaciones de desempeño en varias rondas de

un programa de ensayo de aptitud
10.8.1 Cuando las puntuaciones de desempeño estandarizados deben combinarse en varias rondas
de un programa de ensayos de aptitud, el proveedor de ensayos de aptitud puede considerar preparar
gráficos, como se describe en 10.8.2 o 10.8.3. El uso de estos gráficos, en los que se combinan las
puntuaciones de desempeño de varias rondas de un programa de ensayo de aptitud, puede permitir
identificar tendencias y otras características de los resultados que no son evidentes cuando se

examinan las puntuaciones de desempeño de cada ronda por separado.
NOTA Con el uso de “puntuaciones de ejecución” o “puntuaciones acumulativos”, en los que las puntuaciones
de desempeño obtenidos por un participante se combinan en varias rondas de un programa de ensayo de aptitud, la
visualización gráfica de las puntuaciones de desempeño puede ayudar a la interpretación. El participante puede tener una
falla que se presente con el ítem de ensayo de aptitud utilizado en una ronda pero no en las otras; una puntuación corriente
podría ocultar esta falta. Sin embargo, en algunas circunstancias (por ejemplo, con rondas frecuentes), el “suavizado” de
puntuaciones atípicas ocasionales puede ser útil para demostrar el desempeño subyacente más claramente.
10.8.2 La carta de control de Shewhart es un método efectivo para identificar problemas que causan
valores erráticos grandes de puntuaciones z. Ver ISO 7870-2[6] para obtener consejos sobre cómo
trazar las cartas de Shewhart y las reglas para los límites de acción.
10.8.2.1 Para preparar este gráfico, las puntuaciones estandarizadas, como las puntuaciones z o las
puntuaciones PA, para un participante se trazan como puntos individuales, con límites de acción y
advertencia establecidos de acuerdo con el diseño del programa de ensayos de aptitud. Cuando se
miden varias características en cada ronda de un programa de ensayo de aptitud, las puntuaciones de
desempeño para diferentes características pueden trazarse en el mismo gráfico, pero los puntos para
las diferentes características deberían trazarse usando diferentes símbolos de trazado y/o diferentes
colores. Cuando se incluyen varios ítems de ensayo de aptitud en la misma ronda del programa de
ensayo de aptitud, las puntuaciones de desempeño se pueden graficar junto con múltiples puntos en
cada período de tiempo. También se pueden agregar a la gráfica líneas que unen las puntuaciones
medias en cada punto de tiempo.
10.8.2.2 Las reglas convencionales para interpretar la carta de control de Shewhart son que se da una
señal fuera de control cuando
a) un solo punto cae fuera de los límites de acción (± 3,0 para puntuaciones z, o 100% para PA);
b) dos de tres puntos sucesivos fuera de cualquiera de los límites de advertencia (± 2,0 para
puntuaciones z o 70% para PA);
c) seis resultados consecutivos, ya sean positivos o negativos.


NCh3800:2023
ISO 13528:2022
10.8.2.3 Cuando una carta de control de Shewhart da una señal fuera de control, el participante
debería investigar las posibles causas.
NOTA La desviación estándar para la evaluación de la aptitud σpt no suele ser la desviación estándar de las diferencias
(xi −xp), por lo que los niveles de probabilidad que suelen estar asociados con los límites de acción y advertencia de una
carta de control de Shewhart no siempre se aplican.
10.8.3 Cuando el nivel de una propiedad varía de una ronda de un programa de ensayo de aptitud
a otra, los gráficos de puntuaciones de desempeño estandarizados, como z y PA, contra el valor
asignado mostrarán si el sesgo del participante cambia con el nivel. Cuando se incluye más de un
ítem de ensayo de aptitud en la misma ronda del programa de ensayo de aptitud, las puntuaciones de
desempeño se pueden trazar de forma independiente.
NOTA 1 Puede ser útil tener un símbolo de trazado diferente o un color diferente para los resultados de la ronda actual
del programa de ensayo de aptitud, para distinguir los puntos de las rondas anteriores.
NOTA 2 En cláusula E.14 se proporciona un ejemplo de un gráfico de este tipo, utilizando puntuaciones PA. Esta

gráfica podría usar fácilmente puntuaciones z, con solo un cambio en la escala vertical.
11 Diseño y análisis de programas de ensayos de aptitud cualitativos (incluyendo

propiedades nominales y ordinales)
11.1 Tipos de datos cualitativos
Se realiza una gran cantidad de ensayos de aptitud para propiedades que se miden o identifican en
escalas cualitativas. Esto incluye lo siguiente:
— Esquemas de ensayos de aptitud que requieren informes en una escala categórica (a veces
llamada “nominal”), donde el valor de la propiedad no tiene magnitud (como un tipo de sustancia
u organismo);
— Esquemas de ensayos de aptitud para la presencia o ausencia de una propiedad, ya sea

determinada por criterios subjetivos o por la magnitud de una señal de un procedimiento de
medición. Esto puede considerarse como un caso especial de una escala categórica u ordinal,
con solo dos valores (también llamada ‘dicotómica’ o binaria);
— Esquemas de ensayos de aptitud que requieren resultados informados en una escala ordinal,
que puede ordenarse de acuerdo con la magnitud pero para los cuales no existen relaciones
aritméticas entre los diferentes resultados. Por ejemplo, “alto, medio y bajo” forman una escala
ordinal.
Dichos programas de ensayo de aptitud requieren una consideración especial para las etapas de
diseño, asignación de valor y evaluación del desempeño (puntuación) porque
— los valores asignados se basan muy a menudo en la opinión de expertos; y
— el tratamiento estadístico diseñado para datos de conteo y valores continuos no es aplicable a

datos cualitativos. Por ejemplo, no tiene sentido tomar las medias y las desviaciones estándar de
los resultados de la escala ordinal, incluso cuando se pueden colocar en un orden de clasificación.

NCh3800:2023
ISO 13528:2022
En consecuencia, las siguientes subcláusulas proporcionan orientación sobre el diseño, la asignación

de valor y la evaluación del desempeño para los programas de ensayos de aptitud cualitativas.
NOTA La orientación para datos ordinales no se aplica a los resultados de medición que se basan en una escala
cuantitativa con indicaciones discontinuas (como diluciones o títulos); ver 5.2.2.
11.2 Diseño estadístico
11.2.1 Para programas de ensayos de aptitud en los que la opinión de expertos es esencial para
la asignación de valor o para la evaluación de los informes de los participantes, normalmente será
necesario reunir un panel de expertos debidamente calificados y proporcionar tiempo para el debate
con el fin de lograr un consenso sobre los resultados apropiados asignación. Cuando sea necesario
depender de expertos individuales para la puntuación o la asignación de valores, el proveedor de
ensayos de aptitud también debería proporcionar la evaluación y el control de la coherencia de la
opinión entre diferentes expertos.

EJEMPLO En un programa de ensayo de aptitud clínica que se basa en la microscopía para el diagnóstico, se utiliza la
opinión de expertos para evaluar los portaobjetos de microscopio proporcionados a los participantes y proporcionar un
diagnóstico clínico apropiado para los ítems del ensayo de aptitud. El proveedor de ensayos de aptitud puede optar por
hacer circular los ítems de ensayo de aptitud “a ciegas” entre diferentes miembros del panel de expertos para asegurar la
consistencia del diagnóstico, o realizar ejercicios periódicos para evaluar el acuerdo entre el panel.
11.2.2 Para los programas de ensayos de aptitud que reportan resultados categóricos u ordinales
simples, de un solo valor, el proveedor de ensayos de aptitud debería considerar
— proporcionar dos o más ítems de ensayo de aptitud por ronda; o
— solicitar los resultados de un número de observaciones replicadas sobre cada ítem de ensayo de
aptitud, con el número de réplicas especificado de antemano.
Cualquiera de estas estrategias permite contar los resultados de cada participante que se pueden
usar para revisar los datos o para calificar. La provisión de dos o más ítems de ensayo de aptitud
puede proporcionar información adicional sobre la naturaleza de los errores y también permitir una
calificación más sofisticada del desempeño del ensayo de aptitud.
EJEMPLO 1 En un programa de ensayo de aptitud destinado a informar la presencia o ausencia de un contaminante,

la provisión de ítems de ensayo de aptitud que contienen un rango de niveles del contaminante permite al proveedor de
ensayos de aptitud examinar el número de detecciones exitosas en cada nivel como una función del nivel de contaminante
presente. Esto se puede utilizar, por ejemplo, para proporcionar información a los participantes sobre la capacidad de
detección de su método de ensayo elegido, o para obtener una probabilidad promedio de detección que, a su vez,
permita asignar puntuaciones de desempeño a los participantes sobre la base de probabilidades estimadas de patrones
particulares de respuesta.
EJEMPLO 2 Los ensayos de aptitud en las comparaciones forenses a menudo requieren que los ítems de ensayo
de aptitud coincidan en cuanto a si provienen de la misma fuente o de fuentes diferentes (por ejemplo, huellas dactilares,
ADN, casquillos de balas, huellas, etc.). En muchos casos, “indeterminado” es una respuesta permitida. Un programa de
ensayo de aptitud puede incluir múltiples ítems de ensayo de aptitud de diferentes fuentes, y se les pide a los participantes
que indiquen cuáles son de “misma fuente”, “fuente diferente” o “indeterminado” para cada par. Esto permite puntuaciones
objetivas de número (o %) correcto o incorrecto, o número (%) de coincidencias correctas o rechazos correctos. Los
criterios de desempeño pueden entonces determinarse según la idoneidad para el uso o el grado de dificultad del desafío.


NCh3800:2023
ISO 13528:2022
11.2.3 La homogeneidad debería demostrarse con la revisión de una muestra apropiada de ítems
de ensayo de aptitud, todos los cuales deberían demostrar el valor de propiedad esperado. Para
algunas propiedades cualitativas, por ejemplo presencia o ausencia, puede ser posible verificar la
homogeneidad con mediciones cuantitativas; por ejemplo, un recuento microbiológico o un espectro
de absorbancia por encima de un umbral. En estas situaciones, puede ser apropiada una prueba
convencional de homogeneidad, o una demostración de que todos los resultados están por encima o
por debajo de un valor de corte.
11.3 Valores asignados para programas de ensayos de aptitud cualitativas
11.3.1 Se pueden asignar valores a los ítems de ensayo de aptitud:
a) por juicio de expertos;
b) mediante el uso de materiales de referencia como ítems de ensayo de aptitud;

c) a partir del conocimiento del origen o la preparación de los ítems del ensayo de aptitud;
d) usar la moda o la mediana de los resultados de los participantes (la mediana es apropiada solo
para valores ordinales).
También se puede utilizar cualquier otro método de asignación de valor que pueda demostrar que
proporciona resultados fiables. Los siguientes párrafos consideran cada una de las estrategias
anteriores.
NOTA Por lo general, no es apropiado proporcionar información cuantitativa sobre la incertidumbre del valor asignado
en los programas de ensayos de aptitud cualitativos. No obstante, cada una de las subcláusulas 11.3.2. a 11.3.5 requiere
la provisión de información básica relacionada con la confianza en el valor asignado para que los participantes puedan
juzgar si un resultado deficiente podría atribuirse razonablemente a un error en la asignación del valor.
11.3.2 Los valores asignados por la opinión de expertos normalmente deberían basarse en el
consenso de un panel de expertos adecuadamente calificados. Cualquier desacuerdo significativo
entre el panel debería registrarse en el informe del programa de ensayos de aptitud para la ronda. Si el
panel no puede llegar a un consenso para un ítem de ensayo de aptitud en particular, el proveedor de
ensayos de aptitud puede considerar un método alternativo de asignación de valor de los enumerados
en 11.3.1. Si eso no es apropiado, el ítem de ensayo de aptitud no debería usarse para la evaluación
del desempeño de los participantes.
NOTA En algunos casos es posible que un solo experto determine el valor asignado.
11.3.3 Cuando se proporcione un material de referencia a los participantes como un ítem de ensayo
de aptitud, el valor de referencia asociado, o el valor certificado, normalmente debería usarse como
el valor asignado para la ronda del programa de ensayos de aptitud. Cualquier información resumida
proporcionada con el material de referencia que se relacione con la confianza en el valor asignado
debería estar disponible para los participantes después de la ronda.
NOTA En 7.4.1 se enumeran las limitaciones de este enfoque.

NCh3800:2023
ISO 13528:2022
11.3.4 Cuando los ítems del ensayo de aptitud se preparen a partir de una fuente conocida, el valor
asignado puede determinarse con base en el origen del material. El proveedor de ensayos de aptitud
debería conservar registros del origen, transporte y manipulación de los materiales utilizados. Se debe
tener el debido cuidado para evitar la contaminación que podría resultar en resultados incorrectos de
los participantes. La evidencia del origen y/o los detalles de la preparación deberían estar disponibles
para los participantes después de la ronda del programa de ensayos de aptitud, ya sea a pedido o
como parte del informe de esa ronda.
EJEMPLO Los artículos de ensayo de aptitud de vino que circulan para un programa de ensayo de aptitud de autenticidad
podrían obtenerse directamente de un productor adecuado en la región de origen designada, o a través de un proveedor
comercial capaz de garantizar la autenticidad.
11.3.4.1 Se recomiendan ensayos o mediciones de confirmación cuando sea posible, especialmente

cuando la contaminación pueda comprometer el uso como ítem de ensayo de aptitud. Por ejemplo, un
ítem de ensayo de aptitud identificado como un ejemplar de una sola especie microbiana, vegetal o
animal normalmente debería ser probado para responder a pruebas para otras especies relevantes.
Tales pruebas deberían ser lo más sensibles posible para garantizar que las especies contaminantes

estén ausentes o que se cuantifique el nivel de contaminación.
11.3.4.2 El proveedor de ensayos de aptitud debería proporcionar información sobre cualquier

contaminación detectada o dudas sobre el origen que puedan comprometer el uso del ítem de ensayo
de aptitud.
NOTA Los detalles adicionales sobre la caracterización de tales ítems de ensayo de aptitud están más allá del
alcance de esta norma.
11.3.5 La moda (la observación más común) se puede usar como el valor asignado para los resultados
en una escala categórica u ordinal, mientras que la mediana se puede usar como el valor asignado
para los resultados en una escala ordinal. Cuando se utilicen estos estadísticos, el informe de la ronda
del programa de ensayos de aptitud debería incluir una declaración de la proporción de los resultados
utilizados en la asignación de valor que coincidieron con el valor asignado. Nunca es apropiado calcular
medias o desviaciones estándar para resultados de ensayos de aptitud para propiedades cualitativas,
incluidos los valores ordinales. Esto se debe a que no existe una relación aritmética entre los diferentes
valores de cada escala.
11.3.6 Cuando los valores asignados se basan en mediciones (por ejemplo, presencia o ausencia),
el valor asignado generalmente puede determinarse definitivamente; es decir, con baja incertidumbre.
Los cálculos estadísticos de incertidumbre pueden ser apropiados para niveles de mensurando en
niveles “indeterminados” o “equívocos”.
11.4 Evaluación del desempeño y puntuación para programas de ensayos de aptitud

cualitativas
11.4.1 La evaluación del desempeño de los participantes en un programa de ensayos de aptitud

cualitativo depende en parte de la naturaleza del informe requerido. En algunos programas de ensayos
de aptitud, donde se requiere una cantidad significativa de evaluación de los participantes y las
conclusiones requieren una consideración y redacción cuidadosas, los informes de los participantes
pueden pasarse a expertos para su evaluación y pueden recibir una calificación general. En el otro
extremo, los participantes pueden ser juzgados únicamente por si su resultado coincide exactamente
con el valor asignado para el ítem de ensayo de aptitud pertinente. En consecuencia, los siguientes
párrafos brindan orientación sobre la evaluación del desempeño y la puntuación para una variedad de
circunstancias.


NCh3800:2023
ISO 13528:2022
11.4.2 La evaluación de expertos de los informes de los participantes requiere que uno o más expertos
individuales revisen cada informe de los participantes para cada ítem de ensayo de aptitud y asigne
una marca o puntuación de desempeño. En tal programa de ensayos de aptitud, el proveedor de
ensayos de aptitud debería asegurarse de que:
— el participante en particular no es conocido por el experto. En particular, el informe entregado

a los expertos no debería incluir ninguna información que pueda identificar razonablemente al
participante;
— la revisión, la calificación y la evaluación del desempeño siguen un conjunto de criterios previamente

acordados que son tan objetivos como sea razonablemente posible;
— se cumplen las disposiciones de 11.3.2 con respecto a la coherencia entre expertos;
— siempre que sea posible, se prevé la posibilidad de que los participantes apelen contra la opinión
de un experto en particular y/o la revisión secundaria de opiniones cercanas a cualquier umbral

de desempeño importante.
11.4.3 Se pueden utilizar dos sistemas para puntuar un solo resultado cualitativo informado en función
de un valor asignado:
a) Cada resultado se marca como aceptable (o se califica como un éxito) si coincide exactamente
con el valor asignado y se marca como inaceptable, o se le otorga una puntuación de desempeño
adversa, de lo contrario.
EJEMPLO En un programa de ensayo de aptitud para determinar la presencia o ausencia de un contaminante, los
resultados correctos se califican como 1 y los incorrectos como 0.
b) Los resultados que coinciden exactamente con el valor asignado se marcan como aceptables
y se les otorga la puntuación correspondiente; los resultados que no coinciden exactamente
con el valor asignado reciben una puntuación que depende de la naturaleza de la discrepancia.
Dichos diseños de puntuación deberían asignar puntuaciones más bajas a un mejor desempeño,
para ser coherentes con otros tipos de puntuaciones de desempeño (por ejemplo, puntuación z,
puntuación PA, ζ y En).
EJEMPLO 1 En un programa de ensayos de aptitud en patología clínica, un proveedor de ensayos de aptitud asigna
una puntuación de “0” para una identificación exactamente correcta de una especie microbiológica, “1” punto para un
resultado que es incorrecto pero que no cambiaría el tratamiento clínico (por ejemplo, identificación como una especie
microbiológica diferente pero relacionada que requiere un tratamiento similar), y 3 puntos por una identificación que es
incorrecta y conduciría a un tratamiento incorrecto de un paciente. Este esquema de puntuación generalmente requerirá
el juicio de expertos sobre la naturaleza del desajuste, tal vez obtenido antes de la puntuación.
EJEMPLO 2 En un programa de ensayo de aptitud para el cual son posibles seis respuestas posibles clasificadas
en una escala ordinal, un resultado que coincida con el valor asignado recibe una puntuación de 0 y la puntuación se
incrementa en 2 por cada diferencia en la clasificación hasta que la puntuación aumenta a un máximo de 6 (por lo que
un resultado adyacente al valor asignado atraería una puntuación de 2).
Se deberían proporcionar a los participantes, puntuaciones de desempeño individuales para cada

ítem de ensayo de aptitud. Cuando se realicen observaciones replicadas, se puede proporcionar un
resumen de las puntuaciones de desempeño para cada resultado.

NCh3800:2023
ISO 13528:2022
11.4.4 Cuando se notifiquen múltiples réplicas para cada ítem de ensayo de aptitud o cuando se
proporcionen múltiples ítems de ensayo de aptitud a cada participante, el proveedor de ensayos de
aptitud puede calcular y utilizar puntuaciones de desempeño combinados o resúmenes de puntuaciones
en la evaluación del desempeño. Las puntuaciones o resúmenes de desempeño combinados se
pueden calcular como, por ejemplo:
— la suma simple de las puntuaciones de desempeño en todos los ítems del ensayo de aptitud;
— el recuento de cada nivel de desempeño asignado;
— la proporción de resultados correctos; y
— una métrica de distancia basada en las diferencias entre los resultados y los valores asignados.
EJEMPLO Una medida de diferencia muy general que a veces se usa para datos cualitativos es el coeficiente de Gower[20].
Esto puede combinar variables cuantitativas y cualitativas basadas en una combinación de puntuaciones de similitud.
Para datos categóricos o binarios, el índice asigna una puntuación de 1 para categorías que coinciden exactamente y 0

en caso contrario; para las escalas ordinales, asigna una puntuación igual a 1 menos la diferencia de rango dividida por el
número de rangos disponibles, y para los datos de escala de intervalo o razón, asigna una puntuación igual a 1 menos la
diferencia absoluta dividida por el rango observado de todos los valores. Estas puntuaciones, que son todos necesariamente
de 0 a 1, se suman y la suma se divide por el número de variables utilizadas. También se puede utilizar una variante
ponderada.
Las puntuaciones de desempeño combinados pueden asociarse con una evaluación de desempeño
resumida. Por ejemplo, una proporción particular (generalmente alta) de puntuaciones correctos puede
considerarse un desempeño ‘aceptable’, si es coherente con los objetivos del programa de ensayos
de aptitud.
11.4.5 Los métodos gráficos se pueden utilizar para proporcionar información de desempeño a los
participantes o para proporcionar información resumida en un informe para una ronda de programa de
ensayo de aptitud.
NOTA En cláusula E.15 se proporciona un ejemplo del análisis de datos ordinales.


NCh3800:2023
ISO 13528:2022
Anexo A
(normativo)
Símbolos
di Diferencia entre un valor de medición para un ítem de ensayo de aptitud y un valor asignado para un MRC
d Diferencia media entre los valores de medición y el valor asignado para un MRC
D Diferencia de participantes respecto del valor asignado (x - xpt)
D% Diferencia de participantes respecto del valor asignado expresado en porcentaje de xpt
δE Criterio de error máximo permisible para diferencias

δhom Error debido a la diferencia entre los ítems del ensayo de aptitud
δstrab Error debido a la inestabilidad durante el período de ensayo de aptitud
δtrans Error por inestabilidad en condiciones de transporte
En Puntuación de “Error, normalizado” que incluye incertidumbres para el resultado del participante y el valor
asignado
g Número de ítems de ensayo de aptitud probados en una verificación de homogeneidad
m Número de mediciones replicadas que debe realizar cada participante en un ítem de ensayo de aptitud
p Número de participantes que toman parte en una ronda de un programa de ensayos de aptitud
PA La proporción de error permitido (D/δE), se puede expresar como un porcentaje
sr Estimación de la desviación estándar de la repetibilidad
sR Estimación de la desviación estándar de la reproducibilidad
ss Estimación de la desviación estándar entre muestras
s* Estimación robusta de la desviación estándar del participante

sx Desviación estándar de los promedios de muestra
sw Desviación estándar dentro de la muestra o dentro del laboratorio
σk Desviación estándar del ancho de banda utilizada para gráficos de densidad del núcleo
σL Desviación estándar interlaboratorio (o participantes)
σpt Desviación estándar para la evaluación de la aptitud
σr Desviación estándar de repetibilidad
σR Desviación estándar de reproducibilidad
udiff Incertidumbre estándar de la diferencia entre un valor de referencia independiente o un promedio robusto y un
valor asignado
Udiff Incertidumbre expandida de la diferencia entre un valor de referencia independiente o un promedio robusto y un
valor asignado
uhom Incertidumbre estándar debido a las diferencias entre los ítems de ensayo de aptitud (“falta de homogeneidad”)

NCh3800:2023
ISO 13528:2022
umáx. Límite superior para la incertidumbre estándar utilizada para evaluar la incertidumbre de medición informada por
los participantes
umín. Límite inferior para la incertidumbre estándar utilizada para evaluar la incertidumbre de medición informada por
los participantes
ustab Incertidumbre estándar debido a la inestabilidad durante el período de ensayo de aptitud
utrans Incertidumbre estándar debido a la inestabilidad en condiciones de transporte
u(xi) Incertidumbre estándar de un resultado del participante i
u(xpt) Incertidumbre estándar del valor asignado
u(xref) Incertidumbre estándar de un valor de referencia
U(xi) Incertidumbre expandida de un resultado del participante i
U(xpt) Incertidumbre expandida del valor asignado
U(xref) Incertidumbre expandida de un valor de referencia

wt Rango entre porciones de ensayo
w* Estimación robusta de la repetibilidad de los participantes
x Resultado de la medición (genérico)
xchar Valor de la propiedad obtenido de la determinación del valor asignado
xMRC Valor certificado para una propiedad en un Material de Referencia Certificado
xdiff diferencia entre un valor de referencia independiente o un promedio robusto y un valor asignado
xi Resultado de la medición del participante i
xpt Valor asignado
xref Valor de referencia para un propósito declarado
x* Estimación robusta de la media de los participantes
x Promedio aritmético de un conjunto de resultados
z Puntuación utilizada para la evaluación de la aptitud
z’ Puntuación z modificada que incluye la incertidumbre del valor asignado
ζ Puntuación zeta: puntuación z modificada que incluye incertidumbres para el resultado del participante y el valor
asignado
NOTA Las referencias al cálculo de parámetros como la media, la desviación estándar, etc. en esta norma se
entiende que se refieren a estimaciones muestrales de los parámetros de población correspondientes. Sin embargo, la
calificación “estimación de” o “estimado” se ha omitido por brevedad.


NCh3800:2023
ISO 13528:2022
Anexo B
(informativo)
Homogeneidad y estabilidad de los ítems de ensayo de aptitud
B.1 Procedimiento general para un control de homogeneidad

B.1.1 Para realizar una evaluación de homogeneidad para una preparación a granel de ítems de
ensayo de aptitud, siga el procedimiento que se indica a continuación:
Elegir una propiedad (o propiedades) o mensurandos para evaluar con la verificación de homogeneidad.

Elegir un laboratorio para realizar el control de homogeneidad y un método de medición a utilizar. El

método debería tener una desviación estándar de repetibilidad suficientemente pequeña (sr) para
que se pueda detectar cualquier falta de homogeneidad significativa. La relación entre la desviación
estándar de la repetibilidad del método y la desviación estándar de la evaluación de la aptitud debería
ser inferior a 0,5, como se recomienda en el Protocolo Armonizado de la IUPAC (o 1/6 de δE). Se
reconoce que esto no siempre es posible, por lo que en ese caso el proveedor de ensayos de aptitud
debería utilizar más réplicas.
Preparar y empaquetar los ítems de ensayo de aptitud para una ronda del programa de ensayo de
aptitud, asegurándose de que haya suficientes ítems de ensayo de aptitud para los participantes en el
programa de ensayo de aptitud y para la verificación de homogeneidad.
Seleccionar un número g de ítems de ensayo de aptitud en su forma empaquetada final utilizando

un proceso de selección aleatorio adecuado, donde g ≥ 10. El número de ítems de ensayo de aptitud
incluidos en el control de homogeneidad puede reducirse si se dispone de datos adecuados de
controles de homogeneidad anteriores en ítems de ensayo de aptitud similares preparados por los
mismos procedimientos.
Preparar m ≥ 2 porciones de ensayo de cada ítem de ensayo de aptitud utilizando técnicas apropiadas
para el ítem de ensayo de aptitud para minimizar las diferencias entre porciones de ensayo.
Tomando las porciones de ensayo g × m en orden aleatorio, obtener un resultado de medición en cada
una, completando toda la serie de mediciones en condiciones de repetibilidad.
Calcular el promedio general x , la desviación estándar dentro de la muestra sw y la desviación estándar

entre muestras ss, como se muestra en cláusula B.3.
B.1.2 Cuando no es posible realizar mediciones replicadas, por ejemplo, con pruebas destructivas,
la desviación estándar de los resultados puede usarse como ss. En esta situación, es importante tener
un método con una desviación estándar de repetibilidad suficientemente baja sr.

NCh3800:2023
ISO 13528:2022
B.2 Criterios de evaluación para un control de homogeneidad

B.2.1 Se deberían usar las siguientes tres verificaciones para asegurar que los datos del test de
homogeneidad sean válidos para el análisis:
a) Examinar los resultados de cada porción de ensayo en orden de medición para buscar una
tendencia (o desviación) en el análisis; si hay una tendencia aparente, tome la acción correctiva
apropiada con respecto al método de medición, o tenga cuidado en la interpretación de los
resultados.
b) Examinar los resultados de los promedios de ítems de ensayo de aptitud por orden de producción;
si hay una tendencia seria que hace que el ítem de ensayo de aptitud exceda el criterio en B.2.2
o de otra manera impide el uso del ítem de ensayo de aptitud, entonces.
1) asignar valores individuales a cada ítem de ensayo de aptitud; o
2) descartar un subconjunto de ítems de ensayo de aptitud significativamente afectados y volver

a probar el resto para una homogeneidad suficiente; o
3) si la tendencia afecta a todos los ítems del ensayo de aptitud, seguir las disposiciones
de B.2.4.
c) Comparar la diferencia entre repeticiones (o rango, si hay más de 2 repeticiones) y, si es necesario,

probar una diferencia estadísticamente significativa entre repeticiones, utilizando la prueba de
Cochran (ver ISO 5725-2). Si la diferencia entre las réplicas es grande para cualquier par, revise
una explicación técnica de la diferencia y, si corresponde, elimine el grupo atípico del análisis o, si
m > 2 y la varianza alta es causada por un único atípico, elimine el punto atípico.
Si m > 2 y se elimina una sola observación, el cálculo posterior de sw y ss debe tener en cuenta
el desequilibrio resultante.
B.2.2 Compare la desviación estándar entre muestras ss con la desviación estándar para la
evaluación de la aptitud σpt. Los ítems del ensayo de aptitud pueden considerarse adecuadamente
homogéneos si:
ss ≤ 0,3 σpt (B.1)
NOTA 1 La justificación del factor de 0,3 es que cuando se cumple este criterio, la desviación estándar entre muestras
contribuye con menos del 10% de la varianza para la evaluación del desempeño, por lo que es poco probable que la
evaluación del desempeño se vea afectada.
NOTA 2 De manera equivalente, ss se puede comparar con δE:
ss ≤ 0,1 δpt (B.2)
B.2.3 Puede ser útil expandir el criterio para permitir el error de muestreo real y la repetibilidad en
la verificación de homogeneidad. En estos casos, siga los siguientes pasos:
a) Calcular σ 2allow = (0, 3σpt )2
b) Calcular c = F1 σ 2allow + F2s w2 , donde
sw = desviación estándar dentro de la muestra calculada en cláusula B.3 ;
F1 y F2 = obtenidos de tablas estadísticas estándar, reproducidas en Tabla B.1, para el número

de ítems de ensayo de aptitud seleccionados y con cada ítem ensayado en duplicado[32].

NCh3800:2023
ISO 13528:2022
Tabla B.1 – Factores F1 y F2 para usar en el test de homogeneidad suficiente
g 20 19 18 17 16 15 14 13 12 11 10 9 8 7
F1 1,59 1,60 1,62 1,64 1,67 1,69 1,72 1,75 1,79 1,83 1,88 1,94 2,01 2,10
F2 0.57 0.59 0,62 0,64 0,68 0.71 0.75 0,80 0,86 0.93 1,01 1,11 1,25 1,43
Donde m > 2, F2 en B.2.3 b) y la Tabla B.1 se debe reemplazar con Fm = (Fg – 1, g(m-1), 0,95 – 1)/m
donde Fg – 1, g(m – 1), 0,95 es el valor excedido con probabilidad 0,05 por una variable aleatoria con
distribución F con g – 1 y g(m – 1) grados de libertad.
NOTA Las dos constantes en la Tabla B.1 se derivan de las tablas estadísticas estándar de la siguiente manera:
F1 = χ2 0,95(g – 1)/(g – 1) donde χ2 0,95(g – 1) es el valor excedido con probabilidad 0,05 por una variable aleatoria
chi-cuadrado con g – 1 grados de libertad; y
F2 = (F0,95 (g – 1; g) – 1)/2 donde F0,95(g – 1; g) es el valor excedido con probabilidad 0,05 por una variable aleatoria

con distribución F con g – 1 y g grados de libertad.
c) Si Sc > c entonces hay evidencia de que el lote de ítems de ensayo de aptitud no es suficientemente
homogéneo
B.2.4 Cuando σpt no se conoce de antemano, por ejemplo, cuando σpt es la desviación estándar
robusta de los resultados de los participantes, el proveedor de ensayos de aptitud debería elegir otros
criterios para determinar la homogeneidad suficiente. Dichos procedimientos podrían incluir:
a) verificar las diferencias estadísticamente significativas entre los ítems de ensayo de aptitud
utilizando, por ejemplo, la prueba F de Análisis de Varianza en α = 0,05;
b) usar información de rondas previas del programa de ensayos de aptitud para estimar σpt;
c) usar datos de un experimento de precisión (como una desviación estándar de reproducibilidad

como se describe en ISO 5725-2);
d) aceptar el riesgo de distribuir ítems de ensayo de aptitud que no sean lo suficientemente

homogéneos, y verificar el criterio después de que se haya calculado el consenso σpt.
B.2.5 Si no se cumplen los criterios de homogeneidad suficiente, el proveedor de ensayos de

aptitud debe considerar la adopción de una de las siguientes acciones.
a) Incluya la desviación estándar entre muestras en la desviación estándar para la evaluación de la

aptitud, calculando σ'pt como en la Ecuación (B.3). Tenga en cuenta que esto debe describirse
completamente a los participantes.
σpt
′ = σpt
2 + s2
s (B.3)
b) Incluir ss en la incertidumbre del valor asignado y usar z’ o δE’ para evaluar el desempeño
(ver 9.5).
c) Cuando σpt es la desviación estándar robusta de los resultados de los participantes, entonces la
falta de homogeneidad entre los ítems de ensayo de aptitud se incluye en σpt y, por lo tanto, el
criterio de aceptabilidad de la homogeneidad se puede relajar, con precaución.

NCh3800:2023
ISO 13528:2022
Si no se aplica ninguno de los puntos a) a c), deseche el ítem de ensayo de aptitud y repita la preparación
después de corregir la causa de la falta de homogeneidad.
B.3 Fórmulas para el control de homogeneidad

La estimación de la desviación estándar dentro de la muestra sw y la desviación estándar entre
muestras ss puede calcularse utilizando el análisis de varianza como se muestra a continuación.
El método que se muestra es para un número elegido g de ítems de ensayo de aptitud, medidos en
réplicas m veces.
Los datos de una verificación de homogeneidad están representados por xt,k.
donde
t = representa el ítem de ensayo de aptitud (t = 1,2…….., g)

k = representa la porción de ensayo (k = 1,2….., m)
Definir el promedio del ítem de ensayo de aptitud como:

1
∑
m
xt = x t ,k (B.4)
m k =1
y la estimación de la varianza entre porciones de ensayo como:

1 (B.5)
∑
m
st2 = ( x k − x t )2
(m − 1) k =1
Calcular el promedio general:

1
∑
g
x= xt (B.6)
g t =1
la estimación de la varianza de los promedios muestrales:
1
∑ (x ) (B.7)
g 2
s x2 = −x
(g − 1)
t
t =1
y la varianza dentro de la muestra:
1 (B.8)
∑t =1s
g
s w2 = t
2
g
Estimar la varianza combinada s s,w
2 de s y s
s w
1 ⎛ 1⎞ (B.9)
∑ (xt − x )
g 2
2 =
s s,w + ⎜ 1 − ⎟ s w2 = s s2 + s w2
( − 1)
g t =1 ⎝ m⎠


NCh3800:2023
ISO 13528:2022
Finalmente, estimar la varianza entre muestras como

1 1 2
∑ (xt − x )
g 2
s s2 = s s,w
2 − s2 = − sw (B.10)
( − 1)
w
g t =1 m
NOTA En el caso de que s s2 < 0, entonces es apropiado usar ss = 0.
Para un diseño común cuando m es 2, se pueden usar las siguientes ecuaciones:
Definir los promedios de la muestra como:
x t = ( x t ,1 + x t ,2 ) / 2 (B.11)
y los intervalos entre porciones de ensayo son:
wt = ⎮xt,1 – xt,2⎮ (B.12)

Calcular el promedio general:

1
∑
g
x= xt (B.13)
g t =1
Estimar la desviación estándar de los promedios muestrales:
∑ (x t − x ) (B.14)
g 2
sx = (g − 1)
t =1
y la desviación estándar dentro de la muestra:
∑
g
sw = w t2 (2g ) (B.15)
t =1
donde las sumas en las Ecuaciones B.13, B.14 y B.15 son sobre muestras (t = 1, 2, ..., g).
Finalmente, estimar la desviación estándar entre muestras como:
ss = max . (0, s x2 − sw2 2) (B.16)
NOTA 1 La estimación de la varianza entre muestras ss2 a menudo se vuelve negativa cuando ss es relativamente
menor que sw. Esto puede esperarse cuando los ítems del ensayo de aptitud son muy homogéneos. En este caso ss = 0.
NOTA 2 En lugar de usar rangos, se pueden usar desviaciones estándar entre las porciones de ensayo tales como.
st = w t 2
NOTA 3 En cláusula E.2 se proporciona un ejemplo.

NCh3800:2023
ISO 13528:2022
B.4 Procedimientos para comprobar la estabilidad
B.4.1 Consideraciones generales para comprobar la estabilidad
B.4.1.1 Estas cláusulas brindan orientación para cumplir con los requisitos de estabilidad de 6.1.
Las disposiciones de 6.1.3 con respecto a las propiedades a estudiar se aplican a cualquier control
experimental de la estabilidad durante la ronda del programa de ensayo de aptitud y de la estabilidad
durante el transporte.
B.4.1.2 Cuando exista una seguridad razonable a partir de estudios experimentales previos,
experiencia o conocimiento previo de que la inestabilidad es poco probable, las verificaciones
experimentales de estabilidad pueden limitarse a una verificación de cambios significativos en el
transcurso de la ronda del programa de ensayo de aptitud, llevada a cabo durante y después de la
ronda en sí. En otras circunstancias, los estudios de los efectos del transporte y la estabilidad durante
la duración típica de una ronda de ensayos de aptitud pueden tomar la forma de estudios planificados
antes de la circulación de los ítems del ensayo de aptitud, ya sea para cada ronda o durante los primeros

estudios de planificación y factibilidad para establecer transporte y condiciones de almacenaje. Los

proveedores de ensayos de aptitud también pueden buscar evidencia de inestabilidad al verificar los
resultados informados para una tendencia con la fecha de la medición.
B.4.1.3 Las siguientes consideraciones se aplican a las comprobaciones de estabilidad:
— Todas las propiedades que se utilizan en el programa de ensayos de aptitud deberían comprobarse
o verificarse de otro modo para determinar su estabilidad. Esto se puede lograr con experiencia
previa y justificación técnica basada en el conocimiento de la matriz (o artefacto) y el mensurando.
— Se deberían ensayar más de 2 ítems de ensayo de aptitud si la variabilidad entre los ítems de
ensayo de aptitud es grande; se deberían usar más ítems de ensayo de aptitud o más repeticiones
si la repetibilidad es sospechosa (por ejemplo, si sw o sr > 0,5 σpt).
NOTA La ISO Guide 35 proporciona estrategias para minimizar el efecto sobre los estudios de estabilidad de la
variación a largo plazo en el proceso de medición, como los estudios isócronos o el uso de materiales de referencia
estables.
B.4.2 Procedimiento para verificar la estabilidad durante el curso de una ronda de

programa de ensayo de aptitud
B.4.2.1 Un modelo conveniente para probar la estabilidad en los ensayos de aptitud es probar
una pequeña muestra de ítems de ensayo de aptitud al final de una ronda del programa de ensayo
de aptitud y compararlos con ítems de ensayo de aptitud probados antes de la ronda, para asegurar
que no cambio ocurrido durante el tiempo de la ronda. La verificación puede incluir una verificación
de cualquier efecto de las condiciones de transporte mediante la exposición adicional de los ítems
del ensayo de aptitud retenidos durante la duración del estudio a las condiciones que representan
las condiciones de transporte. Para los estudios destinados únicamente a comprobar los efectos del
transporte, la comparación se realiza entre ítems de ensayo de aptitud que se envían con ítems de
ensayo de aptitud que se conservan en condiciones controladas.
NOTA 1 Los proveedores de ensayos de aptitud pueden usar los resultados de los test de homogeneidad antes del
programa de ensayos de aptitud en lugar de seleccionar y medir un conjunto separado de ítems de ensayo de aptitud.
NOTA 2 Este modelo se aplica por igual a los programas de ensayo de aptitud en ensayo y calibración.


NCh3800:2023
ISO 13528:2022
B.4.2.2 Si un proveedor de ensayos de aptitud incluye ítems de ensayo de aptitud enviados en la

evaluación de estabilidad en B.4.2.1, entonces los efectos del transporte se incluyen en la evaluación
de estabilidad. Si los efectos del transporte se comprueban por separado, se debería utilizar el
procedimiento descrito en cláusula B.6.
B.4.2.3 Un procedimiento para una verificación de estabilidad básica utilizando mediciones antes y
después de una ronda del programa de ensayo de aptitud es el siguiente:
a) Seleccionar al azar un número 2 g de los ítems de ensayo de aptitud, donde g ≥ 2.
b) Seleccionar un único laboratorio utilizando un único método de medición con una precisión
intermedia suficientemente pequeña.
c) Medir g ítems de ensayo de aptitud antes de la fecha planificada de distribución de ítems de

ensayo de aptitud a los participantes. Las mediciones replicadas deberían realizarse en un orden
totalmente aleatorio.

d) Reservar los ítems restantes del ensayo de aptitud g en condiciones similares a las condiciones
de almacenamiento previstas en las instalaciones de los participantes.
e) Tan pronto como sea razonablemente posible después de la fecha de cierre para la devolución de
los resultados de los participantes, medir los g ítems restantes del ensayo de aptitud, utilizando
el mismo laboratorio, método de medición y número de repeticiones que en a) anterior, con todas
las repeticiones en orden aleatorio.
f) Calcular los promedios y 1 y y 2 de los resultados para los dos grupos (antes y después)
respectivamente.
B.4.2.4 Pueden utilizarse las siguientes variaciones del procedimiento de B.4.2.3:
a) El primer grupo de ítems de ensayo de aptitud g puede omitirse si otras mediciones en el conjunto
de ítems de ensayo de aptitud están disponibles del mismo laboratorio y método de ensayo.
Por ejemplo, se pueden utilizar los datos de un control de homogeneidad anterior.
b) Las condiciones que probablemente aceleren el cambio pueden utilizarse para proporcionar una
mayor seguridad de estabilidad.
c) El segundo conjunto de ítems de ensayo de aptitud puede someterse adicionalmente a las

condiciones esperadas en el envío, para incluir una prueba del efecto del envío.
d) Se podrá utilizar cualquier otro diseño y condiciones que, junto con el criterio de control de
estabilidad elegido, proporcionen igual o mayor seguridad de estabilidad.
NOTA Los procedimientos que usan observaciones a intervalos regulares entre el comienzo y el final de
una ronda de programa de ensayo de aptitud también se pueden usar y pueden ser ventajosos si la variación del
sistema de medición a lo largo del tiempo es lo suficientemente grande como para comprometer la evaluación descrita
en cláusula B.5.

NCh3800:2023
ISO 13528:2022
B.5 Criterio de evaluación para un control de estabilidad

B.5.1 Comparar la media general de las medidas obtenidas en la verificación previa a la distribución
con la media general de los resultados obtenidos en la verificación de estabilidad. Los ítems del ensayo
de aptitud pueden considerarse adecuadamente estables si:
y 1 − y 2 ≤ 0, 3 σpt o ≤ 0,1 δE (B.17)
B.5.2 Si es probable que la precisión intermedia del método de medición (o la incertidumbre de

medición del ítem) contribuyó a la incapacidad de cumplir el criterio, entonces se debería tomar una
de las siguientes opciones:
a) usar un estudio de estabilidad isócrono (ver ISO Guide 35);
b) aumentar la incertidumbre del valor asignado para tener en cuenta la posible inestabilidad;
c) ampliar el criterio de aceptación sumando la incertidumbre de la diferencia a σpt utilizando la

siguiente ecuación:
(B.18)
y 1 − y 2 ≤ 0, 3σ pt + 2 u 2 ( y 1 ) + u 2 ( y 2 )
NOTA 1 El factor de 2 en la Ecuación B.18 es un factor de cobertura para la incertidumbre expandida de la diferencia,
que proporciona aproximadamente un 95% de confianza, y el cálculo de la incertidumbre combinada ha asumido
intencionalmente que y 1 y y 2 son independientes.
NOTA 2 Se entiende que las incertidumbres u 2 ( y 1) y u 2 ( y 2 ) en la Ecuación (B.18) incluyen la variación del sistema
de medición durante el tiempo intermedio, así como la repetibilidad.
B.5.3 Si no se cumple el criterio de las Ecuaciones B.17 o B.18, se deberían considerar las
siguientes opciones:
— cuantificar el efecto de la inestabilidad y tenerlo en cuenta en la evaluación (por ejemplo, con

puntuaciones z’); o
— examinar los procedimientos de preparación y almacenamiento de ítems de ensayo de aptitud

para ver si es posible mejorarlos; o
— no evaluar el desempeño de los participantes.
B.5.4 El criterio en B.5.1 o B.5.2 puede ser reemplazado por una prueba estadística apropiada para
una diferencia entre los dos conjuntos de datos, siempre que la prueba estadística tenga debidamente
en cuenta la replicación y proporcione la seguridad de identificar una estabilidad al menos igual a esa
proporcionada por la Ecuación B.18.
NOTA Una prueba t para la diferencia significativa al nivel de confianza del 95%, utilizando los medios para
cada ítem de ensayo de aptitud, por lo general brindará una seguridad similar o mejor de detectar inestabilidad a la
Ecuación (B.18) siempre que el número de unidades probadas sea 3 o más.


NCh3800:2023
ISO 13528:2022
B.6 Estabilidad en condiciones de transporte

B.6.1 El proveedor de ensayos de aptitud debería verificar los efectos del transporte en los ítems
de ensayo de aptitud al menos en las primeras etapas del programa de ensayo de aptitud. En la
medida de lo posible, dicha verificación debería comparar ítems de ensayos de aptitud retenidos en las
instalaciones del proveedor de ensayos de aptitud con ítems de ensayos de aptitud sujetos a envío y
devolución. También pueden utilizarse estudios basados en la exposición a condiciones de transporte
razonablemente previsibles, por ejemplo.
B.6.2 Cualquier efecto conocido del transporte debería ser considerado al evaluar el desempeño.
Cualquier aumento significativo en la incertidumbre debido al transporte debería incluirse en la
incertidumbre del valor asignado.
B.6.3 Cuando la verificación de la estabilidad durante el transporte implique la comparación de

los resultados de dos grupos de ítems de ensayo de aptitud, un grupo expuesto a condiciones de
transporte y otro grupo que no, el criterio de estabilidad suficiente en el transporte es el mismo que

en B.5.1 o B.5.2 .
NOTA 1 Si el valor asignado y la desviación estándar para la evaluación de la aptitud se determinan a partir de los
resultados de los participantes (por ejemplo, mediante métodos robustos), entonces el promedio y la desviación estándar
para la evaluación de la aptitud reflejarán cualquier sesgo y mayor variabilidad (respectivamente) causados por las
condiciones de transporte.
NOTA 2 En cláusula E.2 se muestra un ejemplo de control de estabilidad.

NCh3800:2023
ISO 13528:2022
Anexo C
(informativo)
Análisis robusto
C.1 Generalidades
Las comparaciones interlaboratorio presentan desafíos únicos para el análisis de datos. Si bien
la mayoría de las comparaciones interlaboratorio brindan datos unimodales y aproximadamente
simétricos, la mayoría de los conjuntos de datos de ensayos de aptitud incluyen una proporción de
resultados que son inesperadamente distantes de la mayoría. Estos pueden surgir por una variedad

de razones; por ejemplo, de participantes con menos experiencia, de métodos de medición menos
precisos o quizás nuevos, o de participantes que no entendieron las instrucciones o que procesaron
los ítems de ensayo de aptitud incorrectamente. Dichos resultados atípicos pueden ser muy variables
y hacer que las técnicas estadísticas convencionales, incluidas la media y la desviación estándar, no
sean confiables.
Se recomienda (ver 6.5.1) que los proveedores de ensayos de aptitud utilicen técnicas estadísticas que
sean robustas para los valores atípicos. Muchas de estas técnicas se han propuesto en la literatura
estadística, y muchas de ellas se han utilizado con éxito para los ensayos de aptitud. Las técnicas más
robustas también confieren resistencia a las distribuciones asimétricas de valores atípicos.
Este Anexo describe varias técnicas que se han aplicado en los ensayos de aptitud y tienen diferentes
capacidades en cuanto a robustez frente a poblaciones contaminadas (por ejemplo, eficiencia y punto
de ruptura), y diferente simplicidad de aplicación. Se presentan aquí en orden de simplicidad (primero
el más simple, último el más complejo), que está aproximadamente inversamente relacionado con la
eficiencia porque los estimadores más complejos tienden a desarrollarse para mejorar la eficiencia.
NOTA 1 El Anexo D proporciona más información sobre la eficiencia, el punto de ruptura y la sensibilidad a los modos
menores, tres indicadores importantes del desempeño de varios estimadores robustos.
NOTA 2 La robustez es una propiedad del algoritmo de estimación, no de las estimaciones que produce, por lo que
no es estrictamente correcto llamar “robustas” a las medias y desviaciones estándar calculadas por dicho algoritmo.
Sin embargo, para evitar el uso de terminología excesivamente engorrosa, los términos “promedio robusto” y “desviación
estándar robusta” se entienden en esta norma como estimaciones de la media poblacional o de la desviación estándar
poblacional calculada utilizando un algoritmo robusto.


NCh3800:2023
ISO 13528:2022
C.2 Estimadores simples resistentes a valores atípicos para la desviación

estándar y media de la población
C.2.1 La mediana
La mediana es un estimador simple y altamente resistente a valores atípicos de la media de la población

para distribuciones simétricas. Para determinar la mediana, denotada med(x):
a) Denotar los p ítems de datos, ordenados en orden creciente, por
x{1}, x{2},..., x{p}
b) Calcular
⎧ x {( p +1) 2} p impar
⎪ (C.1)
med ( x ) = ⎨ ⎡ x {p 2} + x {1+ p 2} ⎤
⎣ ⎦ p par
⎪

⎩ 2
C.2.2 Desviación absoluta de la mediana escalada MADe
La desviación absoluta de la mediana escalada MADe(x) proporciona una estimación de la desviación

estándar de la población para datos distribuidos normalmente y es altamente resistente a los valores
atípicos. Para calcular MADe(x):
a) Calcular las diferencias absolutas di (para i = 1 a p) de
d i = x i − med ( x ) (C.2)
b) Calcular MADe(x) a partir de
MADe(x) = 1,483 med(d) (C.3)
Si el 50% o más de los resultados de los participantes son iguales, entonces MADe(x) será cero, y
puede ser necesario usar el nIQR en C.2.3, una desviación estándar aritmética (después de eliminar
los valores atípicos), o el procedimiento descrito en C.5.2.
C.2.3 Rango intercuartílico normalizado nIQR
Un estimador robusto de la desviación estándar similar a MADe(x) y un poco más simple de obtener ha
demostrado ser útil en muchos programas de ensayos de aptitud y puede obtenerse de la diferencia
entre el percentil 75 (o 3er cuartil) y el 25 percentil (o 1er cuartil) de los resultados de los participantes.
Este estadístico se denomina comúnmente “rango intercuartílico normalizado” (o nIQR), y se calcula
como en la Ecuación (C.4):
nIQR(x) = 0,7413(Q3(x) – Q1(x)) (C.4)
en que:
Q1(x) = denota el percentil 25 de xi (i = 1,2,…, p)
Q3(x) = percentil 75 de xi (i = 1,2,…, p)

NCh3800:2023
ISO 13528:2022
Si los percentiles 75 y 25 son iguales, el nIQR será cero (al igual que MADe(x)) y se debería utilizar un
procedimiento alternativo, como una desviación estándar aritmética (después de eliminar los valores
atípicos) o el procedimiento de C.5.2, para calcular la desviación estándar robusta.
NOTA 1 El nIQR solo requiere clasificar los datos una vez en comparación con MADe, pero tiene un punto de ruptura
del 25% (ver Anexo D), mientras que MADe tiene un punto de ruptura del 50%. Por lo tanto, MADe puede tolerar una
proporción apreciablemente mayor de valores atípicos que nIQR.
NOTA 2 Tanto el estimador nIQR como el estimador MADe muestran un sesgo negativo apreciable en p < 30 que puede
afectar negativamente las puntuaciones si estas estimaciones se utilizan para puntuar los resultados de los participantes.
NOTA 3 Diferentes paquetes estadísticos pueden usar diferentes algoritmos para calcular cuartiles y,
por lo tanto, pueden producir nIQR ligeramente diferentes.
NOTA 4 En cláusula E.3 se incluye un ejemplo que usa estimadores robustos simples.

C.3 Análisis robusto: Algoritmo A
C.3.1 Algoritmo A con escala iterada
Este algoritmo produce estimaciones robustas de la media y la desviación estándar de los datos a los
que se aplica.
Denotar los ítems p de datos, ordenados en orden creciente, por:
x{1}, x{2},..., x{p}
Denotar el promedio robusto y la desviación estándar robusta de estos datos por x* y s*.
Calcular los valores iniciales para x* y s* como:
x* = mediana de xi (i = 1, 2, ..., p) (C.5)
s* = 1,483 mediana de x i − x ∗ con (i = 1, 2, ..., p) (C.6)
NOTA 1 Los algoritmos A y S proporcionados en este anexo se reproducen de ISO 5725-5, con una ligera adición al
algoritmo A para especificar un criterio de parada: ningún cambio en las 3ra cifras significativas de la media robusta y la
desviación estándar.
NOTA 2 En algunos casos, más de la mitad de los resultados xi serán idénticos (por ejemplo, número de hilos en
tela o electrolitos en suero). En estos casos el valor inicial de s* será cero y el procedimiento robusto no funcionará
correctamente. En el caso de que el s* inicial = 0, es aceptable sustituir la desviación estándar de la muestra, después de
verificar cualquier valor atípico bruto que podría hacer que la desviación estándar de la muestra fuera irrazonablemente
grande. Esta sustitución se realiza solo para el s* inicial, y después de eso, el algoritmo iterativo puede proceder como se
describe.
Actualizar los valores de x* y s* de la siguiente manera. Calcular:
δ = 1,5 s* (C.7)


NCh3800:2023
ISO 13528:2022
Para cada xi (i = 1, 2, ..., p), calcular:

⎧x ∗ − δ cuando x i < x ∗ − δ
⎪ (C.8)
x i∗ = ⎨x ∗ + δ cuando x i > x ∗ + δ
⎪ x sino
⎩ i
Calcular los nuevos valores de x* y s* a partir de:
p
x∗ = ∑ i =1x i∗ / p (C.9)
∑ i =1(x i∗ − x ∗ )
p 2 (C.10)
s ∗ = 1134
, / ( p − 1)
donde la suma es sobre i.
Las estimaciones robustas de x* y s* pueden obtenerse mediante un cálculo iterativo, es decir,

actualizando los valores de x* y s* varias veces utilizando las Ecuaciones C.7 a C.10, hasta que
el proceso converja. Se puede suponer convergencia cuando no hay cambio de una iteración a la
siguiente en las terceras cifras significativas de la media robusta y la desviación estándar robusta
(x* y s*). Se pueden determinar criterios de convergencia alternativos de acuerdo con los requisitos de
diseño y presentación de informes para los resultados de los ensayos de aptitud.
NOTA 3 En cláusulas E.1 y E.3 se proporcionan ejemplos del uso del Algoritmo A con escala iterada.
C.3.2 Variantes del Algoritmo A
El algoritmo A con escala iterada en C.3.1 tiene un punto de ruptura modesto (aproximadamente 25%
para grandes conjuntos de datos[25]) y el punto de partida para s* sugerido en C.3.1 para conjuntos
de datos donde MADe(x) es cero puede degradar seriamente resistencia de valores atípicos cuando
hay valores atípicos severos en el conjunto de datos. Deberían considerarse las siguientes variaciones
cuando se espera que la proporción de valores atípicos supere el 20% en cualquier conjunto de datos
o cuando el valor inicial de s* se ve afectado negativamente por valores atípicos extremos:
a) Reemplazar MADe con med ( x i − x ) cuando MADe = 0, o usar un estimador alternativo como el
descrito en C.5.1 o la desviación estándar aritmética (después de eliminar los valores atípicos).
b) Cuando no se use la desviación estándar robusta en la puntuación, usar MADe (modificado como
i) arriba) y no actualice s* durante la iteración. Cuando se utilice la desviación estándar robusta
en la puntuación, reemplazar s* con el estimador Q descrito en cláusula C.5 y no actualizar s*
durante la iteración.
NOTA La variante b) mejora el punto de ruptura del algoritmo A al 50%[25], lo que permite que el algoritmo haga
frente a una mayor proporción de valores atípicos.
C.4 Análisis robusto: Algoritmo S

Este algoritmo se aplica a las desviaciones estándar (o rangos), que se calculan cuando los participantes
envían m resultados replicados para un mensurando en un ítem de ensayo de aptitud, o en un estudio
con m ítems de ensayo de aptitud idénticos. Produce un valor agrupado robusto de las desviaciones
estándar o rangos a los que se aplica.

NCh3800:2023
ISO 13528:2022
Denotar las desviaciones estándar o rangos de p, ordenados en orden creciente, por:
x{1}, x{2},..., x{p}
Denotar el valor agrupado robusto por w*, y los grados de libertad asociados con cada wi por ν.
(Cuando wi es un rango, ν = 1. Cuando wi es la desviación estándar de m resultados de ensayo,
ν = m - 1). Obtener los valores de ξ y η requeridos por el algoritmo de Tabla C.1.
Calcular un valor inicial para w* como:
w* = mediana de wi (i = 1, 2, ..., p) (C.11)
NOTA Si más de la mitad de los wi son cero, entonces el w* inicial será cero y el procedimiento robusto no funcionará
correctamente. Cuando el w* inicial es cero, sustituya la desviación estándar del promedio combinado aritmético (o rango
promedio) después de eliminar cualquier valor atípico extremo que pueda influir en el promedio. Esta sustitución es solo
para el w* inicial, después de lo cual se continúa el procedimiento como se describe.

Actualizar el valor de w* de la siguiente manera. Calcular:
ψ = η × a* (C.12)
Para cada wi (i = 1, 2, ..., p), Calcular:

⎧ψ si w i > ψ
(C.13)
w i* = ⎨
⎩w i si no
Calcular el nuevo valor de w* a partir de:
∑ i =1(w i∗ )
p 2
w∗ = ξ /p (C.14)
La estimación robusta w* se calcula mediante un cálculo iterativo actualizando el valor de w* varias

veces, hasta que el proceso converge. Se puede suponer convergencia cuando no hay cambio de una
iteración a la siguiente en la tercera cifra significativa de la estimación robusta.
NOTA El algoritmo S proporciona una estimación de la desviación estándar de la población cuando se le suministran
desviaciones estándar de una única distribución normal y, por lo tanto, proporciona una estimación de la desviación
estándar de la repetibilidad cuando los supuestos de ISO 5725-2 aplican.


NCh3800:2023
ISO 13528:2022
Tabla C.1 – Factores requeridos para un análisis robusto: Algoritmo S
Grados de libertad Factor límite Factor de ajuste
ν η ξ
1 1,645 1,097
2 1,517 1,054
3 1,444 1,039
4 1,395 1,032
5 1,359 1,027
6 1,332 1,024
7 1,310 1,021
8 1,292 1,019

9 1,277 1,018
10 1,264 1,017
NOTA Los valores de ξ y η se obtienen en ISO 5725-5:1998, Anexo B.
C.5 Estimadores robustos computacionalmente intensivos: método Q y

estimador de Hampel
C.5.1 Justificación de los estimadores computacionalmente intensivos
Los estimadores robustos de la media poblacional y la desviación estándar descritos en cláusulas C.2
y C.3 son útiles cuando los recursos computacionales son limitados o cuando es necesario brindar
explicaciones concisas de los procedimientos estadísticos. Estos procedimientos han demostrado ser
útiles en una amplia variedad de situaciones, incluso para programas de ensayos de aptitud en nuevas
áreas de ensayo o calibración y en economías donde los ensayos de aptitud no estaban disponibles
anteriormente. Sin embargo, estas técnicas pueden volverse poco confiables cuando más del 20% de
los resultados son atípicos, o cuando hay distribuciones bimodales (o multimodales), y algunas pueden
volverse inaceptablemente variables para un número menor de participantes. Además, ninguno puede
manejar datos replicados de los participantes. La ISO/IEC 17043 requiere que estas situaciones se
anticipen por diseño o se detecten mediante una revisión competente antes de la evaluación del
desempeño, pero hay ocasiones en las que esto puede no ser posible.
Además, algunas de las técnicas robustas descritas en cláusulas C.2 y C.3 carecen de eficiencia
estadística: si el número de participantes es inferior a 50 y se utiliza la media robusta y/o la desviación
estándar para calificar, hay un riesgo considerable de clasificar erróneamente a los participantes
debido al uso de métodos estadísticos ineficaces.
Las técnicas robustas que combinan una buena eficiencia (es decir, una variabilidad comparativamente
baja) con tolerancia para una alta proporción de valores atípicos tienden a ser más complejas y
requieren más recursos computacionales, pero las técnicas se mencionan en la literatura disponible
y en las normas internacionales. Algunos de estos, además, proporcionan ganancias de desempeño
útiles cuando la distribución subyacente de los datos está sesgada o cuando algunos resultados se
cotizan por debajo de un límite de detección o informe.

NCh3800:2023
ISO 13528:2022
Los siguientes párrafos describen algunos métodos de alta eficiencia y alto punto de ruptura para
estimar la desviación estándar y la localización (media) que son útiles para datos con proporciones más
grandes de valores atípicos y que muestran una menor variabilidad que los estimadores más simples.
Uno de los estimadores descritos también se puede usar para estimar una desviación estándar de
reproducibilidad cuando los participantes informan múltiples observaciones.
C.5.2 Determinación de una desviación estándar robusta utilizando los métodos Q y

Qn
C.5.2.1 Qn[34] es un estimador de alto desglose y alta eficiencia de la desviación estándar de la

población que no está sesgado para datos distribuidos normalmente (es decir, bajo el supuesto de
que no hay valores atípicos). Qn utiliza un solo resultado informado (que incluye una media o mediana
de réplicas) para cada participante. El cálculo se basa en el uso de diferencias por pares dentro del
conjunto de datos y, por lo tanto, no depende de una estimación de la media o mediana de los datos.
La implementación descrita aquí incluye correcciones para garantizar que la estimación sea imparcial
para todos los tamaños de conjuntos de datos prácticos.

Para calcular Qn para un conjunto de datos (x1, x2, … xp) con p resultados informados:
a) Calcular las diferencias absolutas p(p-1)/2
d ij = x i − x j para i = 1, 2…p – 1 y j = i + 1, i + 2…p (C.15)
b) Denotar las diferencias ordenadas dij por
d{1}, d{2},..., d{p(p-1)/2} (C.16)
c) Calcular
h (h − 1) (C.17)
k=
2
donde, k es el número de pares distintos elegidos de h objetos, donde:

⎧ p/2 p par (C.18)
h=⎨
⎩(p − 1) / 2 p impar
d) Calcular Qn como
Qn = 2,221 9 d{k}bp (C.19)
donde bp se selecciona de la Tabla C.2 para un número particular p de puntos de datos o,

para p > 12, se calcula a partir de
1 (C.20)
bp =
rp + 1


NCh3800:2023
ISO 13528:2022
donde
⎧ 1⎡ 1⎛ 5,172⎞ ⎤
⎢1, 601 9 + ⎜ −2,128 − ⎟ p impar
⎪
⎪ p⎣ p⎝ p ⎠ ⎥⎦
rp = ⎨ (C.21)
⎪ 1 ⎡3, 675 6 + 1 ⎛ 1, 965 + 1 ⎛ 6, 987 − 77⎞ ⎞ ⎤ p par
⎪⎩ p ⎢⎣ ⎜ ⎜ ⎟⎟
p⎝ p⎝ p ⎠ ⎠ ⎥⎦
NOTA 1 El factor de 2,221 9 es un factor de corrección para dar una estimación no sesgada de la desviación estándar
para p grande. Los factores de corrección bp para p pequeña se encuentran en la Tabla C.2 y el cálculo de rp para p > 12
se proporciona en Referencia [41] a partir de una simulación extensa y un análisis de regresión posterior.
NOTA 2 El algoritmo simple descrito anteriormente requiere recursos informáticos considerables para conjuntos de
datos más grandes, por ejemplo, p > 1 000. Se ha publicado una implementación rápida y eficiente en memoria capaz de
manejar conjuntos de datos mucho más grandes con código de computadora completo[42] para usar con conjuntos de
datos más grandes; conjuntos de datos. La Referencia [42] citó un desempeño aceptable para p por encima de 8 000 en
el momento de la publicación.

Tabla C.2 – Factor de corrección bp para 2 ≤ p ≤ 12
p 2 3 4 5 6 7 8 9 10 11 12
bp 0,399 4 0,993 7 0,513 2 0,844 0 0,612 2 0,858 8 0,669 9 0,873 4 0,720 1 0,889 1 0,757 4
C.5.2.2 El método Q produce una estimación de la desviación estándar de alto punto de ruptura y
alta eficiencia de los resultados de los ensayos de aptitud informados por diferentes laboratorios. El
método Q no solo es robusto frente a resultados atípicos, sino también frente a una situación en la que
muchos resultados de ensayo son iguales, por ejemplo, debido a datos cuantitativos en una escala
discontinua o debido a distorsiones de redondeo. En tal situación, otros métodos similares a Q pueden
fallar porque muchas diferencias por pares son cero.
El método Q se puede utilizar para ensayos de aptitud tanto con resultados únicos por participante
(incluyendo una media o mediana de repeticiones) como para repeticiones. El uso directo de réplicas
en el cálculo mejora la eficiencia del método.
El cálculo se basa en el uso de diferencias por pares dentro del conjunto de datos y,
por lo tanto, no depende de una estimación de la media o mediana de los datos. El método se conoce
como Q/Hampel cuando se utiliza junto con el algoritmo de pasos finitos para el estimador de Hampel
descrito en C.5.3.3.
Denotar los resultados de medición informados, agrupados por laboratorio, por:
y 11, … , y 1n1 , y 21, … , y 2n2 , , y p1, , y pn p (C.22)

Lab 1 Lab 2 Lab p
Calcular la función de distribución acumulativa de todas las diferencias absolutas interlaboratorio:
2 1 ni nj
H1 ( x ) =
p ( p − 1) ∑1≤i < j ≤ p ni n j ∑ k =1∑ m =1I { y ik − y jm ≤ x} (C.23)
⎧1 si y ik − y jm ≤ x ⎫
donde I { y ik − y jm ≤ x } = ⎨ ⎬ denota la función indicadora.
⎩0 si no ⎭

NCh3800:2023
ISO 13528:2022
Denotar los puntos de discontinuidad de H1 (x) por:
x1, …, xr, donde x1 < x2 < … < xr.
Calcular para todos los puntos de discontinuidad positivos x1, …, xr:
⎧0, 5 ⋅ (H1 ( x i ) + H1 ( x i −1)) si i ≥ 2 (C.24)

G1 ( x i ) = ⎨
⎩0, 5 ⋅ H1 ( x 1) si i = 1; x 1 > 0
y deja
G1(0) = 0
Calcular la función G1(x) para todo x fuera del intervalo [0, xr] por interpolación lineal entre puntos de
discontinuidad 0 ≤ x1 < x2 < … < xr.
Calcular la desviación estándar robusta s* de los resultados de los ensayos de diferentes laboratorios:

G1−1 (0, 25 + 0, 75 ⋅ H1 ( 0)) (C.25)

s∗ =
2Φ −1 (0, 625 + 0, 375 ⋅ H1 ( 0))
donde H1(0) se calcula como en la Ecuación C.23 y es igual a cero a menos que existan empates
exactos en el conjunto de datos, y donde Φ-1 (q) es el q-ésimo cuantil de la distribución normal estándar.
NOTA 1 Este algoritmo no depende de un valor medio; se puede usar junto con un valor de los resultados combinados
de los participantes o un valor de referencia específico.
NOTA 2 Otras variantes del método Q proporcionan estimaciones robustas tanto de la desviación estándar de la
repetibilidad como de la reproducibilidad[25] [34].
NOTA 3 La base teórica del método Q, incluido el desempeño asintótico y el desglose de muestras finitas, se describen
en las Referencias [26] y [34].
NOTA 4 Si los datos subyacentes de los participantes representan resultados de medición únicos obtenidos con
un método de medición específico, la desviación estándar robusta es una estimación de la desviación estándar de
reproducibilidad como en la Ecuación (C.21).
NOTA 5 La desviación estándar de reproducibilidad no es necesariamente la desviación estándar más apropiada

para usar en ensayos de aptitud porque generalmente es una estimación de la dispersión de resultados individuales
y no una estimación de la dispersión de medias o medianas de resultados replicados de cada participante.
Sin embargo, la dispersión de las medias o medianas de los resultados replicados está solo ligeramente por debajo
de la dispersión de los resultados individuales de diferentes laboratorios, si la relación de la desviación estándar de la
reproducibilidad dividida por la desviación estándar de la repetibilidad es mayor que 2. Si esta relación es inferior a 2, para
la puntuación en los ensayos de aptitud, puede ser útil reemplazar la desviación estándar de reproducibilidad sR por el
m −1
valor corregido 2 −
sR , donde m denota el número de repeticiones y sr2 la varianza de repetibilidad calculada en
sr2
m
la Referencia [35], o usar no las repeticiones sino la media de réplicas por participante para el método Q.
NOTA 6 La Nota 5 se aplica solo si la puntuación se realiza sobre la base de medias o medianas de resultados
replicados. Si las réplicas son ítems de ensayo de aptitud de réplicas ciegas, se supone que se otorgan puntuaciones
para cada réplica. En este caso, la desviación estándar de reproducibilidad es la desviación estándar más adecuada.
NOTA 7 En cláusula E.3 se muestra un ejemplo al que se ha aplicado el método Q.


NCh3800:2023
ISO 13528:2022
C.5.3 Determinación de una media robusta utilizando el estimador de Hampel
C.5.3.1 La estimación de Hampel es una estimación altamente robusta y eficiente de la media

general de los resultados informados por diferentes laboratorios. Como no existe una fórmula explícita
para obtener la estimación de Hampel, en este párrafo se proporcionan dos algoritmos. El primero
se puede implementar más fácilmente, pero puede conducir a resultados diferentes en diferentes
implementaciones. El segundo proporciona resultados únicos que dependen únicamente de la
desviación estándar subyacente.
C.5.3.2 El siguiente cálculo proporciona un esquema de reponderación iterativo para obtener la

estimación de localización de Hampel.
a) Denotar los datos como x1, x2 … xp;
b) Establecer x* en med(x) (ver C.2.1);

c) Establecer s* en una estimación robusta adecuada de la desviación estándar, por ejemplo, MADe,
Qn o s* del método Q.
d) Para cada punto de datos xi, calcular qi a partir de la Ecuación C.26:

xi − x *
qi = (C.26)
s*
e) Calcular pesos wi a partir de la Ecuación C.27:

⎧0 q > 4, 5
⎪(4, 5 − q ) q 3 < q ≤ 4, 5
⎪ (C.27)
wi = ⎨
⎪1, 5 / q 1, 5 < q ≤ 3, 0
⎪⎩1 q ≤ 1, 5
f) Recalcular x* a partir de la Ecuación C.28:

p
∑wi xi
x * = i =1 (C.28)
p
∑wi
i =1
g) Repetir los pasos d) a f) hasta que x* converja. Se puede suponer convergencia cuando el
cambio en x* de una iteración a la siguiente es menor que 0, 01s * p , lo que corresponde a
aproximadamente el 1% del error estándar en x*. Pueden utilizarse otros criterios de convergencia
más precisos.

NCh3800:2023
ISO 13528:2022
No se garantiza que esta implementación del estimador de Hampel tenga una solución única o que
resulte en la mejor solución porque una mala elección de la localización inicial x* y/o s* puede excluir
partes importantes del conjunto de datos. En consecuencia, el proveedor de ensayos de aptitud
debería implementar medidas para verificar la posibilidad de una solución deficiente o proporcionar
reglas inequívocas para la elección de la localización. La regla más común es elegir la solución más
cercana a la mediana. Revisar los resultados para asegurarse de que ninguna gran parte del conjunto
de datos esté fuera del rango ⎮q⎮ > 4,5 también puede ayudar a confirmar una solución viable.
NOTA 1 Esta implementación del estimador de Hampel tiene una eficiencia de aproximadamente el 96% para datos
normalmente distribuidos.
NOTA 2 En cláusula E.3 se da un ejemplo que usa esta implementación.
NOTA 3 El estimador de Hampel se puede ajustar para una mayor eficiencia o una mayor resistencia a los valores
atípicos cambiando la función de ponderación. La forma general de la función de ponderación es:
⎧ 0 q >c

⎪a (c − q ) [q (c − b )] b < q ≤ c
wi = ⎨
a/q a< q ≤b
⎪
⎩ 1 q ≤a
donde a, b y c son parámetros de ajuste. Para la implementación aquí, a = 1,5, b = 3,0 y c = 4,5. Se obtiene mayor eficiencia
aumentando el rango; la resistencia mejorada a valores atípicos o modos menores se obtiene reduciendo el rango.
C.5.3.3 El siguiente algoritmo de pasos finitos produce la estimación de localización de Hampel sin
reponderación iterativa[25].
Calcular las medias aritméticas para cada laboratorio, ahora denominado y1, y2, … yp.
Calcular la media robusta, x*, resolviendo la Ecuación C.29:

p ⎛ y − x ∗⎞
∑ Ψ⎜ i
i =1 ⎝ s ∗ ⎟⎠
=0 (C.29)
donde
⎧0 q ≤ −4, 5
⎪ −4, 5 − q −4, 5 < q ≤ −3
⎪
⎪ −1, 5 −3 < q ≤ −1, 5
⎪ (C.30)
Ψ (q ) = ⎨q −1, 5 < q ≤ 1, 5
⎪1, 5 1, 5 < q ≤ 3
⎪
⎪4, 5 − q 3 < q ≤ 4, 5
⎪0 q > 4, 5
⎩
y s* es la desviación estándar robusta según el método Q.


NCh3800:2023
ISO 13528:2022
La solución exacta puede obtenerse en un número finito de pasos, es decir no iterativamente, utilizando
la propiedad de que ψ en el argumento de x* es parcialmente lineal, teniendo en cuenta que los nodos
de interpolación del lado izquierdo de la Ecuación C.29 (interpretado aquí como una función de x*)
son los siguientes:
Calcular todos los nodos de interpolación
— para el primer valor y1:
d1 = y1 – 4,5 s*, d2 = y1 – 3s*, d3 = y1 – 1,5s*, d4 = y1 + 1,5s*,

d5 = y1 + 3s*, d6 = y1 + 4,5s*
— para el segundo valor y2:
d7 = y2 – 4,5 s*, d8 = y2 – 3s*, d9 = y2 – 1,5s*, d10 = y2 + 1,5s*,

d11 = y2 + 3s*, d12 = y2 + 4,5s*

— y así sucesivamente para todos los valores y3, …, yp.
Ordenar estos datos d1, d2, d3, …, d6 p en orden ascendente d{1},d{2}, d{3},…, d{6p}.
Luego calcular para cada m = 1, …, (6 ⋅ p – 1)
p ⎛ y i − d {m } ⎞
pm = ∑ i =1Ψ ⎜⎝ s∗ ⎟⎠
y comprobar si
a) pm = 0. Si es así, d{m} es una solución de la Ecuación C.29.
b) pm +1 = 0. Si es así, d{m +1} es una solución de la Ecuación C.29.

pm
c) pm ⋅ pm +1 < 0. Si es así, x m = d {m} − es una solución de la Ecuación C.29.
pm +1 − pm
d (m +1) − d (m )
Dejar S denotar el conjunto de todas estas soluciones de la Ecuación C.29.
La solución x* ∈ S más cercana a la mediana se usa como parámetro de localización x*, es decir
x ∗ − med ( y 1, y 2 ,… , y p ) = min. { x − med ( y 1, y 2 ,… , y p ) ; x ∈S }
Pueden existir varias soluciones. Si hay dos soluciones más cercanas a la mediana, o si no hay
ninguna solución, la mediana misma se usa como parámetro de localización x*.
NOTA 1 Esta implementación del estimador de Hampel tiene una eficiencia de aproximadamente el 96% para datos
normalmente distribuidos.
NOTA 2 Si se utiliza este método de estimación, los resultados de laboratorio que difieren de la media en más
de 4,5 veces la desviación estándar de la reproducibilidad ya no tienen ningún efecto sobre el resultado del cálculo, es
decir, se tratan como valores atípicos.

NCh3800:2023
ISO 13528:2022
C.5.4 El método Q/Hampel
El método conocido como Q/Hampel utiliza el método Q descrito en C.5.3.2 para el cálculo de la
desviación estándar robusta s* junto con el algoritmo de pasos finitos para el estimador de Hampel
descrito en C.5.3.3 para el cálculo de la parámetro de localización x*.
Cuando los participantes reportan múltiples observaciones, el método Q descrito en C.5.3.2 se usa
para el cálculo de la desviación estándar de reproducibilidad robusta sR. Para el cálculo de la desviación
estándar de repetibilidad robusta sr se aplica un segundo algoritmo que utiliza las diferencias por
pares dentro de los laboratorios.
NOTA Se encuentra disponible una aplicación web para el método Q/Hampel[37].
C.6 Otras técnicas robustas

Los métodos descritos en este anexo no constituyen una colección integral de enfoques válidos, y no
se garantiza que ninguno sea óptimo para todas las situaciones. Se pueden usar otros estimadores
robustos a discreción del proveedor de ensayos de aptitud, sujeto a la demostración, por referencia a
la eficiencia conocida, el punto de ruptura y cualquier otra propiedad apropiada, que cumplen con los
requisitos particulares del programa de ensayos de aptitud.


NCh3800:2023
ISO 13528:2022
Anexo D
(informativo)
Orientación adicional sobre procedimientos estadísticos
D.1 Procedimientos para un pequeño número de participantes
D.1.1 Consideraciones generales
Muchos programas de ensayos de aptitud tienen pocos participantes o tienen grupos de comparación
con un número pequeño de participantes, incluso si hay una gran cantidad de participantes en el

programa de ensayos de aptitud. Esto puede suceder con frecuencia cuando los participantes se
agrupan y califican por método, como se hace comúnmente en los ensayos de aptitud para laboratorios
médicos, por ejemplo.
Cuando el número de participantes sea pequeño, el valor asignado se debería determinar idealmente
utilizando un procedimiento metrológicamente válido, independiente de los participantes, como por
formulación o a partir de un laboratorio de referencia. Los criterios de evaluación del desempeño
también deberían basarse en criterios externos, como el juicio de expertos o criterios basados en
la adecuación al propósito. En estas situaciones ideales, el desempeño se evalúa utilizando el valor
asignado predeterminado y el criterio de desempeño, de modo que los ensayos de aptitud se puedan
realizar con un solo participante. Este tipo de comparación interlaboratorio puede denominarse
comparación bilateral o auditoría de medición, y puede ser muy útil en muchas situaciones,
por ejemplo, en la calibración.
Cuando no se puedan cumplir estas condiciones ideales, es posible que sea necesario derivar el
valor asignado o la dispersión, o ambos, a partir de los resultados de los participantes. Si el número
de participantes es demasiado pequeño para los procedimientos particulares utilizados, la evaluación
del desempeño puede volverse poco confiable; por lo tanto, es importante considerar si se debería
establecer un número mínimo de participantes para la evaluación del desempeño.
Los siguientes párrafos presentan una guía para situaciones de números pequeños, cuando los
criterios de evaluación del desempeño se determinan utilizando los resultados de los participantes.
D.1.2 Procedimientos para identificar valores atípicos
Si bien se recomiendan encarecidamente estadísticos robustos para poblaciones contaminadas con

valores atípicos, a menudo no se recomiendan para conjuntos de datos muy pequeños (consulte
las excepciones a continuación). Sin embargo, es posible realizar pruebas de valores atípicos para
conjuntos de datos muy pequeños. El rechazo de valores atípicos seguido, por ejemplo, del cálculo de
la media o la desviación estándar puede ser preferible en el caso de esquemas o grupos de ensayos
de aptitud muy pequeños.

NCh3800:2023
ISO 13528:2022
Diferentes pruebas de valores atípicos son aplicables a diferentes tamaños de conjuntos de datos.
ISO 5725-2 proporciona tablas para la prueba de Grubbs para un único valor atípico y para dos valores
atípicos simultáneos en la misma dirección. Grubbs y otras pruebas requieren que la cantidad de
posibles valores atípicos se especifique de antemano y pueden fallar cuando hay múltiples valores
atípicos, lo que los hace más útiles para p > 10 (dependiendo de la proporción probable de valores
atípicos).
NOTA 1 Se debería tener cuidado al estimar la dispersión después del rechazo de valores atípicos ya que las
estimaciones de dispersión tendrán un sesgo bajo. El sesgo no suele ser grave si el rechazo se lleva a cabo únicamente
con un nivel de confianza del 99% o superior.
NOTA 2 La mayoría de los estimadores robustos univariados para localización y dispersión funcionan aceptablemente
para p ≥ 12.
D.1.3 Procedimientos para estimaciones de localización
D.1.3.1 Los valores asignados derivados de pequeños conjuntos de datos de los participantes

deberían, cuando sea posible, cumplir con el criterio de incertidumbre del valor asignado dado en
9.2.1. Para una situación que utiliza una media simple como valor asignado y una desviación estándar
de los resultados como desviación estándar para la evaluación de la aptitud, este criterio no se puede
cumplir para una distribución normal con p ≤ 12, después de eliminar los valores atípicos. Para el uso
de la mediana como valor asignado (tomando la eficiencia como 0,64), el criterio no se puede cumplir
para p ≤ 18. Otros estimadores robustos, como el Algoritmo A (ver cláusula C.3), tienen eficiencia
intermedia y pueden cumplir el criterio para p > 12 si se tiene en cuenta lo dispuesto en 7.7.7, Nota 2.
D.1.3.2 Existen limitaciones de tamaño del conjunto de datos sobre la aplicabilidad de algunos
estimadores de localización. Se recomiendan pocos estimadores robustos computacionalmente
intensivos para la media para conjuntos de datos pequeños; un límite inferior típico es p ≥ 15,
aunque los proveedores pueden demostrar un desempeño aceptable para supuestos específicos en
conjuntos de datos más pequeños. La mediana es aplicable hasta p = 2 (cuando es igual a la media)
pero en 3 ≤ p ≤ 5 la mediana ofrece pocas ventajas sobre la media a menos que exista un riesgo
inusualmente alto de malos resultados.
D.1.4 Procedimientos para estimaciones de dispersión
D.1.4.1 No se recomienda el uso de criterios de desempeño basados en la dispersión de los

resultados de los participantes para conjuntos de datos pequeños debido a la gran variabilidad de
cualquiera de las estimaciones de dispersión. Por ejemplo, para p = 30, se espera que las estimaciones
de la desviación estándar para datos normalmente distribuidos varíen aproximadamente un 25% a
cada lado de su valor real (basado en un nivel de confianza del 95%). Ningún otro estimador mejora
esto para datos normalmente distribuidos.
D.1.4.2 Cuando se requieran estimadores de dispersión para otros fines (por ejemplo, como
resumen estadístico o para proporcionar una estimación de dispersión para estimadores de
localización robustos), o cuando el programa de ensayo de aptitud pueda tolerar una alta variabilidad
en las estimaciones de dispersión, los estimadores de dispersión con la mayor eficiencia disponible se
debería seleccionar cuando se manejan conjuntos de datos más pequeños.
NOTA 1 Se entiende que “el más alto disponible” tiene en cuenta la disponibilidad de software y experiencia adecuados.
NOTA 2 El estimador Qn de la desviación estándar descrito en cláusula C.5 es considerablemente más eficiente que
el MADe o el nIQR de cláusula C.1.


NCh3800:2023
ISO 13528:2022
NOTA 3 Se han hecho recomendaciones específicas para estimaciones robustas de dispersión en conjuntos de datos
muy pequeños[24] de la siguiente manera:
— p = 2 : usar x 1 − x 2 / 2 ;
— p = 3, ubicaciones y escala desconocidas: usar MADe para protegerse contra estimaciones excesivamente altas de
la desviación estándar o la desviación absoluta media (Nota 4, a continuación) para protegerse contra estimaciones
indebidamente pequeñas de la desviación estándar, por ejemplo, cuando el redondeo puede dar dos valores idénticos;
— p ≥ 4: la Referencia [27] recomendó una estimación M específica de la desviación estándar basada en una función de
ponderación logarítmica; un equivalente cercano es el Algoritmo A sin iteración de localización, utilizando la mediana
como una estimación de localización.
NOTA 4 Para obtener una estimación de la desviación estándar de la desviación absoluta media de la mediana, utilice
la Ecuación D.1.
1 (D.1)
s∗ =
p
∑i =1 x i − med ( x )

0, 798 × p
NOTA 5 El factor de 0,798 en la Ecuación D.1 surge de la distancia absoluta media desde cero en la distribución
normal estándar.
D.2 Eficiencia y puntos de ruptura para procedimientos robustos

D.2.1 Se pueden comparar diferentes estimadores estadísticos (por ejemplo, técnicas robustas) en
tres características clave:
Punto de ruptura: la proporción de valores en el conjunto de datos que se pueden reemplazar por
valores arbitrariamente grandes sin que la estimación también se vuelva arbitrariamente grande.
Eficiencia: la varianza de un estimador de varianza mínima dividida por la varianza del estimador para
la distribución en cuestión.
Resistencia a las modas menores: la capacidad de un estimador para resistir el sesgo causado por
un grupo minoritario de resultados discrepantes (normalmente menos del 20% del conjunto de datos).
Estas características dependen en gran medida de la distribución subyacente de resultados para

una población de participantes competentes y de la naturaleza de los resultados que provienen de
participantes incompetentes (o de participantes que no siguieron las instrucciones o el método de
medición). Los datos contaminantes pueden aparecer como valores atípicos, resultados con una
variación mayor o resultados con una media diferente (por ejemplo, bimodal).
Los puntos de ruptura y las eficiencias para los diferentes estimadores serán diferentes para diferentes
situaciones, y una revisión exhaustiva está más allá del alcance de esta norma. Sin embargo, se
pueden hacer comparaciones simples bajo el supuesto de una distribución normal para los resultados
de laboratorios competentes, con una media igual a xpt y una desviación estándar igual a σpt.

NCh3800:2023
ISO 13528:2022
D.2.2 Punto de ruptura
El punto de ruptura es la proporción de valores en el conjunto de datos que pueden ser atípicos sin
que la estimación se vea afectada negativamente. El punto de ruptura es una medida de la resistencia
a los valores atípicos; alto punto de ruptura se asocia con la resistencia a una alta proporción de
valores atípicos. Los puntos de ruptura y la resistencia a las modas menores para los estimadores del
Anexo C se presentan en la Tabla D.1. Se debería señalar que los procedimientos requeridos en 6.3
y 6.4 deberían evitar el análisis de datos de conjuntos de datos con grandes proporciones de valores
atípicos. Sin embargo, hay situaciones en las que la revisión visual no es práctica.
Tabla D.1 – Puntos de ruptura para los estimadores de la media y la desviación estándar
(proporción de valores atípicos que pueden conducir a la falla del estimador)
Parámetro de población Resistencia a modas

Estimador estadístico Punto de ruptura
estimado menores

Media muestral Media 0% Pobre
Desviación estándar
Desviación estándar 0% Pobre
muestral
Mediana muestral Media 50% Bueno
nIQR Desviación estándar 25% Moderado
MADe Desviación estándar 50% Moderado - Bueno
Algoritmo A Media y desviación estándar 25% Moderado
Moderado
Qn y Q/Hampel Media y desviación estándar 50% (Muy bueno para modos
menores a más de 6 s*)
NOTA La definición de punto de ruptura que se usa aquí es la proporción de un gran conjunto de datos distribuidos
normalmente que se puede mover a +infinito sin que la estimación también se mueva a infinito. Por ejemplo, si un poco
menos del 50% de un conjunto de datos se reemplaza por +infinito, la mediana permanecerá dentro de los datos finitos
restantes.
En resumen, la media muestral y la desviación estándar muestral pueden verse afectadas con un solo
valor atípico. Los métodos robustos que utilizan los métodos de la mediana, MADe y Q/Hampel pueden
tolerar una proporción muy grande de valores atípicos. El algoritmo A con desviación estándar iterada
y nIQR tiene un punto de ruptura del 25%. En cualquier situación con una gran proporción de valores
atípicos (> 20%), cualquier procedimiento convencional o robusto puede producir estimaciones poco
razonables de localización y dispersión, y se debería tener precaución en la interpretación de dichos
valores.
D.2.3 Eficiencia relativa
Todas las estimaciones tienen una varianza de muestreo, es decir, las estimaciones pueden variar
de una ronda a otra de un programa de ensayo de aptitud, incluso si todos los participantes son
competentes y no hay valores atípicos o subgrupos de participantes con diferentes medias o varianzas.
Los estimadores robustos modifican los resultados presentados que están excepcionalmente lejos de
la mitad de la distribución, en base a supuestos teóricos, por lo que estos estimadores tienen una
varianza mayor que los estimadores de varianza mínima, en el caso de que el conjunto de datos tenga
una distribución normal.


NCh3800:2023
ISO 13528:2022
La media muestral y la desviación estándar son los estimadores de varianza mínima de la media
poblacional y la desviación estándar, por lo que tienen una eficiencia del 100%. Los estimadores
con menor eficiencia tienen una mayor varianza, es decir, podrían variar más de una ronda a otra
de un programa de ensayo de aptitud, incluso si no hay valores atípicos o diferentes subgrupos de
participantes. La Tabla D.2 proporciona eficiencias relativas para los estimadores presentados en
Anexo C.
Tabla D.2 – Eficiencia relativa de estimadores robustos para la media y desviación estándar de la
población, para conjuntos de datos normalmente distribuidos con n = 50 o 500 participantes:
Estimador estadístico Media, n = 50 Media, n = 500 DE, n = 50 DE, n = 500
Media muestral y desviación

100% 100% 100% 100%
estándar muestral
Mediana y nIQR 66% 65% 38% 37%
Mediana y MADe

66% 65% 37% 37%
Algoritmo A 97% 97% 74% 73%
Qn y Q/Hampel 96% 96% 73% 81%
Estos resultados demuestran que no existe un método estadístico que sea perfecto para todas las
situaciones. La media muestral y la desviación estándar muestral son óptimas con una distribución
normal, pero se descomponen en caso de valores atípicos. Los métodos robustos simples como la
mediana, MADe o nIQR funcionan comparativamente mal para datos distribuidos normalmente, pero
pueden ser efectivos cuando hay valores atípicos o el conjunto de datos es pequeño.
D.3 Uso de datos de ensayos de aptitud para evaluar la reproducibilidad y

repetibilidad de un método de medición
D.3.1 La Introducción a ISO/IEC 17043 establece que la evaluación de las características de
desempeño de un método generalmente no es un propósito de los ensayos de aptitud. Sin embargo, es
posible utilizar los resultados de los programas de ensayos de aptitud para verificar y quizás establecer
la repetibilidad y reproducibilidad de un método de medición[15] cuando el programa de ensayos de
aptitud cumple con las siguientes condiciones:
a) los ítems de ensayo de aptitud son suficientemente homogéneos y estables;
b) los participantes son capaces de un desempeño satisfactorio constante,
c) la competencia de los participantes (o un subconjunto de participantes) ha sido demostrada antes

de la ronda del programa de ensayos de aptitud, y los resultados de la ronda no ponen en duda
su competencia.

NCh3800:2023
ISO 13528:2022
D.3.2 Para proporcionar datos suficientes para la evaluación de la repetibilidad y reproducibilidad de

un método de ensayo de un programa de ensayo de aptitud, se deben usar las siguientes condiciones
de diseño:
a) un número suficiente de participantes para satisfacer un estudio colaborativo han demostrado

competencia con un método de medición en rondas anteriores de un programa de ensayo de
aptitud y se han comprometido a seguir el método de medición sin modificaciones;
b) cuando se tenga que evaluar la repetibilidad, cada ronda del programa de ensayos de aptitud
utilizada para la evaluación de la repetibilidad debería incluir al menos dos ítems de ensayo de
aptitud o un requisito para réplicas de observaciones;
c) cuando sea factible, los participantes deberían recibir réplicas ciegas identificadas por separado
en lugar de pedirles que realicen mediciones replicadas en el mismo ítem de ensayo de aptitud;
d) los ítems de ensayo de aptitud utilizados en una o varias rondas del programa de ensayo de

aptitud cubren el rango de niveles y tipos de muestras de rutina para las cuales está destinado el
método de medición;
e) los procedimientos de análisis de datos utilizados para evaluar la repetibilidad y reproducibilidad

deberían ser coherentes con ISO 5725 o el protocolo de estudio colaborativo en uso.


NCh3800:2023
ISO 13528:2022
Anexo E
(informativo)
Ejemplos ilustrativos
Estos ejemplos pretenden ilustrar los procedimientos especificados en esta norma, para que el lector
pueda determinar que sus cálculos son correctos. Los ejemplos específicos no deberían considerarse
recomendaciones para su uso en programas de ensayos de aptitud particulares.
E.1 Efecto de los valores censurados (ver 5.5.3.3)

La Tabla E.1 muestra 23 resultados para una ronda de un programa de ensayo de aptitud, de los
cuales 5 resultados se indican como “Menos de” alguna cantidad. La media robusta (x*) y la desviación
estándar (s*) del Algoritmo A se muestran para 3 cálculos diferentes, donde los signos “<” se descartan
y los datos se analizan como datos cuantitativos; los resultados con valores “<” se ignoran; y donde
se inserta 0,5 veces el resultado como estimación del resultado cuantitativo. En cada escenario, los
resultados que habrían estado fuera del límite de aceptación se indican con “#”. Esto supone que la
evaluación sería “inaceptable” (señal de acción) para cualquier resultado donde la parte cuantitativa
esté fuera de x* ± 3 s*. El proveedor de ensayos de aptitud podría tener reglas alternativas para evaluar
los resultados con los signos “<” o “>”.

tres opciones para acomodar resultados censurados
Partícipe Resultado “<” ignorado “<” eliminado 0,5 × valor “<”
A < 10 10 - 5
B < 10 10 - 5
C 12 12 12 12
D 19 19 19 19
E < 20 20 - 10
F 20 20 20 20
G 23 23 23 23
H 23 23 23 23
J 25 25 25 25
K 25 25 25 25
L 26 26 26 26
M 28 28 28 28
N 28 28 28 28
P < 30 30 - 15
(continúa)

NCh3800:2023
ISO 13528:2022

tres opciones para acomodar resultados censurados (conclusión)
Partícipe Resultado “<” ignorado “<” eliminado 0,5 × valor “<”
Q 28 28 28 28
R 29 29 29 29
S 30 30 30 30
T 30 30 30 30
U 31 31 31 31
V 32 32 32 32
W 32 32 32 32
Y 45 45 45 # 45
Z < 50 50 # - 25

Resumen
Número de resultados 23 23 18 23
x* 26,01 26,81 23,95
s* 7,23 5,29 8,60
La elección de cómo manejar las muestras “menores que” tiene un efecto significativo en la media
robusta y la desviación estándar, y en la evaluación del desempeño. Se espera que el proveedor de
ensayos de aptitud determine un método apropiado.
NOTA La Referencia [21] incluye algunos métodos, basados en la estimación de máxima verosimilitud, que pueden
acomodar adecuadamente los resultados citados como “inferiores a” un límite superior.
E.2 Test de homogeneidad y estabilidad - Arsénico (As) en chocolate (ver 6.1)

Los artículos de ensayo de aptitud se preparan para su uso en un programa de ensayo de aptitud
internacional y luego para su uso posterior como materiales de referencia. Se fabrican 1 000 viales.
Comprobación de homogeneidad: se seleccionan 10 ítems de ensayo de aptitud mediante una

selección aleatoria estratificada de ítems de ensayo de aptitud de diferentes partes del proceso de
fabricación. Se extraen 2 porciones de ensayo de cada botella y se prueban en un orden aleatorio, en
condiciones de repetibilidad. Los datos se dan en Tabla E.2 a continuación. Se sigue el procedimiento
de cláusula B.3, lo que da como resultado los estadísticos de resumen enumerados. La adecuación al
uso σpt para el As en el chocolate es del 15%. Dado que el valor asignado para la ronda del programa
de ensayos de aptitud no está disponible en el momento del estudio de homogeneidad, la estimación
de la variabilidad de la muestra se compara con una estimación provisional de σpt calculada como el
15% del valor medio para el test de homogeneidad.


NCh3800:2023
ISO 13528:2022
Tabla E.2 – Datos de homogeneidad para ítems de ensayo de aptitud de arsénico en chocolate
ID de la botella Replicado 1 Replicado 2
3 0,185 0,194
111 0,187 0,189
201 0,182 0,186
330 0,188 0,196
405 0,191 0,181
481 0,188 0,180
599 0,187 0,196
704 0,177 0,186
766 0,179 0,187

858 0,188 0,196
Media general: 0,187 15
SD de promedios: 0,003 98
sw: 0,005 56
ss: 0,000 60
σpt: = 0,187 15 × 0,15 = 0,028 07
Valor de comprobación: 0,3 σpt = 0,008 42
Conclusión ss es menor que el valor de comprobación, por lo que la homogeneidad es

suficiente.
Comprobación de estabilidad: se seleccionan aleatoriamente 2 ítems de ensayo de aptitud y se

almacenan a una temperatura elevada (60 °C) durante la ronda del programa de ensayo de aptitud
(6 semanas). Los ítems del ensayo de aptitud se probaron por duplicado (Tabla E.3), y los cuatro
resultados se comparan con los valores de homogeneidad.
Tabla E.3 – Datos de estabilidad para ítems de ensayo de aptitud para arsénico en chocolate
Muestra de estabilidad Replicado 1 Replicado 2
164 0,191 0,198
732 0,190 0,196
Media general: = 0,193 75
Diferencia de la media de Homogeneidad: 0,193 75 - 0,187 15 = 0,006 60
Valor de comprobación: 0,3 σpt = 0,008 42
Conclusión La diferencia es menor que el valor de comprobación, por lo que la estabilidad

es suficiente.

NCh3800:2023
ISO 13528:2022
E.3 Ejemplo completo de atrazina en agua potable

Un programa de ensayo de aptitud para un herbicida (Atrazina) en agua potable tiene 34 participantes.
Los resultados enviados se dan, como xi, en la Tabla E.4, ordenados por valor para mayor claridad.
La tabla muestra los valores calculados para la media robusta y la desviación estándar siguiendo el
Algoritmo A, luego de 6 iteraciones hasta que la media robusta y la desviación estándar no cambian
en sus terceras cifras significativas. Los datos se muestran como gráficos de datos clasificados en la
Figura E.1 y en el histograma correspondiente y el gráfico de densidad del kernel en la Figura E.2 y la
Figura E.3, respectivamente.
NOTA Tanto el histograma como el gráfico de densidad muestran modas menores aparentes en ambos extremos.
Estos se deben a un pequeño número de valores atípicos más que a una característica de la distribución subyacente de
resultados válidos.
La Tabla E.5 muestra los estimaciones de localización (promedio) y desviación estándar usando varias
técnicas clásicas y robustas. También se muestra la incertidumbre de la estimación de la localización.
Los estadísticos para el método bootstrap se derivan de los procedimientos en las Referencias [17]

y [18] utilizando el paquete de software R (ver Ejemplo E.6 y Anexo F para un ejemplo de script).
La Figura E.4 muestra los diferentes estimaciones de localización y la estimación de la incertidumbre
expandida (2u(xpt)) como la barra de error.
Tabla E.4 – Cálculo del promedio robusto y la desviación estándar de atrazina en agua potable
1ª 2ª 3ª 4ª 5ª 6ª
xi
iteración iteración iteración iteración iteración iteración
x* - δ 0,204 163 0,199 732 0,198 466 0,198 037 0,197 865 0,197 790
x* + d 0,319 837 0,315 969 0,315 871 0,316 065 0,316 185 0,316 243
1 0,040 0 0,204 2 0,199 7 0,198 5 0,198 0 0,197 9 0,197 8
2 0,055 0 0,204 2 0,199 7 0,198 5 0,198 0 0,197 9 0,197 8
3 0,178 0 0,204 2 0,199 7 0,198 5 0,198 0 0,197 9 0,197 8
4 0,202 0 0,204 2 0,202 0 0,202 0 0,202 0 0,202 0 0,202 0
5 0,206 0 0,206 0 0,206 0 0,206 0 0,206 0 0,206 0 0,206 0
6 0,227 0 0,227 0 0,227 0 0,227 0 0,227 0 0,227 0 0,227 0
7 0,228 0 0,228 0 0,228 0 0,228 0 0,228 0 0,228 0 0,228 0
8 0,230 0 0,230 0 0,230 0 0,230 0 0,230 0 0,230 0 0,230 0
9 0,230 0 0,230 0 0,230 0 0,230 0 0,230 0 0,230 0 0,230 0
10 0,235 0 0,235 0 0,235 0 0,235 0 0,235 0 0,235 0 0,235 0
11 0,236 0 0,236 0 0,236 0 0,236 0 0,236 0 0,2360 0,236 0
12 0,237 0 0,237 0 0,237 0 0,237 0 0,237 0 0,237 0 0,237 0
13 0,243 0 0,243 0 0,243 0 0,243 0 0,243 0 0,243 0 0,243 0
14 0,244 0 0,244 0 0,244 0 0,244 0 0,244 0 0,244 0 0,244 0
15 0,245 0 0,245 0 0,245 0 0,245 0 0,245 0 0,245 0 0,245 0
16 0,255 5 0,255 5 0,255 5 0,255 5 0,255 5 0,255 5 0,255 5
(continúa)


NCh3800:2023
ISO 13528:2022
Tabla E.4 – Cálculo del promedio robusto y la desviación estándar de atrazina en agua potable
(conclusión)
1ª 2ª 3ª 4ª 5ª 6ª
xi
iteración iteración iteración iteración iteración iteración
x* - δ 0,204 163 0,199 732 0,198 466 0,198 037 0,197 865 0,197 790
x* + d 0,319 837 0,315 969 0,315 871 0,316 065 0,316 185 0,316 243
17 0,260 0 0,260 0 0,260 0 0,260 0 0,260 0 0,260 0 0,260 0
18 0,264 0 0,264 0 0,264 0 0,264 0 0,264 0 0,264 0 0,264 0
19 0,267 0 0,267 0 0,267 0 0,267 0 0,267 0 0,267 0 0,267 0
20 0,270 0 0,270 0 0,270 0 0,270 0 0,270 0 0,270 0 0,270 0
21 0,273 0 0,273 0 0,273 0 0,273 0 0,273 0 0,273 0 0,273 0
22 0,274 0 0,274 0 0,274 0 0,274 0 0,274 0 0,274 0 0,274 0

23 0,274 0 0,274 0 0,274 0 0,274 0 0,274 0 0,274 0 0,274 0
24 0,278 0 0,278 0 0,278 0 0,278 0 0,278 0 0,278 0 0,278 0
25 0,281 1 0,281 1 0,281 1 0,281 1 0,281 1 0,281 1 0,281 1
26 0,287 0 0,287 0 0,287 0 0,287 0 0,287 0 0,287 0 0,287 0
27 0,287 0 0,287 0 0,287 0 0,287 0 0,287 0 0,287 0 0,287 0
28 0,288 0 0,288 0 0,288 0 0,288 0 0,288 0 0,288 0 0,288 0
29 0,289 0 0,289 0 0,289 0 0,289 0 0,289 0 0,289 0 0,289 0
30 0,295 0 0,295 0 0,295 0 0,295 0 0,295 0 0,295 0 0,295 0
31 0,296 0 0,296 0 0,296 0 0,296 0 0,296 0 0,296 0 0,296 0
32 0,311 0 0,311 0 0,311 0 0,311 0 0,311 0 0,311 0 0,311 0
33 0,331 0 0,319 8 0,316 0 0,315 9 0,316 1 0,316 2 0,316 2
34 0,424 6 0,319 8 0,316 0 0,315 9 0,316 1 0,316 2 0,316 2
promedio 0,251 2 0,257 9 0,257 2 0,257 1 0,257 0 0,257 0 0,257 0
DE 0,067 2 0,034 2 0,034 5 0,034 7 0,034 8 0,034 8 0,034 8
δ 0,057 8 0,058 1 0,058 7 0,059 0 0,059 2 0,059 2
Nuevo x* 0,262 0 0,257 9 0,257 2 0,257 1 0,257 0 0,257 0 0,257 0
Nuevo s* 0,038 6 0,038 7 0,039 1 0,039 3 0,039 4 0,039 5 0,039 5

NCh3800:2023
ISO 13528:2022
Y
0,5
0,4
0,3

0,2
0,1
X
4
78
22
42
93
10
19
26
50
39
20
45
32
33
14
27
91
79
30
24
37
43
75
99
40
11
68
114
106
100
110
105
108
102
X código de laboratorio
Y concentración de atrazina (mg L-1)
Figura E.1 – Resultados clasificados de los participantes para Atrazina (datos de la Tabla E.4)


NCh3800:2023
ISO 13528:2022
12
0
0,08 0,16 0,24 0,32 0,40 X
X concentración de atrazina (mg L-1)

Figura E.2 – Histograma de los resultados de los participantes
-0,1 0 0,1 0,2 0,3 0,4 0,5 X
X concentración de atrazina (mg L-1)
Y densidad kernel
Figura E.3 – Gráfica de densidad kernel para los resultados de los participantes

NCh3800:2023
ISO 13528:2022
Tabla E.5 – Estadísticos resumidos para el ejemplo de atrazina
Procedimiento Localización (promedio) Desviación estándar u(xpt)
Robusto: Mediana, nIQR (MADe) 0,262 0 0,040 2 0,008 6

(0,038 6)
Robusto: Algoritmo A (x*, s*) 0,257 0 0,039 5 0,008 5
Robusto: Q/Hampel 0,260 0 0,042 6 0,009 1
Bootstrap (por media) 0,250 3 0,066 7 0,011 3
Aritmética, valores atípicos eliminados 0,258 8 0,033 7 0,006 1
Aritmética, valores atípicos incluidos 0,251 2 0,067 2 0,011 5
NOTA Los diferentes paquetes de software comerciales tienen diferentes procedimientos para calcular los cuartiles,
lo que puede causar diferencias notables en el nIQR. Las discrepancias menores de las cifras anteriores podrían deberse
a esas diferencias o a los diferentes procedimientos de redondeo.

Y
0,32
xpt ± 2u(xpt)
0,28
0,24
0,2
1 2 3 4 5 6
Y concentración de atrazina (mg L-1)
1 robusto: mediana, nIQR (MADe)
2 robusto: algoritmo A (x*, s*)
3 robusto: Q/hampel
4 bootstrap (por media)
5 aritmética, valores atípicos eliminados
6 aritmética, valores atípicos incluidos
Figura E.4 – Resumen de estadísticos robustos de Tabla E.5


NCh3800:2023
ISO 13528:2022
E.4 Ejemplo completo de mercurio en alimentos para animales

En una ronda de un programa de ensayo de aptitud, se instruye a los participantes para que informen
sus resultados como lo harían de forma rutinaria y que informen su incertidumbre expandida (Ulab) y
el factor de cobertura (k). A continuación, el proveedor de ensayos de aptitud calcula la incertidumbre
estándar (ulab) como Ulab/k. Las banderas se asignan a las incertidumbres reportadas, siguiendo
los criterios discutidos en 9.8. Los datos que se muestran en las Tablas E.6 y E.7 corresponden al
mercurio total en el alimento. En la Tabla E.6, la incertidumbre estándar ulab se calculó a partir de
la incertidumbre expandida Ulab del participante, dividiéndola por el factor de cobertura informado
k; y se muestran aquí como valores redondeados. Para el cálculo de los estadísticos de desempeño
en Tabla E.7, se usaron valores no redondeados para ulab. Para el código de participante L23 no se
informó un factor de cobertura y se utilizó 1,732 (la raíz cuadrada de 3, redondeada).
Las puntuaciones de desempeño se calcularon utilizando las técnicas descritas en cláusula 9. Para
todos los cálculos se utilizó un valor de referencia como xpt y σpt fue un valor de adecuación al propósito
basado en la experiencia previa. La incertidumbre del valor asignado fue la incertidumbre estándar

combinada del valor de referencia más la incertidumbre debida a la falta de homogeneidad.
xpt = 0,044 mg/kg; U(xpt) = 0,008 2 mg/kg; σpt = 0,006 6 mg/kg (= 15%);
El gráfico de densidad kernel de la Figura E.6 muestra una distribución bimodal muy clara, debido
a las diferencias de método. Esto no afectó la evaluación del desempeño, porque se usó un valor
de referencia como xpt y un valor de idoneidad para el propósito como σpt. Para este análisis, se
eliminaron los resultados con un valor inferior a (<).
Tabla E.6 – Resultados del ensayo de aptitud de 24 participantes en el estudio IMEP 111
Código de
Valor Ulab k ulab Bandera Método
laboratorio
L04 0,013 0,003 2 0,002 b AMA
L05 0,013 0,007 2 0,004 a AMA
L23 0,013 5 0,001 08 1,732 0,000 62 b AMA
L02 0,014 0,004 2 0,002 b AMA
L15 0,014 0,000 5 2 0,000 3 b AMA
L17 < 0,015 CV-ICP-AES
L06 0,016 0,003 2 0,002 b AMA
L09 0,017 0,008 2 0,004 a AMA
L26 0,019 0,003 2 0,002 b AAS
L12 0,023 9 0,003 6 2 0,001 8 b AMA
L13 < 0,034 TDA-AAS
L03 0,037 0,013 2 0,007 a CV-AAS
L29 0,039 0,007 2 0,004 a CV-AAS
L07 0,04 0,008 2 0,004 a ICP-MS
L21 0,04 0,03 2 0,02 C HG-AAS
(continúa)

NCh3800:2023
ISO 13528:2022
Tabla E.6 – Resultados del ensayo de aptitud de 24 participantes en el estudio IMEP 111 (conclusión)
Código de
Valor Ulab k ulab Bandera Método
laboratorio
L25 0,040 0,010 2 0,005 a CV-AAS
L16 0,042 4 0,008 2 0,004 a CV-AAS
L08 0,044 0,007 2 0,004 a CV-AAS
L10 0,045 0,007 2 0,004 a ICP-MS
L24 0,045 0,005 2 0,003 a HG-AAS
L18 0,046 0,007 2 0,004 a CV-AAS
L28 0,049 0,007 2 2 0,003 6 a CV-AAS
L01 0,053 0,007 2 0,004 a CV-AAS
L14 < 0,1 ICP-MS

Y
0,12
0,1
0,08
0,06 xpt + 2σpt

xpt + U(xpt)
0,04 xpt − U(xpt)
xpt + 2σpt
0,02
0
X
L04
L05
L23
L02
L15
L17
L06
L09
L26
L12
L13
L03
L29
L07
L21
L25
L16
L08
L10
L24
L18
L28
L01
L14
Y mercurio total en el pienso (mg kg-1)
NOTA 1 Las líneas discontinuas muestran xpt ± U(xpt) y las líneas punteadas muestran xpt ± 2 σpt.
NOTA 2 Los círculos abiertos y las líneas verticales discontinuas muestran los resultados ingresados como “menor que”.
Figura E.5 – Resultados de los participantes e incertidumbres para los resultados

en IMEP 111 (datos de la Tabla E.6)


NCh3800:2023
ISO 13528:2022
Y
30
xpt = 0,044
25
20
15
10
0
0 0,02 0,04 0,06 0,08 X

X concentración de mercurio (mg kg-1 )
Y densidad kernel
Tabla E.7 – Estadísticos de desempeño por varios métodos
Código de
D% PA z z’ ζ En
laboratorio
L04 -70,5% -156,6% -4,70 -3,99 -7,10 -3,55
L05 -70,5% -156,6% -4,70 -3,99 -5,75 -2,88
L23 -69,3% -154,0% -4,62 -3,93 -7,35 -3,69
L02 -68,2% -151,5% -4,55 -3,86 -6,58 -3,29
L15 -68,2% -151,5% -4,55 -3,86 -7,30 -3,65
L17
L06 -63,6% -141,4% -4,24 -3,60 -6,41 -3,21
L09 -61,4% -136,4% -4,09 -3,47 -4,71 -2,36
L26 -56,8% -126,3% -3,79 -3,22 -5,73 -2,86
L12 -45,7% -101,5% -3,05 -2.59 -4,49 -2,24
L13
L03 -15,9% -35,4% -1,06 -0,90 -0,91 -0,46
L29 -11,4% -25,3% -0,76 -0,64 -0,93 -0,46
L07 -9,1% -20,2% -0,61 -0,51 -0,70 -0,35
L21 -9,1% -20,2% -0,61 -0,51 -0,26 -0,13
L25 -9,1% -20,2% -0,61 -0,51 -0,62 -0,31
L16 -3,6% -8,1% -0,24 -0,21 -0,28 -0,14
(continúa)

NCh3800:2023
ISO 13528:2022
Tabla E.7 – Estadísticos de desempeño por varios métodos (conclusión)

Código de
D% PA z z’ ζ En
laboratorio
L08 0,0% 0,0% 0,00 0,00 0,00 0,00
L10 2,3% 5,1% 0,15 0,13 0,19 0,09
L24 2,3% 5,1% 0,15 0,13 0,21 0,10
L18 4,5% 10,1% 0,30 0,26 0,37 0,19
L28 11,4% 25,3% 0,76 0,64 0,92 0,46
L01 20,5% 45,5% 1,36 1,16 1,67 0,83
L14
*Este ejemplo es cortesía del Centro Común de Investigación de la Comisión Europea, Instituto de

Mediciones y Materiales de Referencia, Programa Internacional de Evaluación de Mediciones (IMEP®),
estudio 111.
E.5 Valor de referencia de un solo laboratorio: valor de Los Ángeles de los

agregados (ver 7.5)
La Tabla E.8 proporciona un ejemplo de datos que podrían obtenerse en una serie de ensayos en un
ítem de ensayo de aptitud y un material de referencia certificado (MRC) muy similar que tiene un valor
de propiedad certificado de 21,62 unidades LA y una incertidumbre asociada de 0,26 unidades LA.
Este ejemplo muestra cómo se obtienen un valor de referencia y una incertidumbre para el ítem de
ensayo de aptitud. Tenga en cuenta que la incertidumbre del valor certificado para el MRC incluye la
incertidumbre debida a la falta de homogeneidad, el transporte y la estabilidad a largo plazo.
xpt = 21,62 + 1,73 = 23,35 unidades LA
Y,
u ( x pt ) = 0, 262 + 0, 242 = 0, 35 unidades LA
donde 0,26 es la incertidumbre estándar del valor certificado del MRC y 0,24 es la incertidumbre
estándar de d .


NCh3800:2023
ISO 13528:2022
Tabla E.8 – Cálculo de la diferencia promedio entre un MRC y un ítem de ensayo de aptitud,
y de la incertidumbre estándar de esta diferencia
Diferencia en
Ítem de ensayo de aptitud MRC
valores promedio
Muestra
Ensayo 1 Ensayo 2 Ensayo 1 Ensayo 2 Ítem EA - MRC
Unidades LA Unidades LA Unidades LA Unidades LA Unidades LA
1 20,5 20,5 19,0 18,0 2,00
2 21,1 20,7 19,8 19,9 1,05
3 21,5 21,5 21,0 21,0 0,50
4 22,3 21,7 21,0 20,8 1,10
5 22,7 22,3 20,5 21,0 1,75
6 23,6 22,4 20,3 20,3 2,70

7 20,9 21,2 21,5 21,8 -0,60
8 21,4 21,5 21,9 21,7 -0,35
9 23,5 23,5 21,0 21,0 2,50
10 22,3 22,9 22,0 21,3 0,95
11 23,5 24,1 20,8 20,6 3,10
12 22,5 23,5 21,0 22,0 1,50
13 22,5 23,5 21,0 21,0 2,00
14 23,4 22,7 22,0 22,0 1,05
15 24,0 24,2 22,1 21,5 2,30
16 24,5 24,4 22,3 22,5 2,05
17 24,8 24,7 22,0 21,9 2,80
18 24,7 25,1 21,9 21,9 3,00
19 24,9 24,4 22,4 22,6 2,15
20 27,2 27,0 24,5 23,7 3,00
Diferencia media, d 1,73
Desviación estándar 1,07
Incertidumbre estándar de d (desviación estándar/ 20 ) 0,24
NOTA Los datos son medidas de la resistencia mecánica del agregado, obtenidas del ensayo de Los Ángeles (LA).
E.6 Ejemplo de técnica bootstrap para coliformes en muestras de alimentos

(ver 7.7.6)
35 participantes asistieron a un programa de ensayos de aptitud para coliformes en muestras de
alimentos (leche), que realizaron cinco mediciones independientes. Se utilizó la media de datos log de
UFC de cada participante para estimar el valor asignado y su incertidumbre. Se estableció un valor de
aptitud para el propósito igual a “0,25 log UFC/ml” como σpt mientras que la desviación estándar de
la función kernel fue 0,75 σpt (cf. “bw” en el código R). La gráfica de densidad kernel (ver Figura E.7)

NCh3800:2023
ISO 13528:2022
presenta una distribución asimétrica. Se aplicó el método bootstrap (1 000 repeticiones) para estimar
la moda y el error estándar correspondiente de la función de densidad kernel de la distribución de
datos, establecidos como xpt y u(xpt), respectivamente. El script de computadora se proporciona en
Anexo F. Se obtuvieron los siguientes valores:
xpt = 3,79 y u(xpt) = 0,092 2 en log UFC/ml
NOTA Dado que u(xpt) > 0,3 σpt, los desempeños del laboratorio se evaluaron utilizando puntuaciones z’.
Y
1,5

0,5
1 2 3 4 5 X
X coliformes (log10UFC/ml)
Y densidad kernel
E.7 Comparación del valor de referencia y la media de consenso (ver 7.8)

Como demostración del procedimiento en 7.8 para comparar un valor de referencia con la media
robusta de los resultados de los participantes, considere el ejemplo E.4 y los datos en la Tabla E.6.
En esta ronda de un programa de ensayo de aptitud, la media robusta x* es 0,031 61 y la desviación

estándar robusta s* es 0,016 4, calculada con el Algoritmo A, después de eliminar 3 resultados que
tenían valores “menores que” (n = 21 después de eliminar resultados censurados). Por lo tanto, la
incertidumbre de la media robusta se calcula como
u (x *) = 1, 25(s * / n )
u (x ∗ ) = 1, 25(0, 016 4 / 21) = 0, 004 5


NCh3800:2023
ISO 13528:2022
De 7.8, Ecuación (7), la incertidumbre de la diferencia entre xref y x* es la siguiente:
udiff = u 2 (xref ) + u 2 (x *) = 0, 004 12 + 0, 004 52 = 0, 006 1
Udiff = 2(0,006 1) = 0,012
xdiff = xref – x* = 0,044 – 0,032 = 0,012 por lo que la diferencia es dos veces la incertidumbre de la
diferencia.
No se recomienda ninguna acción, ya que se entiende el sesgo en algunos métodos.
E.8 Determinación de criterios de evaluación por experiencia con rondas

previas de un programa de ensayo de aptitud: toxafeno en agua potable (ver 8.3)
Hay dos proveedores de ensayos de aptitud que organizan programas de ensayos de aptitud para el
pesticida toxafeno (un pesticida) en agua potable. Durante un período de 5 años, ha habido 20 rondas

de los programas de ensayos de aptitud en las que hubo 20 o más participantes, cubriendo niveles
regulados de toxafeno de 3 µg/L a 20 µg/L. La Tabla E.9 muestra los resultados de las 20 rondas de
los programas de ensayo de aptitud, ordenados de menor a mayor valor asignado. Las Figuras E.8
y E.9 muestran los diagramas de dispersión para la desviación estándar relativa robusta (% RSD)
y la desviación estándar robusta (SD) para cada ronda de los programas de ensayo de aptitud, en
comparación con el valor asignado (de la formulación). Las fórmulas para la línea de regresión lineal
de mínimos cuadrados simples se muestran para cada figura. Las líneas de regresión de mínimos
cuadrados se pueden determinar con el software de hoja de cálculo generalmente disponible. (También
se verificó un modelo polinomial de segundo orden para la relación entre la desviación estándar y el
valor asignado, pero el término cuadrático no fue significativo, lo que indica que no hay una curva
significativa en la línea, por lo que el modelo lineal simple es apropiado).
Es evidente que la RSD es bastante constante en torno al 19% para todos los niveles, y que la
línea de regresión para la desviación estándar es razonablemente fiable (coeficiente de determinación
r2 = 0,82). Un organismo regulador puede optar por exigir que la desviación estándar para la evaluación
de la aptitud sea el 19% del valor asignado (o quizás el 20%), o puede exigir el cálculo de la desviación
estándar esperada, utilizando la Ecuación de regresión para la desviación estándar.

toxafeno en agua potable y resultados de p ≥ 20
Código de Valor Desviación Recuperación RSD

Media robusta p
proveedor de EA asignado estándar media (% de VA)
P004 3,96 3,98 0,639 100,5% 16,1% 25
P001 4,56 5,18 0,638 113,6% 14,0% 23
P001 5,99 5,98 0,995 99,8% 16,6% 22
P004 6,08 5,80 1,48 95,4% 24,3% 20
P001 6,20 6,66 0,97 107,4% 15,7% 23
P001 6,72 7,13 1,43 106,1% 21,3% 22
P004 8,10 7,09 2,23 87,5% 27,5% 21
P001 8,73 8,15 1,80 93,4% 20,6% 22
(continúa)
NCh3800:2023
ISO 13528:2022

toxafeno en agua potable y resultados de p  20 (conclusión)
Código de Valor Desviación Recuperación RSD
Media robusta p
proveedor de EA asignado estándar media (% de VA)
P001 9,57 8,60 1,45 89,9% 15,2% 23
P001 12,1 12,4 1,44 102,5% 11,9% 23
P001 12,5 13,8 2,25 110,4% 18,0% 24
P004 13,1 12,0 2,41 91,6% 18,4% 20
P004 15,6 13,3 3,57 85,3% 22,9% 27
P004 15,9 13,6 2,44 85,5% 15,3% 28
P004 16,3 13,5 3,60 82,8% 22,1% 31
P004 16,3 14,2 3,09 87,1% 19,0% 40

P004 17,0 15,6 2,63 91,8% 15,5% 24
P004 17,4 16,0 2,85 92,0% 16,4% 23
P004 17,4 16,0 3,36 92,0% 19,3% 23
P004 19,0 16,4 3,20 86,3% 16,8% 27
Y
30
25
20 2
RSD = 18,774 - 0,036 9 xpt (R = 0,042 4)
RSD = 18,3%
15
10
0 4 8 12 16 20 xpt
xpt (µg L-1)
Y RSD (%)
Figura E.8 – Desviación estándar relativa de los resultados de los participantes (%)
frente al valor de referencia asignado (µg/L)


NCh3800:2023
ISO 13528:2022
Y
4
3,5
Y = 0,175 xpt + 0,088 7
3 2
R = 0,82
2,5
1,5
0,5
0 4 8 12 16 20 xpt

xpt (µg L-1)
Y SD (µg L-1)
Figura E.9 – Desviación estándar del participante (µg/l) frente al valor asignado (µg/l)
E.9 A partir de un modelo general: ecuación de Horwitz (ver 8.4)

Horwitz describió un modelo general común para aplicaciones químicas[22] [31]. Este enfoque brinda
un modelo general para la desviación estándar de la reproducibilidad de los métodos analíticos que
puede usarse para derivar la siguiente expresión para la desviación estándar de la reproducibilidad:
σR = 0,02 × c0,849 5
donde c es la concentración de la especie química a determinar en fracción de masa.
Por ejemplo, un programa de ensayo de aptitud para la melamina en la leche en polvo utiliza dos ítems
de ensayo de aptitud con niveles de referencia A = 1,195 mg/kg y B = 2,565 mg/kg (0,000 001 195 y
0,000 002 565). Esto produce las siguientes desviaciones estándar de reproducibilidad esperadas:
Ítem A del ensayo de aptitud a 1,195 mg/kg: σR = 0,186 mg/kg o relativo σR = 15,6%.
Ítem B del ensayo de aptitud a 2 565 mg/kg: σR = 0,356 mg/kg o relativo σR = 13,9%.
E.10 Determinación del desempeño a partir de un experimento de precisión:

Determinación del contenido de cemento del hormigón endurecido (ver 8.5)
El contenido de cemento en el hormigón suele medirse en términos de masa en kilogramos de cemento
por metro cúbico de hormigón (es decir, en kg/m3). En la práctica, el concreto se produce en grados de
calidad que tienen contenidos de cemento separados por 25 kg/m3 y es deseable que los participantes
deberían poder identificar el grado correctamente. Por esta razón, es deseable que el valor elegido de
σpt no debería ser más de la mitad de 25 kg/m3 (σpt < 12,5 kg/m3).

NCh3800:2023
ISO 13528:2022
Un experimento de precisión arrojó los siguientes resultados, para un concreto con un contenido
promedio de cemento de 260 kg/m3: σR = 23,2 kg/m3 y σr = 14,3 kg/m3. Suponga que se van a realizar
m = 2 mediciones replicadas.
Entonces, siguiendo la Ecuación (9):
σpt = 23, 22 − 14, 32 (1 − 1 / 2) kg/m3 = 20,9 kg/m3
Entonces, el objetivo de tener σpt < 25/2 kg/m3 = 12,5 kg/m3 puede no ser práctico.
NOTA En ISO 5725-2, σR = σL2 + σr2 siendo σL la componente de la varianza por diferencias interlaboratorio.
En este ejemplo, σL podría calcularse como σL = σR2 − σr2 = (23, 22 − 14, 32 ) = 18, 3 kg/m3.
E.11 Gráficos de barras de sesgos estandarizados: Concentraciones de

anticuerpos (ver 10.4)
Las puntuaciones z de una ronda de programa de ensayo de aptitud con tres mensurandos relacionados
(anticuerpos) se muestran en Figura E.10 representadas como un gráfico de barras. Los datos de
dos de los tres alérgenos se muestran en Tabla E.10. A partir de este gráfico, los laboratorios B y
Z (por ejemplo) pueden ver que deberían buscar una causa de sesgo que afecte a los tres niveles
aproximadamente en la misma cantidad, mientras que los laboratorios K y P (por ejemplo) pueden ver
que en su caso el signo de la puntuación z depende del tipo de anticuerpo.
Y
4
-1
-2
-4
A B CD E F GH I J K LMNO P QR S T U VW X Y Z a X
Y puntuación z
Figura E.10 – Gráfico de barras de puntuaciones z (4,0 a −4,0) para una ronda de un programa de
ensayo de aptitud en el que los participantes determinaron las concentraciones de
tres anticuerpos IgE específicos de alérgenos


NCh3800:2023
ISO 13528:2022
E.12 Gráfico de Youden - concentraciones de anticuerpos (ver 10.5)

La Tabla E.10 muestra los datos obtenidos al probar dos ítems de ensayo de aptitud similares para
concentraciones de anticuerpos. En la Figura E.11 se muestran las puntuaciones de desempeño (z)
basadas en la media robusta y la desviación estándar utilizando el Algoritmo A.
La inspección de la Figura E.11 revela dos participantes (números 5 y 23) en el cuadrante superior
derecho y, por lo tanto, podría tener un sesgo positivo coherente. El laboratorio 26 tiene una
puntuación z alta en el ítem B del ensayo de aptitud y una puntuación z negativa de -0,055 en el
ítem A del ensayo de aptitud, por lo que podría tener una repetibilidad deficiente.
Los participantes 5, 23 y 26 deberían tratar sus resultados como señales de “advertencia” y verificar
donde se ubican sus resultados en la próxima ronda del programa de ensayos de aptitud. La revisión
visual y el coeficiente de correlación indican una tendencia a puntuaciones z coherentes (positivas o
negativas), por lo que podría haber una oportunidad de mejorar el método de medición con instrucciones
más detalladas.

Y
4
-1
-2
-3
-4
-4 -3 -2 -1 0 1 2 3 4 X
X z para el alérgeno A
Y z para el alérgeno B
Figura E.11 – Gráfico de Youden de puntuaciones z de la Tabla E.10

NCh3800:2023
ISO 13528:2022
Tabla E.10 – Datos y cálculos sobre concentraciones de anticuerpos para dos alérgenos similares
Laboratorio Datos puntuación z

Alérgeno A Alérgeno B Alérgeno A Alérgeno B
i xA, i xB, i zA, i zB, i
1 12,95 9,15 0,427 0,515
2 6,47 6,42 −1,540 −0,428
3 11,40 6,60 −0,043 −0,366
4 8,32 4,93 −0,978 −0,942
5 18,88 13,52 2,228 2,023
6 15,14 8,22 1,092 0,194
7 10,12 7,26 −0,432 −0,138
8 17,94 9,89 1,942 0,770

9 11,68 4,17 0,042 −1,204
10 12,44 7,39 0,272 −0,093

11 6,93 7,78 −1,400 0,042
12 9,57 5,80 −0,599 −0,642
13 11,73 5,77 0,057 −0,652
14 12,29 6,97 0,227 −0,238
15 10,95 6,23 −0,180 −0,493
16 10,95 5,90 −0,180 −0,607
17 11,17 7,74 −0,113 0,028
18 11,20 8,63 −0,104 0,335
19 7,64 3,74 −1,185 −1,353
20 12,17 7,33 0,190 −0,114
21 10,71 5,70 −0,253 −0,676
22 7,84 6,07 −1,124 −0,549
23 20,47 15,66 2,710 2,762
24 12,60 11,76 0,321 1,415
25 11,37 4,91 −0,052 −0,949
26 11,36 13,51 −0,055 2,019
27 10,75 5,48 −0,241 −0,752
28 12,21 9,77 0,203 0,729
29 7,49 5,82 −1,230 −0,635
Promedio 11,54 7,66 0,00 0,00
Desviación estándar 3,29 2,90 1,00 1,00
Coeficiente de
0,706 0,706
correlación
NOTA 1 Los datos son números de unidades (U) en miles (k) por litro (L) de muestra, donde una unidad se define por la
concentración de un material de referencia internacional.
NOTA 2 Las puntuaciones z en esta tabla se han calculado usando valores no redondeados de los promedios robustos y
las desviaciones estándar, no usando los valores redondeados que se muestran en la parte inferior de la tabla.


NCh3800:2023
ISO 13528:2022
E.13 Gráfica de desviaciones estándar de repetibilidad: Concentraciones de

anticuerpos (ver 10.6)
La Tabla E.11 muestra los resultados de la determinación de las concentraciones de un determinado
anticuerpo en los ítems del ensayo de aptitud del suero. Cada participante realizó cuatro
determinaciones replicadas, en condiciones de repetibilidad. Las Ecuaciones dadas anteriormente se
utilizan para obtener el gráfico que se muestra en la Figura E.12. El gráfico muestra que varios de los
laboratorios reciben señales de acción o advertencia.
Tabla E.11 – Concentraciones de ciertos anticuerpos en ítems de ensayo de aptitud en suero

(cuatro determinaciones replicadas en un ítem de ensayo de aptitud por cada participante)
Promedio Desviación estándar

Laboratorio
kU/L kU/L
1 2,15 0,13

2 1,85 0,21
3 1,80 0,08
4 1,80 0,24
5 1,90 0,36
6 1,90 0,32
7 1,90 0,14
8 2,05 0,26
9 2,35 0,39
10 2,03 0,53
11 2,08 0,25
12 1,25 0,24
13 1,13 0,72
14 1,00 0,26
15 1,08 0,17
16 1,20 0,32
17 1,35 0,4
18 1,23 0,36
19 1,23 0,33
20 0,90 0,43
21 1,48 0,40
22 1,20 0,55
23 1,73 0,39
24 1,43 0,30
25 1,28 0,22
Promedio robusto 1,57
Desviación estándar robusta 0,34
NOTA Los datos son números de unidades (U) en miles (k) por litro (L) de muestra, donde una unidad se define por la
concentración de un material de referencia internacional.

NCh3800:2023
ISO 13528:2022
Y
1,6
a
1,4
1,2
b
1
0,8 c
0,6
0,4
0,2
0
0,8 1 1,2 1,4 1,6 1,8 2 2,2 2,4 X

X concentración promedio (kU/L)
Y desviación estándar (kU/L)
a nivel 0,1%
b nivel 1%
c nivel 5%
Figura E.12 – Gráfica de desviaciones estándar contra promedios de 25 participantes

(datos de la Tabla E.10)
E.14 Métodos gráficos para el seguimiento del desempeño a lo largo del tiempo
(ver 10.8)
Puede ser útil para un participante realizar un seguimiento de su propio desempeño a lo largo del
tiempo, o que el proveedor de ensayos de aptitud lo prepare. Una herramienta simple y convencional
es un gráfico de control de calidad o diagrama de Shewhart. Esto requiere tener una puntuación
de desempeño estandarizado, como la puntuación z o la puntuación PA y la participación en varias
rondas del programa de ensayo de aptitud. Este ejemplo es de un programa de ensayo de aptitud
médica para el potasio sérico.
Este proveedor de ensayos de aptitud utiliza un intervalo fijo para la aceptación del 5%, aunque con
redondeo al siguiente valor notificable (0,1 mmol/L), y no inferior a ± 0,2 mmol/L. El proveedor de
ensayos de aptitud utiliza puntuaciones PA en lugar de puntuaciones z.


NCh3800:2023
ISO 13528:2022
Tabla E.12 – Puntuaciones PA para 5 rondas a del programa de ensayo de aptitud,

cada una con 3 ítems de ensayo de aptitud para potasio sérico
Ítem de ensayo
Código redondo Resultado Valor asignado Puntuación PA PA promedio
de aptitud
101 A 6,4 6,2 75 42
101 B 4,2 4,1 50
101 C 4,1 4,1 0
102 A 6,0 5,9 25 8
102 B 4,3 4,4 -33
102 C 5,5 5,4 33
103 A 4,1 4,2 -33 -28
103 B 3,6 3,7 -50

103 C 4,2 4,2 0
104 A 5,7 5,8 -25 11
104 B 3,9 4,0 -50
104 C 6,3 5,9 110
105 A 3,6 3,7 -50 -19
105 B 4,5 4,6 -33
105 C 5,3 5,2 25
Los resultados se pueden graficar fácilmente para su revisión - se recomiendan 2 tipos de gráficos:
— Carta de control de calidad de la puntuación de desempeño estandarizado para cada ronda, que
muestre múltiples ítems de ensayo de aptitud en la misma ronda del programa de ensayo de
aptitud. Esto resaltará el desempeño a lo largo del tiempo, incluidas las tendencias; se muestra
en Figura E.13.
— Gráfico de dispersión de puntuaciones de desempeño estandarizados contra valores asignados,

para ver si el desempeño está relacionado con el nivel de concentración, para mostrar cualquier
tendencia relacionada con el nivel del mensurando; se muestra en Figura E.14.

NCh3800:2023
ISO 13528:2022
Y
120
a
80
40
0 b
-40
-80
-120
100 101 102 103 104 105 106 X

X evento de EA
Y puntuación PA
a “acción”
b PA promedio
Figura E.13 – Puntuaciones de desempeño para cada ronda del programa de

ensayos de aptitud (datos de la Tabla E.12)
Y
120
90
60
30
-30
-60
3,5 4 4,5 5 5,5 6 6,5 X
X valor asignado (mmol/L)

Y puntuación PA
anterior
actual
acción
Figura E.14 – Puntuaciones de desempeño para diferentes niveles del mensurando


NCh3800:2023
ISO 13528:2022
E.15 Análisis Cualitativo de Datos; ejemplo de una cantidad ordinal: reacción de

la piel a un cosmético (ver cláusula 11)
Un programa de ensayo de aptitud implica el análisis de la reacción a un producto para el cuidado de
la piel, cuando se aplica a un sujeto animal estándar. Cualquier reacción inflamatoria se clasifica de
acuerdo con la siguiente escala:
a) sin reacción;
b) enrojecimiento moderado;
c) irritación o hinchazón significativa;
d) reacción severa, incluyendo supuración o sangrado.
Se distribuyen dos ítems de ensayo de aptitud que consisten en dos productos diferentes, etiquetados

como producto A y producto B, y hay 50 participantes para cada producto. Los resultados de los
participantes se enumeran en la Tabla E.13 y se muestran gráficamente en Figura E.15. La moda y la

mediana se enumeran para los resultados de los participantes para cada ítem de ensayo de aptitud.
Tabla E.13 – Resultados de dos ítems de ensayo de aptitud, irritación de la piel
Reacción Producto A Producto B
1 20 (40%) # 8 (16%)
2 18 (36%) @ 12 (24%)
3 10 (20%) 20 (40%) # @
4 2 (4%) 10 (20%)
# modo
@ mediana

NCh3800:2023
ISO 13528:2022
Y
50
a a, b
40
b
30
20
10
0
1 2 3 4 X

X nivel de reacción
Y porcentaje de resultados (%)
a #
b @
ab #,@
artículo A del EA
artículo B del EA
Figura E.15 – Gráfico de barras de respuestas porcentuales a dos ítems de ensayo de

aptitud de irritación de la piel - # modo, @ mediana
Tenga en cuenta que la mediana o la moda se pueden usar como estadísticos de resumen para estos
ítems de ensayo de aptitud, y sugieren que el nivel de reacción al producto B fue más severo que la
reacción al producto A. El proveedor del ensayo de aptitud puede determinar que “señales de acción”
ocurriría para cualquier resultado que esté a más de una unidad ordinal de distancia de la mediana, en
cuyo caso para el producto A, las señales de acción ocurren para los 2 resultados (4%) de “4” y para
el producto B, las señales de acción ocurren para el 8 resultados (16%) de “1”.


NCh3800:2023
ISO 13528:2022
Anexo F
(informativo)
Ejemplo de código de computadora para gráficos y análisis por

remuestreo (“bootstrapping”) de resultados de EA
El siguiente script usó la versión 3.1.1 de R para producir las figuras y los resultados del Ejemplo E.6.
################################
#LIBRARY TO DOWNLOAD AND TO USE
################################

library(boot) #for bootstrap estimates

library(pastecs) #for descriptive statistics
#DATA
#DATA
colif<-c(3.80, 3.90, 3.07, 3.64, 4.06, 3.40, 3.59, 3.39, 3.47, 3.47, 3.77,
3.53, 2.83, 2.75, 2.06, 3.75, 3.73, 3.82, 3.86, 3.88, 3.97, 3.96, 3.80,
3.88, 3.25, 3.45, 3.64, 2.86, 3.17, 3.19, 3.17, 4.22, 3.82, 3.82, 3.95)
#DESCRIPTIVE STATISTICS
options(digits = 3) #number of decimal
stat.desc(colif)
#CONDITIONS
sigmat<-0.25 #standard deviation “fitness for purpose”
bw=0.75*sigmat #standard deviation of kernel density
#HISTOGRAM AND KERNEL DENSITY GRAPH

hist(colif, freq=F,main=””, cex.axis= 1.5,cex.lab=1.5, xlim=c(1,5),
ylim=c(0,1.5), xlab=”Coliforms (log10CFU/ml)”,ylab=”Kernel density”,
breaks=10)
lines(density(colif, kernel=”gaussian”, bw), col=”black”, lwd=3)
#FUNCTION TO DEFINE THE STATISTICS

theta<- function(y,i)
{
dens<-density(y[i], kernel=”gaussian”, bw=bw)
mode<-dens$x[which.max(dens$y)]
}
#BOOTSTRAP MODE CALCULATION AND ITS UNCERTAINTY

set.seed(220) #START POINT OF BOOTSTRAP
boot.statistics<- boot(colif,theta,R=1000)
boot.statistics #MODE AND STANDARD ERROR
Cortesía de Istituto Zooprofilattico Sperimentale delle Venezie - EA Microbiología de los Alimentos

“AQUA”

NCh3800:2023
ISO 13528:2022
Anexo G
(informativo)
Bibliografía
[1] ISO 5725-2, Accuracy (trueness and precision) of measurement methods and results - Part 2:
Basic method for the determination of repeatability and reproducibility of a standard measurement
method.
Intermediate measures of the precision of a standard measurement method.

Basic methods for the determination of the trueness of a standard measurement method.
Alternative methods for the determination of the precision of a standard measurement method.
Use in practice of accuracy values.
[6] ISO 7870-2:2013, Control charts - Part 2: Shewhart control charts.
[7] ISO 11352, Water quality - Estimation of measurement uncertainty based on validation and quality
control data.
[8] ISO 11843-1, Capability of detection - Part 1: Terms and definitions.
[9] ISO 11843-2, Capability of detection - Part 2: Methodology in the linear calibration case.
[10] ISO 16269-4, Statistical interpretation of data - Part 4: Detection and treatment of outliers.
[11] ISO/IEC 17011, Evaluación de la conformidad - Requisitos para los organismos de acreditación
que realizan la acreditación de organismos de evaluación de la conformidad.
[12] ISO/IEC 17025, Requisitos generales para la competencia de los laboratorios de ensayo y
calibración.
[13] ISO Guide 35, Reference materials - Guidance for characterization and assessment of homogeneity
and stability.
[14] ISO/IEC Guide 98-3, Uncertainty of measurement - Part 3: Guide to the expression of uncertainty
in measurement (GUM:1995).
[15] Analytical Method Committee. Royal Society of Chemistry Accred Qual Assur. 2010, 15 pp. 73–79.


NCh3800:2023
ISO 13528:2022
[16] CCQM Guidance note: Estimation of a consensus KCRV and associated Degrees of Equivalence.
Version 10. Bureau International des Poids et Mesures, Paris (2013).
[17] Davison A.C., Hinkley D.V. Bootstrap Methods and Their Application. Cambridge University Press,
1997.
[18] Efron B., Tibshirani R. An Introduction to the Bootstrap. Chapman & Hall, 1993.
[19] Lamberty A., Schimmel H., Pauwels J., The study of the stability of reference materials by
isochronous measurements. Fres J, Anal Chem. 1998, 360 pp. 359-361.
[20] Gower J.C. A general coefficient of similarity and some of its properties. Biometrics. 1971, 27 (4)
pp. 857–871.
[21] Helsel D.R. Nondetects and data analysis: statistics for censored environmental data. Wiley
Interscience, 2005.

[22] Horwitz W. Evaluation of analytical methods used for regulations of food and drugs. Anal. Chem.
1982, 54 pp. 67A–76A.
[23] Jackson J.E. Quality control methods for two related variables. Industrial Quality Control. 1956,
7 pp. 2–6.
[24] Kuselman I., Fajgelj A. IUPAC/CITAC Guide: Selection and use of proficiency testing schemes for
a limited number of participants-chemical analyticallaboratories (IUPAC Technical Report). Pure
Appl. Chem. 2010, 82 (5) pp. 1099–1135.
[25] Maronna R.A., Martin R.D., Yohai V.J. Robust Statistics: Theory and methods. John Wiley & Sons
Ltd, Chichester, England, 2006.
[26] Müller C.H., Uhlig S. Estimation of variance components with high breakdown point and high
efficiency; Biometrika; 88: Vol. 2, pp. 353-366, 2001.
[27] Rousseeuw P.J., Verboven S. Comput. Stat. Data Anal. 2002, 40 pp. 741–758.
[28] Scott D.W. Multivariate Density Estimation: Theory, Practice, and Visualization. Wiley, 1992.
[29] Sheather S.J., Jones M.C. A reliable data-based bandwidth selection method for kernel density
estimation. J. R. Stat. Soc., B. 1991, 53 pp. 683–690.
[30] Silverman B.W. Density Estimation. Chapman and Hall, London, 1986.
[31] Thompson M. Analyst (Lond.). 2000, 125 pp. 385–386.
[32] Thompson M., Ellison S.L.R., Wood R. “The International Harmonized Protocol for the proficiency
testing of analytical chemistry laboratories” (IUPAC Technical Report). Pure Appl. Chem. 2006, 78
(1) pp. 145–196.
[33] Thompson M., Willetts P., Anderson S., Brereton P., Wood R. Collaborative trials of the sampling
of two foodstuffs, wheat and green coffee. Analyst (Lond.). 2002, 127 pp. 689–691.

NCh3800:2023
ISO 13528:2022
[34] Uhlig S. Robust estimation of variance components with high breakdown point in the 1-way random
effect model. In: Kitsos, C.P. and Edler, L.; Industrial Statistics; Physica, S. 65-73, 1997.
[35] Uhlig S. Robust estimation of between and within laboratory standard deviation measurement
results below the detection limit, Journal of Consumer Protection and Food Safety, 2015.
[36] van Nuland Y. ISO 9002 and the circle technique. Qual. Eng. 1992, 5 pp. 269–291.
[37] https://quodata.de/en/web-services/QHampel.html.
[38] ISO 16269-4, Statistical interpretation of data - Part 4: Detection and treatment of outliers.
[39] Robouch P., Naji Y., Vermaercke, P. The “Naji Plot”, a simple graphical tool for the evaluation of
inter-laboratory comparisons, in Richter D., Wöger W., Hässelbarth W. (eds.), Data analysis of key
comparisons, Braunschweig and Berlin, 2003, ISBN 3-89701-933-3.

[40] Ellison S. L. R. Applications of robust estimators of covariance in examination of inter-laboratory

study data. Analytical methods 2019, 11, 2639-2649, https://doi.org/10.1039/C8AY02724B.
[41] Maechler M., Rousseeuw P., Croux C., Todorov V., Ruckstuhl A., Salibian-Barrera M. et al.
c(“Eduardo”, “L. T.”) Conceicao and Maria Anna di Palma (2021). robustbase: Basic Robust
Statistics R package version 0.93-7. URL http://CRAN.R-project.org/package=robustbase.
[42] Christophe Croux and Peter J. Rousseeuw, “Time-Efficient Algorithms for Two Highly Robust
Estimators of Scale,” in Computational Statistics, Volume 1, eds. Y . Dodge and J. Whittaker,
Heidelberg: Physika-Verlag, 41 1-428, 1992.
NOTA EXPLICATIVA NACIONAL
La equivalencia de las Normas Internacionales señaladas anteriormente con Norma Chilena, y su grado de correspondencia
es el siguiente:
Norma Internacional Norma nacional Grado de correspondencia

ISO 5725-3 No hay -
ISO 5725-4 No hay -
ISO 5725-5 No hay -

ISO 7870-2:2013 No hay Existe la Norma Chilena NCh2234:1997, la cual
es una homologación de la versión en inglés de
la Norma Internacional ISO 8258:1991 que fue
reemplazada por ISO 7870-2:2013.
ISO 11352 No hay -
ISO 11843-1 No hay -
(continúa)

NCh3800:2023
ISO 13528:2022
(conclusión)
ISO/IEC 17011 NCh-ISO/IEC 17011:2017 La Norma Chilena NCh-ISO/IEC 17011:2017 es

una adopción idéntica de la versión en español
de la Norma Internacional ISO/IEC 17011:2017.
ISO/IEC 17025 NCh-ISO/IEC 17025:2017 La Norma Chilena NCh-ISO/IEC 17025:2017 es
una adopción idéntica de la versión en español
de la Norma Internacional ISO/IEC 17025:2017.
ISO Guide 35 NCh-ISO Guía 35:2020 La Norma Chilena NCh-ISO Guía 35:2020 es una
ISO Guide 35:2017.
ISO/IEC Guide 98-3 No hay -


NCh3800:2023
ISO 13528:2022
Anexo H
(informativo)
Justificación de los cambios editoriales
Tabla H.1 – Cambios editoriales
Cláusula/subcláusula Cambios editoriales Justificación
En toda la norma Se reemplaza “este documento” por “esta De acuerdo con estructura de NCh2.
norma”.
1 Se reemplaza “Alcance” por “Alcance y De acuerdo con estructura de NCh2.

campo de aplicación”.
2 y Anexo G Se agrega Nota Explicativa Nacional. Para detallar la equivalencia y el grado

de correspondencia de las Normas
Internacionales con las Normas Chilenas.
Figura E.5 Se crean NOTAS 1 y 2 con información Error editorial de la norma base.
sobre la figura.
Anexo G Se reemplaza “Bibliografía” por “Anexo G De acuerdo con estructura de NCh2.

(informativo) Bibliografía”.


NCh3800:2023
ISO 13528:2022
Anexo I
(informativo)
Participantes en elaboración de Norma Chilena NCh3800
La Norma Chilena NCh3800 ha sido preparada por la División de Normas del Instituto Nacional de
Normalización y en su elaboración participaron las personas naturales y organizaciones siguientes:
Aguas Araucanía S.A. Lucía Parra P.

Arech SpA Mauricio Arancibia G.
Biodiversa S.A. Angello Morales O.

Independiente Javier Arellano S.

Independiente Carlos Gómez S.
Independiente Francisca López
Independiente Arturo Maya P.
Independiente Celestino Meneses G.
Independiente Carlos Neumann L.
Independiente Víctor Pérez A.
Independiente Mauro Rojas P.
Instituto Nacional de Normalización, INN Héctor Sáez C.
Intem César Pastén S.
Instituto de Salud Pública de Chile, ISP Francis Alarcón R.
Instituto de Salud Pública de Chile, ISP Paola Cornejo A.
Laboratorio Químico Sanitario Carlos Latorre S.A. Analy Rivera F.
Servicio Nacional de Geología y Minería, Sernageomin Marjorie Arriagada D.


Norma 3800-2023

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Norma 3800-2023

Cargado por

Copyright:

Formatos disponibles

NORMA NCh3800:2023

CHILENA ISO 13528:2022

Métodos estadísticos para uso en ensayos de

USO EXCLUSIVO - SOCIEDAD DE DESARROLLO TECNOLOGICO - USACH LTDA. (PROHIBIDO LA REPRODUCCIÓN)

USO EXCLUSIVO - SOCIEDAD DE DESARROLLO TECNOLOGICO - USACH LTDA. (PROHIBIDO LA REPRODUCCIÓN)

DOCUMENTO PROTEGIDO POR COPYRIGHT

© ISO 2022 - Todos los derechos reservados

Instituto Nacional de Normalización - INN

Impreso por: Pablo Medina Dávila Solicitado por: Monica Vega

USO EXCLUSIVO - SOCIEDAD DE DESARROLLO TECNOLOGICO - USACH LTDA. (PROHIBIDO LA REPRODUCCIÓN)

4.2 Modelo básico ....................................................................................................................6

8.5 Uso de las desviaciones estándar de repetibilidad y reproducibilidad de

USO EXCLUSIVO - SOCIEDAD DE DESARROLLO TECNOLOGICO - USACH LTDA. (PROHIBIDO LA REPRODUCCIÓN)

9.9 Puntuaciones de desempeño combinados ...................................................................37

Impreso por: Pablo Medina Dávila Solicitado por: Monica Vega

B.4.2 Procedimiento para verificar la estabilidad durante el curso de una ronda de

USO EXCLUSIVO - SOCIEDAD DE DESARROLLO TECNOLOGICO - USACH LTDA. (PROHIBIDO LA REPRODUCCIÓN)

C.4 Análisis robusto: Algoritmo S .........................................................................................65

E.7 Comparación del valor de referencia y la media de consenso ....................................94

USO EXCLUSIVO - SOCIEDAD DE DESARROLLO TECNOLOGICO - USACH LTDA. (PROHIBIDO LA REPRODUCCIÓN)

remuestreo (“bootstrapping”) de resultados de EA ...................................................107

© ISO 2022 - Todos los derechos reservados

Impreso por: Pablo Medina Dávila Solicitado por: Monica Vega

Figura E.14 – Puntuaciones de desempeño para diferentes niveles del mensurando.............104

USO EXCLUSIVO - SOCIEDAD DE DESARROLLO TECNOLOGICO - USACH LTDA. (PROHIBIDO LA REPRODUCCIÓN)

Tabla E.1 – Conjunto de datos de muestra con resultados censurados (<) y

© ISO 2022 - Todos los derechos reservados

USO EXCLUSIVO - SOCIEDAD DE DESARROLLO TECNOLOGICO - USACH LTDA. (PROHIBIDO LA REPRODUCCIÓN)

La Nota Explicativa incluida en un recuadro en cláusula 2 Referencias normativas y en Anexo G

El Anexo A forma parte de la norma.

Los Anexos B, C, D, E, F, G, H e I no forman parte de la norma, se insertan solo a título informativo.

Si bien se ha tomado todo el cuidado razonable en la preparación y revisión de los documentos

© ISO 2022 - Todos los derechos reservados

Impreso por: Pablo Medina Dávila Solicitado por: Monica Vega

0.2 Justificación de la puntuación en los programas de ensayos de aptitud

USO EXCLUSIVO - SOCIEDAD DE DESARROLLO TECNOLOGICO - USACH LTDA. (PROHIBIDO LA REPRODUCCIÓN)

0.3 ISO 13528 e ISO/IEC 17043

© ISO 2022 - Todos los derechos reservados

0.4 Experiencia estadística

USO EXCLUSIVO - SOCIEDAD DE DESARROLLO TECNOLOGICO - USACH LTDA. (PROHIBIDO LA REPRODUCCIÓN)

0.5 Software de computadora

© ISO 2022 - Todos los derechos reservados

Impreso por: Pablo Medina Dávila Solicitado por: Monica Vega

Métodos estadísticos para uso en ensayos de aptitud por comparación

USO EXCLUSIVO - SOCIEDAD DE DESARROLLO TECNOLOGICO - USACH LTDA. (PROHIBIDO LA REPRODUCCIÓN)

ISO 3534-2, Statistics - Vocabulary and symbols - Part 2: Applied statistics.

ISO Guide 30, Reference materials - Selected terms and deﬁnitions.

© ISO xxxx - Todos los derechos reservados

NOTA EXPLICATIVA NACIONAL

Norma Internacional Norma nacional Grado de correspondencia

USO EXCLUSIVO - SOCIEDAD DE DESARROLLO TECNOLOGICO - USACH LTDA. (PROHIBIDO LA REPRODUCCIÓN)

una adopción idéntica de la versión en inglés de

— Plataforma en línea de ISO: disponible en https://www.iso.org/obp

— IEC Electropedia: disponible en https://www.electropedia.org

© ISO 2022 - Todos los derechos reservados

Impreso por: Pablo Medina Dávila Solicitado por: Monica Vega

USO EXCLUSIVO - SOCIEDAD DE DESARROLLO TECNOLOGICO - USACH LTDA. (PROHIBIDO LA REPRODUCCIÓN)

período de tiempo definido;

[FUENTE: ISO/IEC 17043:2010, modificado - En la definición se ha eliminado “basados en la información

© ISO 2022 - Todos los derechos reservados

[FUENTE: ISO/IEC Guide 99:2007, modificado - Se han eliminado las Notas.]

[FUENTE: ISO/IEC Guide 99:2007, modificado - Se han eliminado las Notas.]

USO EXCLUSIVO - SOCIEDAD DE DESARROLLO TECNOLOGICO - USACH LTDA. (PROHIBIDO LA REPRODUCCIÓN)