Está en la página 1de 38

EVALUACIÓN DE MÉTODOS (I)

Notas

Índice

1. OBJETIVOS.....................................................................................................................2
2. NOMENCLATURA...........................................................................................................2
3. PRECISIÓN .....................................................................................................................6
3.1. Diseño experimental del estudio de imprecisión ........................................................................................ 6
3.2. Comparación con otras evaluaciones de la precisión ................................................................................ 6
3.3. Comparación estadística con el fabricante ................................................................................................ 7
3.4. Componentes de la precisión ..................................................................................................................... 7
3.5. Materiales de calibración y reactivos ......................................................................................................... 7
3.6. Detección de datos extremos (outliers) ...................................................................................................... 8
3.7. Estimación de la repetibilidad..................................................................................................................... 8
3.8. Estimación de la precisión intra–laboratorio............................................................................................... 9
3.9. Comparación con los datos de imprecisión del fabricante u otros criterios ............................................. 10
3.10. Comparación de la repetibilidad ............................................................................................................. 10
4. LÍMITES DE DETECCIÓN Y CUANTIFICACIÓN ..........................................................12
4.1 Uso no estándar “valor crítico” .................................................................................................................. 12
4.2. Uso no estándar del término “sensibilidad” .............................................................................................. 12
4.3. Otros límites de niveles bajos................................................................................................................... 13
4.4. Límites de detección en el contexto de métodos cualitativos .................................................................. 13
4.5. Procedimientos para determinar y verificar el límite de detección de un método.................................... 14
4.6. Aproximación general para determinar el límite de blanco ...................................................................... 15
4.7. Aproximación general para determinar el límite de detección ................................................................. 15
4.8. Diseño del estudio .................................................................................................................................... 16
4.9. Número de muestras ................................................................................................................................ 16
4.10. Características de blancos y muestras de bajo nivel ............................................................................. 17
4.11. Resultados.............................................................................................................................................. 18
4.12. Procedimiento para determinar y verificar el límite de blanco y el límite de detección.......................... 18
4.13. Procedimiento para determinar o establecer el límite de blanco ........................................................... 18
4.14. Procedimiento para determinar el límite de detección ........................................................................... 18
4.15. Consideraciones sobre la forma de la distribución................................................................................. 19
4.16. Procedimiento para verificar un límite de detección............................................................................... 20
5. LÍMITE DE CUANTIFICACIÓN......................................................................................22
5.1. Establecimiento del límite de cuantificación............................................................................................. 22
5.2. Verificación de un límite de cuantificación ............................................................................................... 22
5.3. Informe de resultados............................................................................................................................... 23
6. LINEALIDAD..................................................................................................................24
6.1. Pool de muestras de pacientes ................................................................................................................ 25
6.2. Pool de muestras de pacientes diluido con un diluyente recomendado .................................................. 25
6.3. Pool de muestras de pacientes suplementado con el analito de interés ................................................. 25
6.4. Pool diluido con materiales tratados de baja concentración o con otro pool tratado............................... 25
6.5. Controles / calibradores / materiales para estudio de linealidad comerciales ......................................... 25
6.6. Pool diluido con suero salino u otros diluyentes diferentes del recomendado ........................................ 25
6.7. Material de control comercial diluido con diferente volumen del establecido .......................................... 25
6.8. Soluciones acuosas.................................................................................................................................. 26
6.9. Disoluciones en otros disolventes ............................................................................................................ 26
6.10. Intervalo analítico ................................................................................................................................... 26
6.11. Determinación del intervalo lineal........................................................................................................... 27
6.12. Regresión polinómica ............................................................................................................................. 27
6.13. Orden de la regresión polinómica........................................................................................................... 28
6.14. Grado de no–linealidad .......................................................................................................................... 29
6.15. Consideraciones acerca del error aleatorio............................................................................................ 29
6.16 Establecimiento del error máximo permisible.......................................................................................... 30
7. CALIBRACIÓN ..............................................................................................................31
7.1. Conceptos básicos asociados a la calibración......................................................................................... 31
7.2. Chequeo de la falta de ajuste................................................................................................................... 32
7.3. Diseño de un experimento de calibración ................................................................................................ 33
7.4. ¿Linealidad exacta? ................................................................................................................................. 33
7.5. Ajuste de datos a una función lineal con error en ambas variables......................................................... 34
7.6. Modelos de regresión y de relación funcional .......................................................................................... 34
7.7. Aplicaciones analíticas de FREML ........................................................................................................... 35
7.8. Cómo estimar las ponderaciones ............................................................................................................. 35
APÉNDICE 1. CONSIDERACIONES ADICIONALES RELATIVAS AL ESTUDIO DE LA
IMPRECISIÓN ...................................................................................................................36
A1.1. Modificaciones para realizar una serie analítica por día........................................................................ 36
A1.2. Desviación típica intralaboratorio o instrumental ................................................................................... 36
A1.3. Ecuación de Satterthwaite ..................................................................................................................... 37
A1.4. Otras estimaciones posibles .................................................................................................................. 37
A1.5. Imprecisión inter–días ............................................................................................................................ 37

1. Objetivos
• Clarificar conceptos y definiciones básicos relacionados con la evaluación de métodos analíticos;
• Conocer los procedimientos estadísticos adecuados para abordar la evaluación y validación de métodos
e instrumentos analíticos;
• Conocer los criterios y algoritmos propuestos por entidades científicas de ámbito nacional e
internacional para la evaluación de métodos e instrumentos.

2. Nomenclatura
A lo largo de las dos partes de este tema dedicado a la evaluación de métodos, se emplearán términos que
conviene definir y matizar previamente. También se recomienda revisar algunos documentos de la SEQC
que hace referencia a la validación de métodos.1
Exactitud Exactitud Es la concordancia entre un resultado de un test y el valor aceptado como
y error referencia. Cuando se aplica a una serie de resultados analíticos, incluye una
combinación de componentes aleatorios del error y componentes de sesgo o
error sistemático. [ISO 3534: 3.11] Esencialmente, la exactitud es la ausencia
de error. Un resultado es más exacto si se comete un error menor. Los
conceptos exactitud y precisión están relacionados: es poco probable que un
resultado de un método sea exacto si en general los resultados que
proporciona dicho método no son precisos. Cabe destacar que,
estrictamente, el concepto de exactitud se aplica a resultados, y no a
entidades generales como métodos analíticos, laboratorios o individuos.
Error (de Es la diferencia entre el resultado de una medida y el valor verdadero del
medida) mensurando.
Dado que el valor verdadero no puede ser determinado, en la práctica se
emplea un valor verdadero convencional. [VIM: 3.10]
Error aleatorio Es una componente del error que, en el curso de un número de resultados
(de un resultado) de un test de las mismas características, varía de forma impredecible. No es
posible corregir el error aleatorio. [ISO 3534: 3.9]
Error sistemático Es una componente del error que, en el curso de un número de resultados
de un test de las mismas características, permanece constante o varía de
forma predecible. Los errores sistemáticos y sus causas pueden ser
conocidos o desconocidos. [ISO 3534: 3.10]

1
Responsabilidades en la obtención de evidencia objetiva para la validación de las características
metrológicas de los procedimientos de medida del laboratorio clínico. Quím Clín, 2003; 22: 33-5.

página 2
Veracidad Veracidad Concordancia entre el valor promedio obtenido en una serie larga de
y sesgo resultados de un test y un valor aceptado como de referencia. [ISO 3534:
3.12] Habitualmente se expresa numéricamente mediante la medida
estadística del sesgo que está inversamente relacionado con la veracidad
Sesgo Es la diferencia entre la expectativa de los resultados de un test y un valor de
referencia aceptado. El sesgo es el error sistemático total, en contraste con
el error aleatorio. Puede haber una o más componentes del error sistemático
que contribuyen al sesgo. Una diferencia sistemática grande entre un valor
aceptado como referencia se refleja mediante un valor de sesgo mayor. [ISO
3534: 3.13]
La veracidad equivale a la ausencia de sesgo
Intervalo lineal Es el intervalo en el cual los resultados de un método analítico son
aceptablemente lineales; esto es, en el que el error de no–linealidad es
menor que un error criterio dado
Linealidad Es la capacidad (en un intervalo dado) de proporcionar resultados que son
directamente proporcionales a la concentración (cantidad) de analito
presente en la muestra analizada.
La linealidad suele aplicarse a todo el sistema de respuesta (p.ej. a la
respuesta analítica final antes que a la lectura de salida del instrumento); La
linealidad de un sistema se mide chequeando niveles de un analito que son
conocidos por formulación o con respecto a otro (no es necesario que se
conozca el nivel absoluto); cuando los resultados del sistema se representan
frente a estos valores, el grado en el que la curva representada se aproxima
a una línea recta es una medida de la linealidad del sistema.
Precisión Precisión Es la concordancia entre los resultados independientes de un test obtenidos
bajo unas condiciones estipuladas. La precisión depende sólo de la
distribución de errores aleatorios y no se relaciona con el valor verdadero o
especificado. La medida de la precisión habitualmente se expresa en
términos de imprecisión y se calcula como una desviación típica de los
resultados de un test. Una menor precisión se refleja en una mayor
desviación típica. Se habla de resultados independientes de un test cuando
han sido obtenidos de manera que no están influenciados por ningún
resultado previo del mismo o similar al objeto del test. La medida cuantitativa
de la precisión depende de manera fundamental de las condiciones
estipuladas. Las condiciones de repetibilidad y de reproducibilidad son casos
particulares de condiciones estipuladas extremas [ISO 3534: 3.14]
Como la precisión depende de las condiciones de la medida, éstas deben ser
especificadas cuando se hace referencia a una estimación de la precisión. A
continuación se definen términos de uso común empleados para describir las
condiciones de medida
Condiciones de Son condiciones en las que se obtienen resultados independientes de un test
repetibilidad con el mismo método en sistemas idénticos en el mismo laboratorio por el
mismo operador empleando el mismo equipo y en intervalos de tiempo
cortos. [ISO 3534: 3.15]

página 3
Condiciones de Son condiciones en las que los resultados de un test se obtienen mediante el
reproducibilidad mismo método en sistemas idénticos en diferentes laboratorios con
diferentes operadores y empleando diferentes equipos. [ISO 3534: 3.20]. Las
condiciones de repetibilidad suponen repetir la ejecución del método entero
desde un punto en el que se toma una alícuota de la muestra del laboratorio,
no se reduce únicamente a repetir las determinaciones instrumentales en
extractos preparados
Repetibilidad Precisión estimada bajo condiciones de repetibilidad [ISO 3534: 3.15]
NOTAS
• Se distingue entre repetibilidad y reproducibilidad refiriéndose a la
primera cuando se realizan medidas sucesivas bajo las mismas
condiciones, y a la segunda cuando las medidas se realizan bajo
diferentes condiciones de medida2. Para las condiciones de repetibilidad,
las definiciones de VIM e ISO3534 son casi idénticas
• Sin embargo, la definición de VIM de las condiciones de reproducibilidad
es más general que la de la norma ISO 3534, e incluye medidas intra-
laboratorio sobre periodos extensos de tiempo y/o incluso medidas
empleando diferentes principios de medida. Esta terminología más
general es cada vez más común. Por este motivo, se recomienda que las
condiciones de medida se indiquen siempre cuando se refiere la
reproducibilidad
• La norma ISO 5725 discute adicionalmente medidas de precisión
intermedia, y proporciona la notación para condiciones en que varían el
tiempo, calibración, operador y equipo
Reproducibilidad Precisión bajo condiciones de reproducibilidad [ISO 3534: 3.20]
Precisión Precisión calculada cuando se obtienen resultados independientes en series
interserial (run– separadas en el mismo laboratorio con el mismo método y en el mismo
to–run) material
Run Periodo en el que se realiza el análisis bajo condiciones de repetibilidad y se
mantienen constantes los factores que afectan a la exactitud. Nótese que los
runs separados habitualmente se realizan en distinto tiempo e involucran
alguna recalibración del instrumento
Condiciones de Cuando los resultados de un test se obtienen con el mismo método en
precisión idéntico sistema de medida y test, pero bajo diferentes condiciones de
intermedia operación. (a) Hay cuatro elementos de las condiciones de operación:
tiempo, calibración, operador, y equipo; (b) deben anotarse las condiciones
que cambian. Suele incluir estimaciones de la imprecisión, como las
comúnmente denominadas interserial (between–run), intra–día (within–day),
inter–día (between–day), instrumental (within–device) e intralaboratorio
(within–laboratory)
Condiciones de Condiciones donde se obtienen resultados independientes con el mismo
repetibilidad método en idéntico material y en el mismo laboratorio, por el mismo operador
usando el mismo equipo y en un periodo corto de tiempo (ISO 3534-1);
Anteriormente se denominaba precisión intraserial (within–run)
Condiciones de Los resultados se obtienen con el mismo método en idéntico sistema y en
reproducibilidad diferentes laboratorios con diferentes operadores y diferentes equipos (ISO
5725-1)3

2
ISO. International of vocabulary of basic and general terms of metrology (VIM). Geneva:ISO, 1993.
3
ISO. Accuracy (trueness and precision) of measurement methods and results – Part 1: General principles
and definitions. ISO 5725-1. Geneva:ISO, 1994.

página 4
Precisión Precisión estimada mediante medidas repetidas en una única solución
Instrumental problema, sin ajustes instrumentales, en un periodo corto de tiempo
NOTAS
• La precisión instrumental no es una definición ISO, sino un tipo de
precisión que frecuentemente se encuentra en las especificaciones de
los instrumentos. Difiere de la repetibilidad en que no incluye repetición
de todo el método analítico, sino sólo la medida instrumental en si,
frecuentemente incluso sin ajustes instrumentales
• Las condiciones interseriales (run–to–run) constituyen un caso específico
de las condiciones de reproducibilidad en la definición VIM, y se
corresponden con las condiciones intermedias definidas por la norma
ISO 5725
Mensurando Cantidad sujeta a una medida [ISO 3534: 3.5]
Incertidumbre (a) Una estimación asociada a un resultado que caracteriza el intervalo de
valores en los que debe encontrarse el valor verdadero. [ISO 3534: 3.25]
(b) (de medida) Parámetro asociado con el resultado de una medida, que
caracteriza la dispersión de los valores y puede atribuirse
razonablemente al mensurando. [GUM: 2.2.3]4
NOTAS
• Las definiciones (a) y (b) difieren en la filosofía, pero para la mayoría de
los propósitos pueden considerarse equivalentes
• Una estimación de la incertidumbre debe incorporar tanto lo que se
conoce acerca de los efectos aleatorios como de la incertidumbre
asociada a efectos sistemáticos de los procesos de medida
• Dado que la estimación de la incertidumbre incorpora las incertidumbres
de todos los posibles efectos, una estimación de la incertidumbre es
probablemente el modo más apropiado de expresar la exactitud de los
resultados
• En un análisis convencional, la incertidumbre asociada con un resultado
individual se estima habitualmente a partir de estudios previos, que
incluyen estudios de validación y no se requiere una estimación
individual de la incertidumbre de cada resultado
Incertidumbre Es la incertidumbre del resultado de una medida, expresada como
típica desviación estándar [GUM: 2.3.1]
Incertidumbre Cantidad que define un intervalo en torno al resultado en el que se espera
expandida que se encuentre una fracción grande de la distribución de valores que
pueden atribuirse razonablemente al mensurando [GUM: 2.3.5]
La ilustración clásica de la exactitud y precisión en términos de una diana ya
no describe correctamente la exactitud. Ésta se refiere a una combinación de
errores sistemáticos y aleatorios, por lo que la siguiente gráfica es más
adecuada

4
ISO Guide to the expression of uncertainty in measurement. Geneva:ISO,1995. ISBN 92-67-10188-9.

página 5
3. Precisión
En el presente apartado se presenta el protocolo de estudio de imprecisión según recomendaciones del
CLSI.5 Se recomienda consultar también otros protocolos publicados por la SEQC para conocer otros
posibles enfoques del procedimiento.6

3.1. Diseño experimental del estudio de imprecisión


Durante cada uno de los días que dure el estudio de la imprecisión, deben analizarse en dos series
separadas dos muestras, cada una con diferente concentración del analito de interés. Adicionalmente, al
menos se procesa en cada serie analítica una muestra de control de calidad, según los procedimientos
habituales de control de calidad del laboratorio.
Si la variabilidad entre las diferentes series analíticas no constituye un aspecto relevante en el instrumento
evaluado, deben analizarse cuatro muestras de cada nivel, como dos pares, en condiciones de repetibilidad,
en diferentes momentos del día. Los resultados apareados deben tratarse como dos resultados obtenidos
en la misma serie.
Tras este protocolo propio del periodo de familiarización, el experimento debe continuarse durante 15 o más
días. Al final de cinco días de trabajo, deben recalcularse los límites del control en una gráfica de control de
calidad y chequear todos los datos para ver si son aceptables. Si se detectan valores aberrantes, debe
identificarse la causa del problema.
No deben eliminarse datos sin una justificación válida, ya que esto conducirá a una inadecuada valoración
de la imprecisión. Cuando se complete el experimento de imprecisión, se realizarán los correspondientes
cálculos estadísticos con los datos. Si se observa tendencia durante el protocolo del periodo de
familiarización, los datos más antiguos deben ser excluidos y reemplazados por una cantidad igual de datos
recogidos al final del periodo planeado para el periodo de evaluación.

3.2. Comparación con otras evaluaciones de la precisión


Realizar un estudio de repetibilidad, o tomar una única observación (o unas pocas) a una concentración
dada cada día durante 10 o 20 días para evaluar la imprecisión total no es una práctica correcta al no incluir
en estos procedimientos ciertas causas significativas de variación. Cuando se emplea una única serie
analítica para estimar la repetibilidad (imprecisión intraserial o within–run), existe un riesgo importante de
que las condiciones operativas efectivas en el momento de procesar dicha serie analítica no reflejen los
parámetros operativos habituales, afectando por tanto adversamente a la estimación. Además, no hay forma
de determinar cómo de representativa puede ser una única serie analítica de las características en estudio.
Por este motivo, se recomienda que la repetibilidad se estime calculando la imprecisión intraserial (within–
run) en varias series analíticas, asegurándose por tanto una estimación más robusta y representativa de las
características del sistema en diversas condiciones operativas futuras.
Las medidas intermedias de la imprecisión calculadas serán independientes del número de días y de series
analíticas procesadas en un día empleadas para su estimación, cosa que no ocurre con los métodos
tradicionales. Veremos cómo este procedimiento combina correctamente el efecto de la repetibilidad y los
componentes interserial e inter–día (que varían relativamente de un método a otro), y evitan el error de
emplear términos incorrectos para el estudio de la imprecisión (como es la día–a–día).
Cuando se diseña un experimento de evaluación, se debe decidir de antemano con cuánta fiabilidad se
desea determinar la imprecisión verdadera. La estimación obtenida con cada protocolo no será la misma
aunque se repita exactamente el mismo protocolo en el mismo laboratorio con un instrumento dentro del
intervalo de tolerancia del control, incluso si la imprecisión real es la misma.
Estas estimaciones de la imprecisión estarán distribuidas en torno a un valor “verdadero”, y las estimaciones
obtenidas a partir de más observaciones se acercarán más a la imprecisión “verdadera”. En general, un
mayor número de observaciones conduce a más confianza en una estimación, y a mayor confianza en la
estimación, mayor potencia estadística para detectar alejamiento de las características esperadas para el
instrumento.

5
NCCLS. Documento EP5-A2—Evaluation of precision performance of quantitative measurement methods;
Approved guideline
6
Recomendaciones para el estudio de la precisión de los procedimientos de medida en el laboratorio
clínico. Quím Clín 2003; 22: 63-5

página 6
3.3. Comparación estadística con el fabricante
Este es un concepto muy importante que ilustra cómo una estimación de la repetibilidad basada en 100
grados de libertad puede detectar desviaciones relativamente pequeñas de las características del
fabricante. Asimismo, una estimación de la repetibilidad basada solo en 10 grados de libertad detectarán
sólo separaciones grandes de las características y por tanto una prueba basada en dicha estimación tendrá
muy poca potencia estadística.
Si el estimado tiene 40 grados de libertad, se tiene mayor potencia estadística y la estimación puede
detectar desviaciones pequeñas, aunque quizá clínicamente importantes, de las características del
fabricante.

3.4. Componentes de la precisión


El principal objetivo del experimento de evaluación de la precisión es estimar la precisión del dispositivo de
medida o del método tal como se maneja en un instrumento o laboratorio. Intuitivamente, la imprecisión es
la variabilidad del instrumento cuando se use en un periodo indefinidamente largo de tiempo. Hasta cierto
punto, diversas fuentes de variabilidad contribuyen a esta imprecisión a largo plazo. En general, basta con
diseñar un experimento que contemple todas las fuentes que afectan a la estimación de la imprecisión intra–
laboratorio sin tratar de determinar el tamaño relativo de cada fuente o componente. Los términos
empleados para describir las componentes de la imprecisión relacionadas con el tiempo incluyen:
• Repetibilidad;
• Imprecisión interserial;
• Imprecisión intra–día;
• Imprecisión inter–día; y
• Imprecisión intra–laboratorio.
De estas, la repetibilidad y la imprecisión intra–laboratorio son generalmente las de más interés. En este
diseño, no se pretende incorporar específicamente las estimaciones separadas de otras fuentes
significativas de variabilidad, como el calibrador o las diferencias de lote de reactivos o de
técnicos/operadores.

3.5. Materiales de calibración y reactivos


Puede emplearse para todo el protocolo un único lote de reactivos y materiales de calibración, pero la
interpretación de los resultados debe considerar este hecho, dado que se puede subestimar verdaderas
imprecisiones a largo plazo, intra–laboratorio (o instrumentales). El introducir varios lotes de estos
materiales incrementará la variabilidad observada, y aunque el experimento no permita estimar
separadamente los efectos de estos factores, puede ser representar mejor la imprecisión real.
Los materiales empleados en el estudio deben ser seleccionados de modo que simulen las características
de muestras clínicas adecuadas. Cuando sea posible y apropiado, se preferirán pooles estables y
congelados. En caso necesario, pueden emplearse materiales estables comerciales, con base proteica.
Se recomiendan dos concentraciones, aunque pueden usarse más. En este protocolo la imprecisión se
estima separadamente para cada nivel, no se promedia para los distintos niveles. Si las estimaciones de la
imprecisión o de la imprecisión relativa son iguales a estos niveles, hay evidencia de imprecisión constante.
En caso contrario, puede ser necesario evaluar más niveles.
Si es posible, conviene seleccionar concentraciones que abarquen una porción significativa del intervalo de
medida. Si se dispone de más de dos concentraciones, deben elegirse concentraciones adicionales tan
cercanas como sea posible a los niveles de decisión médica empleados en el laboratorio. Para comparar los
resultados de la evaluación con los publicados por el fabricante, deben elegirse concentraciones similares a
los niveles empleados por el fabricante para el estudio.
Cuando no se desea verificar una imprecisión dada por el fabricante, sino establecerla en el propio
laboratorio, deben chequearse un nivel bajo, otro alto y otro cercano al punto de decisión médica. Si los tres
niveles demuestran una precisión constante o precisión relativa constante, son suficientes para el estudio.
En caso contrario, o si hay diferencias importantes en las estimaciones de la precisión entre los tres niveles,
deben chequearse más niveles.
El experimento de evaluación de la precisión requiere una cantidad suficiente de datos de modo que la
estimación obtenida de la misma refleje adecuadamente los verdaderos parámetros de la imprecisión del
instrumento. En general se considera aceptable un mínimo de 20 días operacionales en condiciones

página 7
aceptables para llevarlo a cabo. Durante los primeros cinco días del experimento, el usuario debe
familiarizarse con el protocolo.
Se considera un método corto a aquel en que la duración de la determinación es inferior a 2 h, mientras que
un método largo (como el radioimmunoanálisis) dura considerablemente más y no se procesa más de uno al
día. Para métodos largos, existe un procedimiento aplicable incluyendo una serie analítica por día. Para
procedimientos cortos, las muestras pueden ser analizadas en cualquier momento de la serie analítica. Para
realizar el análisis de la varianza, una serie analítica de evaluación es un periodo de tiempo discreto de
recogida de datos diseñado para poder estimar la variabilidad (o deriva) en un día. Para algunos
dispositivos, como instrumentos de acceso aleatorio, discretos, o individuales, el concepto de serie analítica
(run) puede no ser apropiado. En este caso, las muestras deberían procesarse por duplicado en
condiciones de repetibilidad y tiempos aleatorios a lo largo de una jornada de trabajo para simular la
operación real de instrumento.
Cada día habrá que realizar los siguientes pasos:
1. Analizar dos series analíticas (runs o batches);
2. Si una serie analítica debe ser rechazada debido al control de calidad o a dificultades operativas, se
realiza una nueva serie analítica después de que se haya solucionado el problema;
3. En cada serie, se analizarán dos alícuotas del material chequeado para cada concentración;
4. Se deben incluir en cada serie las muestras de control de calidad que se juzguen necesarias para
valorar la aceptabilidad de la serie analítica o el día;
5. Se cambia el orden de análisis de los materiales analizados y muestras de control de calidad para cada
serie analítica o día;
6. Para simular la operación verdadera, se incluyen al menos diez muestras de pacientes en cada serie, si
es posible;
7. Separar la series analíticas realizadas cada día al menos en 2 h.

3.6. Detección de datos extremos (outliers)


Se debe definir un criterio de detección de datos aberrantes para asegurar que problemas operacionales no
distorsionarán los datos resultantes de la estimación de la imprecisión.
Asumiendo procedimientos adecuados de control de calidad durante el experimento, se sugiere un test débil
(baja potencia) para detectar datos muy aberrantes de los recogidos durante el test de imprecisión
preliminar.
(a) Si la diferencia absoluta entre los replicados excede 5,5 veces la desviación típica determinada en el
test preliminar de la imprecisión el par de datos debe rechazarse.
(b) Si se detecta un valor aberrante, el problema subyacente debe ser investigado, y la serie analítica
repetida. El valor de 5,5 deriva del valor superior del 99,9 % del rango normalizado para la diferencia
entre dos observaciones. Este test debería usarse cuando la concentración del material empleado en el
chequeo preliminar se acerca razonablemente a la concentración del material en evaluación.
Se pueden planificar más días para el estudio de la imprecisión, en prevención de los valores aberrantes
que haya que eliminar. Si más del 5 % de las series analíticas han de ser rechazadas y no se encuentra
causa, debe considerarse la posibilidad de que el instrumento no sea lo suficientemente estable como para
permitir establecer la variabilidad de una forma válida.

3.7. Estimación de la repetibilidad


I 2

∑ ∑( x − xi j2 )
2
i j1
i =1 j =1
sf =
4I
donde I es el número total de días (generalmente 20);
j es el número de series analíticas (intra–día) (1 ó 2);
x I j1 es el resultado para el replicado 1, de la serie j en el día i ;

xI j2 es el resultado para el replicado 2, de la serie j en el día i .

página 8
Se necesitan dos resultados de cada uno de las dos series analíticas de cada día para usar la fórmula
anterior. Si solo se dispone de una serie analítica en un día dado, se puede utilizar la fórmula (con j = 1 ).
Siempre que no haya más de un 10 % de los días de la evaluación en que falten series analíticas (por
ejemplo, con un solo run) en un diseño experimental de dos series analíticas por día, los cálculos
resultantes pueden ser válidos (aplicando las fórmulas del Apéndice 1) si sólo hay una serie analítica por
día.

3.8. Estimación de la precisión intra–laboratorio


Se necesitará realizar los siguientes cálculos:
faltan los subíndices de las formulas de A y B, al menos no se ven con mi version de word
I

∑(x − x i 2i )
2
i 1i
i =1
A =
2I
donde: I es el número de días (con dos series analíticas);
x I j1 es el resultado promedio de la serie analítica 1, en el día i (promedio de dos replicados);

xI j2 es el resultado promedio de la serie analítica 2, en el día i (promedio de dos replicados).

A se calcula elevando al cuadrado la diferencia entre el promedio de los replicados de la primera y la


segunda serie analítica de cada día, sumando dichas cantidades para todos los días, dividiendo por 2 I , y
tomando la raíz cuadrada. Este cálculo no debe emplearse si los datos se han generado en un solo día o
solo una serie analítica.
Otra estimación necesaria es:
I

∑(x − x iii )
2
i ii
i =1
B =
I −1
donde: I es el número de días;
x i ii es el promedio de todos los resultados del día i ; y

x iii es el promedio de todos los resultados.


Esta es la desviación típica de las medias diarias (Apéndice 1)
Con estas dos cantidades, se calculan
A2
s d2 d = B 2 −
2
s r2
s r2r = A 2 −
2
donde: s d d es la estimación de la desviación típica inter–días (between–day);

srr es la estimación de la desviación típica interserial (between–run).


Si la varianza así calculada fuera negativa, por convenio se considerará igual a cero.

La estimación de la imprecisión intra–laboratorio o instrumental (within–device) se calcula con la siguiente


fórmula para la desviación típica:

sT = s d2 d + s r2r + s r2
Con esta formula para s T el resultado obtenido será diferente al estimado con el cálculo mediante la
desviación típica de todos los datos (sin tener en cuenta el día o la serie analítica). La formula anterior es la
forma correcta para estimar la imprecisión instrumental, porque sopesa adecuadamente la repetibilidad así

página 9
como las componentes de la imprecisión inter–días e interserial. El coeficiente de variación (expresado en
porcentaje) correspondiente a esta estimación de la imprecisión debería calcularse dividiendo s T por la
concentración del material analizado y multiplicado por 100.

3.9. Comparación con los datos de imprecisión del fabricante u otros criterios
La estimación de la imprecisión obtenida en la sección anterior puede compararse con las especificaciones
de la imprecisión del fabricante. El estadístico ji–cuadrado ( χ ) será el que deberá utilizarse. Para ello, se
2

tomará como referencia la estimación puntual que ofrezca el fabricante (por ejemplo, la desviación típica).
Se deben comparar por separado la repetibilidad y la imprecisión intermedia.

3.10. Comparación de la repetibilidad


Se toma como valor de comparación la desviación típica aportada por el fabricante (σ ) . El test de ji–
r

cuadrado usa el cuadrado de las estimaciones de la repetibilidad, tanto del usuario como del fabricante.
2
Deben conocerse el número de grados de libertad asociados con s r (varianza intraserial estimada por el
2
usuario). s r tendrá tantos grados de libertad como pares de datos (replicados) se usen para calcularla. Por
tanto, será igual el número de series analíticas realizadas en el experimento, identificadas en adelante como
R . Para aplicar el test es necesario calcular el siguiente valor:
s r2 R
χ2 =
σ 2r
2
donde: s r es la repetibilidad estimada por el usuario (varianza);

σ 2r es la repetibilidad aportada por el fabricante (varianza); y


2
R es el número total de series analíticas realizadas (grados de libertad para s r ).

El valor calculado de χ2 debe compararse con los valores tabulados del estadístico χ2 utilizando el valor
crítico superior del 95 % de confianza con R grados de libertad (tabla 1). Si el valor calculado es inferior al
de la tabla, la estimación no es significativamente diferente del valor de la imprecisión aportado por el
fabricante y se puede aceptar como verificada.

g. de l. de la varianza
valor crítico del 95 % valor crítico del 99 %
estimada por el usuario
5 11,1 1,51
6 12,6 16,8
7 14,1 18,5
8 15,5 20,1
9 16,9 21,7
10 18,3 23,2
11 19,7 24,7
12 21,0 26,2
13 22,4 27,7
14 23,7 29,1
15 25,0 30,6
16 26,3 32,0
17 27,6 33,4

página 10
g. de l. de la varianza
valor crítico del 95 % valor crítico del 99 %
estimada por el usuario
18 28,9 34,8
19 30,1 36,2
20 31,4 37,6
25 37,7 44,3
30 43,8 50,9
35 49,8 57,3
40 55,8 63,7
50 67,5 76,2
60 79,0 88,4
70 90,5 100,4
75 96,2 106,4
79 100,7 111,1
80 101,9 112,3
90 113,1 124,1
100 124,3 135,6
Tabla 1. Valores críticos de ji-cuadrado para la estimación de la varianza estimada por el usuario

Se puede emplear una aproximación similar a la anterior para comparar la estimación de la imprecisión
intra–laboratorio (o instrumental, within-device) con los requerimientos de la aplicación médica de cada
parámetro. Sin embargo, a diferencia de la estimación de la repetibilidad, calcular el número exacto de
grados de libertad para s T implica un cálculo más complicado. Dada la estructura del protocolo propuesto
en este tema, el usuario no puede asumir que todas las observaciones sean independientes, lo que es
requisito necesario antes de que se pueda utilizar la estimación de los grados de libertad del propio usuario
(número total de observaciones menos uno). La siguiente formula para los T grados de libertad de s T tiene
en cuenta esta falta de independencia.

I ( 2 ME + MR + MD )
2

T =
I
2 ME 2 + MR 2 + MD 2
I −1
donde: ME = s r
2
es la media cuadrática intraserial, o varianza de la repetibilidad;

MR = 2 A 2 es la media cuadrática de las series analíticas o runs;

MD = 4 B 2 es la media cuadrática de los días.


El valor entero más próximo al calculado según esta formula será empleado como grados de libertad para
s T . Usando este valor, el estadístico apropiado es el siguiente:
s T2 × T
χ2 =
σ T2
2
donde: s T es el cuadrado de la desviación típica intra–laboratorio (o instrumental) estimada por el
usuario;
σ 2
T es el cuadrado de la desviación típica instrumental aportada por el fabricante para el
instrumento o requerida para los fines médicos a los que se destina el análisis;
T son los grados de libertad para s T .

página 11
Si el valor calculado de χ2 es inferior que el valor crítico superior del 95 % de una distribución de
χ 2
(Tabla 1), se consideran aceptables las especificaciones de la imprecisión.

Si, por el contrario, el valor de χ calculado es mayor que dicho límite crítico superior del 95 % de χ la
2 2

imprecisión estimada no entra dentro de los límites aceptables para la aplicación médica definida.
La estimación del usuario puede ser superior que la desviación típica aportada por el fabricante y ser aún
así aceptable. Dado que el experimento del usuario se basa en un número limitado de observaciones, cabe
esperar errores de muestreo para los valores calculados de s r y s T en torno a los valores verdaderos.
Cuanto mayor sea el tamaño del experimento, más próximas serán las estimaciones al valor real. El test de
χ2 se usa para determinar si la estimación del usuario es significativamente peor que la aportada por el
fabricante.
La valoración de la tolerancia que puede considerarse aceptable en función del analito considerado es una
información que debe obtenerse a partir de las especificaciones de variabilidad biológica descritas en la
bibliografía y de los requisitos necesarios para que un test tenga utilidad para la aplicación que se le desee
dar.

4. Límites de detección y cuantificación


Cuando se pretende conocer el umbral a partir del cual un método es capaz de detectar la presencia de
analito, es importante no olvidar que esta verificación puede no ser correcta si el material empleado no es
adecuado. Algunos requisitos que no se deben olvidar se presentan a continuación, como la comprobación
de la gaussianidad y simetría de los resultados con los que se estimará el límite de detección así como la
homoscedasticidad de los resultados de los blancos y las muestras de bajo nivel del analito estudiado.
Además, veremos cómo es necesario considerar desde el punto de vista estadístico el hecho de que una
muestra con una concentración real del analito igual al límite de detección sólo tiene una probabilidad del 50
% de proporcionar un resultado que sea interpretado como presencia de analito.
En este apartado se presentará el protocolo según recomendaciones del CLSI.7 Una visión simplificada
puede consultarse en los documentos de la SEQC.8

4.1 Uso no estándar “valor crítico”


El término valor crítico se emplea en la norma ISO 11843 como el resultado más alto que puede esperarse
en una muestra de blanco (muestra sin analito o con concentración cercana a cero). Es la respuesta del
método (o instrumento) por encima de la que la muestra puede considerarse que tiene un valor positivo del
mensurando. Sin embargo, este término se emplea frecuentemente en los laboratorios clínicos para los
resultados de un test que indican una condición médica importante.
En este tema la respuesta umbral de la que estamos hablando, se denominará límite de blanco (LB).

4.2. Uso no estándar del término “sensibilidad”


El término sensibilidad no se empleará en este contexto sino alguna de las alternativas más adecuadas. El
límite de detección se prefiere debido a que su definición conlleva menor confusión y por tratarse de un
término muy utilizado.
En muchos laboratorios clínicos y aplicaciones diagnósticas se habla en ocasiones de sensibilidad,
sensibilidad analítica indistintamente con límite de detección.
Sin embargo, el término sensibilidad tiene otros muchos usos, algunos de los cuales son mucho más
adecuados en las áreas correspondientes. Así, el uso más común deriva de la definición IUPAC de la
sensibilidad analítica, que es la pendiente de la curva de calibración. La función de calibración, como se ha
visto, relaciona la media de las concentraciones medidas con concentraciones reales (conocidas) del
analito; cuanto más pronunciada sea la pendiente de la curva de calibración, el método será más sensible a
pequeños cambios en la concentración del analito presente en la muestra. Este concepto dista mucho del

7
CLSI Documento EP17 - Protocols for determination of limits of detection and limits of quantitation;
Approved guideline.
8
Recomendaciones para el estudio de la capacidad de detección de los procedimientos de medida en el
laboratorio clínico. Quím Clín 2004; 23: 439-41.

página 12
de límite de detección. Además, incluso si la pendiente de la curva de calibración es pronunciada, la menor
concentración que puede detectarse con fiabilidad puede ser elevada si existe gran variabilidad en la señal
medida. Por otra parte, un método con moderada sensibilidad analítica (moderada pendiente de la curva de
calibración) pero muy baja variación aleatoria de la señal puede tener un límite de detección bajo.
Otro uso que incluye el término sensibilidad es la denominada sensibilidad funcional, empleada para
describir la precisión interserial a muy bajas concentraciones de analito, interesante para ciertos
procedimientos diagnósticos con requerimiento de muy alta precisión a bajas concentraciones. Los términos
sensibilidad diagnóstica o clínica se emplean para caracterizar o comparar el comportamiento de las
pruebas diagnósticas en relación con una información clínica preespecificada (por ejemplo, presencia o
ausencia del analito diana relacionado con la enfermedad).

4.3. Otros límites de niveles bajos


Hay diversos tipos de límites de uso común en la nomenclatura de la química clínica, que se emplearán en
este tema: límite de blanco ( LB ) , límite de detección ( LD ) y límite de cuantificación ( LQ ) . Sin embargo,
hay otros dos tipos de límites, el límite inferior del intervalo lineal y el límite inferior del intervalo de medida.
Es posible que cuatro de estos cinco límites coincidan (con el modelo que consideraremos en el presente
tema el LB es inferior al LD , o podrían ser los cinco diferentes). Es más frecuente que algunos sean
iguales, pero no todos.
Al describir estos conceptos es importante distinguir entre la verdadera cantidad de sustancia que se
encuentra realmente en la muestra y el resultado de una medida individual. En este tema, se hablará de
concentración real para describir la que contiene realmente la muestra y concentración medida o resultado
para describir los valores que se obtendrán en el laboratorio cuando se utilice un método analítico particular.
La relación entre estos conceptos se describe a continuación:
• El menor es el límite de blanco, LB , que es el valor más alto que se espera observar en una serie de
resultado obtenidos en una muestra que no contenga analito. Es importante notar que el LB se refiere
a un resultado observado de la prueba, mientras que el resto de límites se refieren a concentraciones
reales del analito.
• El siguiente límite más bajo es el límite de detección, LD , que es la concentración real a la que un
resultado observado muy probablemente exceda el LB y por tanto podrá declarase detectado.
• El límite de cuantificación, LQ , es la menor concentración real a la cual el analito es detectado con
fiabilidad y a la cual la incertidumbre del resultado observado es menor o igual que el límite establecido
para la incertidumbre, por el laboratorio o por el fabricante del método. Los objetivos para la
incertidumbre (o para el sesgo o la imprecisión) deben obtenerse de las especificaciones del método, o
estar disponibles a partir de los registros del laboratorio.
• El límite más bajo del intervalo de medida ( LMR ) es el nivel más bajo al que se cumplen las
condiciones definidas para el método. Las condiciones definidas incluyen características establecidas,
como sesgo e imprecisión, incertidumbre, entre otras características.
• El límite inferior del intervalo lineal ( LLR ) , es la concentración más baja a la que la respuesta del
método tiene una relación lineal con la concentración verdadera9. Esto implica requisitos para el error de
no–linealidad, el cual debe acompañar a cualquier informe de linealidad.
Siempre se cumple que LB < LD < LQ . El resto de límites pueden no tener una relación consistente con
cada uno de los demás. El puesto relativo de estos límites vendrá determinado por los objetivos de
cuantificación, error de no–linealidad y otras características definidas para el método.

4.4. Límites de detección en el contexto de métodos cualitativos


El límite de detección es también un criterio de eficacia de métodos cualitativos, donde existe un fondo
continuo de señal instrumental, ya que el resultado se informa como “positivo” o “negativo” (o bien
“presente” o “ausente”). Por ejemplo, los métodos de ELISA usan una función de densidad óptica u otras
respuestas instrumentales para distinguir entre respuestas positivas y negativas. Para tests cualitativos
también es posible estimar el límite de detección. La relación entre el límite de detección, el punto

9
NCCLS. Documento EP6. Evaluation of the linearity of quantitative measurement procedures: A statistical
approach.

página 13
discriminante entre los resultados positivos y los negativos (también denominado umbral o cutoff), y la
respuesta instrumental a concentraciones cercanas a cero, deberían estar totalmente documentadas por el
fabricante y ser comunicada a los usuarios. Esto no se aplica a los métodos en que el punto discriminante
está muy por encima del límite de detección, como es el caso de los tests de embarazo.
Las pruebas cualitativas pueden tener un intervalo dinámico estrecho y alcanzar la saturación de la señal a
concentraciones relativamente bajas. Sin embargo, todas las pruebas cualitativas con un fondo continuo
tienen un área de transición desde la ausencia de respuesta o señal de fondo hasta la respuesta completa,
y el punto discriminante está generalmente diseñado para situarse en esa área. Para algunas pruebas, los
fabricantes definen un umbral diferente para los resultados positivos y los negativos, creando una zona
donde la respuesta es “indeterminada.” Esta área indeterminada se denomina intervalo del 95 % en el
documento NCCLS EP12. User protocol for evaluation of qualitative test performance. En dicho documento,
sin embargo, no se define un intervalo de confianza estadístico entorno al punto de cutoff, sino que los
extremos que delimitan este intervalo son las concentraciones a las que resultados repetidos son positivos
el 95 % de las veces o negativos el 95 % de las veces, respectivamente. Cabe destacar que la repetición de
una prueba de concentración exactamente igual a la del cutoff proporcionará resultados positivos en el 50 %
de las réplicas y resultados negativos en el restante 50 % de las veces. En este protocolo, el LB es el
mismo que el punto de cutoff, el límite superior del intervalo del 95 % se corresponde con el LD (donde las
muestras verdaderamente positivas producen resultados positivos en el 95 % de las ocasiones), y el límite
inferior del intervalo es el cero (no existe analito presente en la muestra).
El conocimiento del límite de detección para un test cualitativo, combinado con el análisis frecuente de un
control positivo débil, permite monitorizar en el laboratorio la consistencia de la eficacia del método en la
zona próxima a la concentración de cutoff. Es posible experimentar un incremento no observado en el límite
de detección de una prueba cualitativa, por ejemplo, debido a cambios en los reactivos. Esto puede
incrementar la proporción de resultados falsamente negativos, debido a que las muestras con
concentraciones detectables de un analito pueden tener resultados que caigan por debajo del cutoff,
mientras que muestras con concentraciones altas seguirían en todo caso aportando respuestas
correctamente positivas. Como consecuencia, la determinación experimental del LD es importante para
controlar la calidad de muchas pruebas cualitativas.

4.5. Procedimientos para determinar y verificar el límite de detección de un método


La aproximación clásica para determinar el LD 10 se discute brevemente a continuación. Para una
determinación dada, en el desarrollo del método se prepara una serie de resultados en muestras de blanco
y en muestras de muy bajo nivel de analito. Los resultados para las muestras de blanco se emplean para
determinar una respuesta que es infrecuente, y por tanto proporciona un umbral donde los valores
superiores se interpretan como positivos. Este punto y la desviación típica de las medidas de la muestra de
bajo nivel se emplean para encontrar la concentración en que las medidas excederán muy probablemente el
valor esperado más alto de los blancos. Las curvas de distribución de probabilidad de medidas repetidas de
un blanco y una muestra de baja concentración de analito se esquematizan en la figura 2.

Figura 1. Distribuciones de las concentraciones observadas para el blanco y una muestra de baja
concentración de analito. La línea discontinua correspondiente a concentraciones negativas indica
que algunos instrumentos no proporcionan resultados menores de 0.

10
Currie AL, et al. Nomenclature in evaluation of analytical methods including detection and quantification
capabilities (IUPAC recommendations). Pure Appl Chem. 1995; 67: 1699-723.

página 14
4.6. Aproximación general para determinar el límite de blanco
Las dispersiones de los resultados de los blancos y las muestras de bajo nivel se deben al error aleatorio de
la medida, que a menudo es menor para la muestra del blanco. En la figura 1, la media de las medidas del
blanco es cercana a cero con una distribución simétrica. Mientras que este tipo de señal puede producirse
internamente en el instrumento, muchos instrumentos convierten automáticamente los valores negativos de
las señales en cero o en un valor pequeño positivo, o bien los suprimen de modo que únicamente se
obtengan valores de concentración positivos como respuesta. Se asume que los valores por encima del
percentil 95 de la distribución de valores en muestras verdaderamente sin analito se desviarán
significativamente de las medidas del blanco. Cuando una muestra proporciona un valor observado que
supera este límite, puede decirse que contiene una cantidad de analito mayor de cero.
Empleando este límite, se tiene un 5 % de probabilidad de que dada una muestra verdaderamente sin
analito se obtenga un valor que indique la presencia de analito. Se trata del error de tipo I (error α ).
Asimismo, se observa que medidas de una muestra con baja concentración del analito pueden caer por
debajo de este límite, con lo cual serían indistinguibles de las medidas del blanco. Si se concluye que no
existe analito detectable en estos casos, se comete un error de tipo II, asociado al riesgo β , o “error β ”.
En función de los costes relativos de ambos errores, cuando se desarrolla un método se establecen los
errores α y β adecuadamente.
11
En 1997, ISO recomendó una definición del mínimo límite de detección en relación con los niveles
establecidos para el error de tipo I y II. Por defecto, dichos errores se acotan al 5 % (α = β = 5% ) . Un valor
de α del 5 % se corresponde con usar el percentil 95 de la distribución de valores del blanco como límite
para declarar un valor medido significativamente por encima del blanco.
Dada una distribución gaussiana de valores del blanco (figura 1), este límite se corresponde con:
LB = µ B + 1, 645 σ B [1]

donde: µB y σ B son la media y desviación típica de las medidas del blanco respectivamente.
Para una situación donde no existe posibilidad de obtener valores negativos, o si la distribución de los
valores del blanco no es gaussiana (por ejemplo, cuando siguen una distribución asimétrica), el percentil 95
debe estimarse por otra aproximación.
El procedimiento más directo es aplicar un método no paramétrico basado en los valores ordenados. El
percentil que constituye el límite de la distribución de los blancos, p B , es el que deja un porcentaje α de
valores en la cola superior de la distribución, y se define como límite de blanco, LB , es decir,
LB = p B − 100α [2]

4.7. Aproximación general para determinar el límite de detección


Para establecer el error de tipo II, se debe considerar la concentración mínima presente en la muestra, igual
al LD, que proporciona resultados con una probabilidad específica de superar el LB . Si se establece en un
5 % el nivel de error de tipo II, el 95 % de las medidas serán mayores que el LB cuando la concentración
real sea la del LD . La figura 1 ilustra dos casos de muestras, una con una concentración real igual al LB
y otra con una concentración a un nivel tal que el percentil 5 de la distribución de las medidas de
concentración de la muestra es igual al LB . En el primer caso (figura 1a, 50 % de las medidas están por
debajo del LB , y el otro 50 % por encima. Sólo este último 50 % sería declarado como excediendo
significativamente el valor del blanco, es decir, conteniendo una cantidad detectable de analito, y por tanto
β = 50 % ). En la figura 1b, en cambio, el 95 % de las medidas con muestras que tienen una concentración
de analito igual al LD exceden al LB y serán declaradas como medidas conteniendo una cantidad
detectable de analito. Por tanto, sólo el 5 % de las medidas serán erróneamente consideradas no
significativamente diferentes del blanco, y β = 5% , que es el riesgo de error de tipo II (riesgo β ).
El LD es la concentración real de la muestra, la menor concentración real que puede ser detectada con
fiabilidad. Habitualmente, la distribución de muestras de bajo nivel es gaussiana y el percentil 5 se
corresponde con el LB :

11
ISO. Capability of detection – Part 1: Terms and definitions. ISO 11843-1. Geneva: ISO, 1997.

página 15
LB = µ s − 1, 645 σ s [3]

donde: µs y σ S son la media y desviación típica de la población de medidas de bajo nivel.


Globalmente, se tendrá:
µ S = LD = LB + 1, 645σ S
Si la distribución de valores del blanco es gaussiana, LB = µ B + 1, 645 σ B , y, por tanto,
LD = µ B + 1, 645 σ B + 1, 645 σ S [4]
En caso de que la distribución muestral no sea gaussiana (ni se pueda transformar en gaussiana), puede
estimarse el LD no paramétricamente, como se verá; En caso contrario, será necesario producir muestras
de concentración próxima al LD , y chequear cuál es el valor para el que el 5 % o menos de las medidas
observadas están por debajo del LB .

Figura 2 Distribuciones de replicados para las muestras de blanco (curva izquierda en ambas
figuras) y dos muestras hipotéticas positivas de baja concentración (2a y 2b). Cuando la
concentración real de analito presente en la muestra es igual al LB , el 50 % de las medidas serán
superiores al (a). Con una concentración real en la muestra igual al LD , (100% - β) (95%) de las
medidas de las muestras serán superiores al LB (b).

4.8. Diseño del estudio


El diseño propuesto por el CLSI7 asume un sistema único del laboratorio operando en condiciones estables
(sin cambios de lote de reactivos ni modificaciones importantes en las calibraciones). Sin embargo, las
recomendaciones incluyen consideraciones de variabilidad debidas al tiempo (o run) y diferencias entre
sujetos.
Los fabricantes deben considerar determinar el LD en dos o más instrumentos con dos o más lotes de
reactivos para incluir la variabilidad debida a la combinación de diferentes instrumentos/reactivos. Si los
resultados de los diferentes sistemas son sustancialmente distintos, será necesario estudiar las razones de
dichas discrepancias. En caso contrario, se asume como LD la estimación mayor que se haya obtenido.
Esta sugerencia se debe contextualizar con consideraciones prácticas y con el coste del estudio. En
cualquier diseño que se elija, los resultados deben ir acompañados de una descripción completa del estudio
y de los parámetros que fueron investigados.

4.9. Número de muestras


En la determinación del número óptimo de muestras para establecer o verificar un LD , el objetivo es
calcular el número necesario de determinaciones y muestras, tanto de blanco como de muestras de bajo
nivel, de modo que se utilicen eficazmente los recursos. Se sobreentiende que a mayor número de
muestras y de determinaciones las estimaciones obtenidas tendrán menor incertidumbre, de modo que el
número total de medidas empleado estará limitado principalmente por cuestiones de disponibilidad de las
muestras adecuadas o por racionalización de recursos económicos. Desde el punto de vista estadístico, se
buscará una solución de compromiso entre el número de medidas de blancos y de muestras y la

página 16
incertidumbre de la estimación del LB y la variabilidad entre las medidas en las muestras de bajo nivel (se
hablará en términos de s S ).

La estimación no paramétrica del LB es aproximadamente la mitad de eficaz que el procedimiento


paramétrico. Esto significa que se espera obtener el mismo resultado mediante procedimientos
paramétricos y no paramétricos, pero empleando el mismo número de muestras la estimación paramétrica
tiene menor incertidumbre (si los datos son gaussianos). Las incertidumbres del percentil o la estimación de
la desviación típica también serán proporcionales a la dispersión de las distribuciones. Por tanto, con una
estimación no paramétrica del LB y la estimación paramétrica del LD , el número de medidas de blanco
debería ser mayor que el de muestras de baja concentración.
Sin embargo, es más frecuente que la dispersión de las medidas de la muestra de bajo nivel sea superior
que la de las medidas del blanco. En conjunto, en la mayoría de los casos puede ser aceptable procesar el
mismo número de muestras de bajo nivel que de blancos.
Cuando el número de medidas de blanco es el mismo que el de medidas de bajo nivel, la incertidumbre del
LD decrece con el inverso de la raíz cuadrada del número de medidas (ajustada por el número de
muestras diferentes incluidas en el estudio). La relación entre el tamaño muestral y la incertidumbre del LD
fue descrita por Linnet y Kondratovich.12.
Una solución de compromiso razonable entre precisión y coste es un mínimo de 60 medidas (tanto de
blanco como de muestras de bajo nivel) para establecer el LD , generalmente cuando se desarrolla un
método. Para verificar un LD estipulado por el fabricante, se empleará un mínimo de 20 resultados de la
concentración esperada y, si es necesario, también de la concentración del LB . Esta será la evaluación
habitual realizada por el usuario.

4.10. Características de blancos y muestras de bajo nivel


Cuando sea posible, blancos y muestras positivas de bajo nivel deben ser intercambiables por muestras
naturales, como será por ejemplo el caso, para un a determinación de un fármaco, de procesar suero o
plasma sin el compuesto en lugar de únicamente una solución de tampón. Dado que las muestras
artificiales y preparadas por adición del compuesto pueden tener distinto comportamiento que las muestras
obtenidas de un paciente, habrá que tener en cuenta consideraciones respecto a interferencias y efectos de
matriz.
Para asegurar que las medidas son representativas, es preferible recopilarlas de un número dado de
muestras diferentes que de una misma muestra. Dadas las diferencias de matriz existentes de muestras a
muestra, incluso en medidas repetidas de una misma muestra, se prefiere una serie de cinco o más
muestras. Estas medidas deberían realizarse a lo largo de varios días de modo que reflejen la realidad del
método en las condiciones habituales del laboratorio, incluyendo (cuando sea apropiado) diferente personal
y equipo. Para verificar un valor dado, el periodo necesario no incluirá cambios de lote de reactivos o
mantenimientos importantes del equipo. Para establecerlo, en cambio, es necesario incluir cambios de lote
de reactivos.

Consideraciones para muestras de blanco


Para compuestos endógenos, el blanco debería ser muestras a las que se haya eliminado el componente,
por ejemplo por precipitación con un anticuerpo, por degradación enzimática o por absorción con carbón
activado, etc. Para hormonas, las muestras de blanco pueden provenir de sujetos enfermos o pacientes con
niveles suprimidos debido a tratamiento farmacológico. Para marcadores tumorales, son válidas muestras
de sujetos no enfermos. Si no es posible evitar un nivel residual de analito, debería ser de un orden de
magnitud inferior al límite del intervalo analítico del método.

Consideraciones para muestras positivas de bajo nivel


Para muestras de bajo nivel de compuestos endógenos, se prefiere emplear una serie de muestras de
sujetos con concentraciones bajas. Si es necesario adicionar a una muestra el analito (por ejemplo, para un
fármaco), es mejor hacerlo sobre muestras de diferentes sujetos antes que del mismo paciente o a un pool.
La s S conjunta se estimará a partir de medidas repetidas con la serie de muestras, por ejemplo, 12

12
Linnet K, Kondratovich M. A partly nonparametric procedure for determination of the limit of detection. Clin
Chem. 2004; 50: 732-40.

página 17
medidas de cada una de cinco muestras. Las medidas deberían realizarse en días diferentes de modo que
la s S refleje la variación analítica total.

Para que las estimaciones del LD y el LB tengan significado, los valores medidos deberían ser trazables
hasta un nivel conocido. Si existe método de referencia para el analito de interés, deberían compararse las
medidas obtenidas por ambos métodos en concentraciones cercanas al mímite inferior del intervalo
analítico. La trazabilidad también puede comprobarse con medidas sobre muestras suplementadas.

4.11. Resultados
Las medidas pueden realizarse de una característica o propiedad como la concentración o la actividad
siempre que la cantidad medida (el mensurando) esté claramente definida. Cuando el mensurando difiere
del analito de interés (por ejemplo, una actividad enzimática no es lo mismo que la concentración en masa
del enzima), la cantidad debe estar bien definida. Esto es esencial para entender las diferencias en LD
para diferentes métodos o bajo diferentes condiciones de medida.

4.12. Procedimiento para determinar y verificar el límite de blanco y el límite de detección


Los procedimientos para establecer las características y verificar las especificaciones de un método difieren
en complejidad y en el número de medidas necesarias. El procedimiento para hacerlo se basa en el mismo
modelo y las mismas tolerancias para los errores de tipo I y II.

4.13. Procedimiento para determinar o establecer el límite de blanco


Se recomienda que se procesen un mínimo de 60 medidas de blanco. El LB se estima para N B medidas
repetidas de una o varias muestras de blanco. El uso de varias muestras puede ayudar a asegurar que una
muestra con cierta cantidad detectable de analito no sea tomada como un blanco. Si los datos parecen
seguir una distribución de Gauss, se deberá emplear la ecuación [1] para estimar el LB . Si los datos no
siguen una distribución normal (así como si están truncados en el cero) se empleará la ecuación [2] y el
siguiente procedimiento.
Dados los datos ordenados, se calcula el percentil apropiado ( p ) (en función del valor deseado para α . En
este caso, p = (100 − α ) = 95 :

 p  
LB = resultado en la posición    N B + 0,5 
  100   [5]
= resultado en la posición ( 0,95 N B + 0,5 ) = Pr (1 − α )
Si no es un valor entero se realizará una interpolación lineal. En la práctica suele calcularse el percentil de
orden 100 − α mediante cualquier software apropiado.

4.14. Procedimiento para determinar el límite de detección


Para determinar el LD , se estima la desviación típica de las medidas de la muestra s S ( ) a partir de NS
medidas repetidas de muestra(s) con una concentración baja detectable, por ejemplo, una concentración en
aproximadamente de cuatro veces el LB . Se recomienda un mínimo de 60 resultados obtenidos a partir de
muestras de baja concentración. El procedimiento preferido es tomar varias muestras de bajo nivel (de
cuatro a seis) y calcular una estimación conjunta de la precisión a esos niveles. Antes de juntar las
estimaciones individuales de la precisión, debería comprobarse la consistencia de las mismas mediante un
test F convencional (dos muestras) o un test de Cochran, en caso de que se trate de más de dos
muestras. Si el test falla, es preciso investigar una posible causa técnica. Puede ser indicativo de
inestabilidad de la reacción o de que alguna de las muestras esté afectada de una variabilidad superior a la
esperada. Se obtiene de este modo una estimación preliminar, LD p según:

LD p = LB + c β s S [6]

donde: s S es la desviación típica estimada de la distribución de las muestras de bajo nivel; y

página 18
cβ se deriva del percentil 95 de la distribución de Gauss, como factor de corrección aplicado
debido a que la s S es una estimación sesgada de la desviación típica poblacional σS.
Si el número de medidas N S no es demasiado pequeño,

1, 645
cβ =
1
1−
4g
donde: g son los grados de libertad de la desviación típica estimada s S .

Por ejemplo, si se han obtenido 60 resultados (N S = 60 ) a partir de cinco muestras de concentración baja
( k = 5) , para la desviación típica conjunta estimada s S ,
g = N S − k = 55
1, 645
cβ = = 1, 653
1
1−
220
No es necesario ni deseable obtener todas las medidas en la misma muestra de baja concentración. El
motivo es que el empleo de varias muestras permite tener en cuenta la variabilidad entre sujetos.

Consideraciones acerca de la desviación típica

Es importante considerar si la s s obtenida al nivel medido puede ser la misma que al nivel del LD p . En la
estimación del LD , un problema común es que la desviación típica muestral no sea constante, pues
frecuentemente aumenta con la concentración. Sin embargo, en un intervalo limitado de concentraciones,
podría ser aproximadamente constante y el procedimiento anterior es adecuado. Si se puede asumir una s s
constante, entonces LD = LD p .
En caso contrario, se debe considerar una aproximación más complicada, asumiendo que la desviación
típica muestral es función de la concentración13,14.

4.15. Consideraciones sobre la forma de la distribución


Si los datos de la concentración baja no son gaussianos, cabe la posibilidad de transformar los datos para
obtener una distribución normal, por ejemplo mediante una transformación logarítmica. En este caso, el LD
se calcula en las unidades transformadas, y posteriormente convertirlo a las unidades originales mediante la
transformación inversa (por ejemplo, exponencial).
Si no es posible obtener una distribución normal, pero la s S es razonablemente constante, se puede
emplear una estimación no paramétrica de la dispersión, calculada como la distancia entre el percentil β de
la distribución de medidas y el valor asignado (o valor aceptado como referencia) para la muestra de bajo
nivel. Esta distancia, que se denominará D S , β , es análoga al término c β s S de la ecuación [6], por lo que:

LD = LB + D S , β
Si la s S no es constante, y no es posible obtener datos normales, deberá emplearse un procedimiento de
“prueba y error” no paramétrico Se prepararán muestras a niveles similares al LD esperado y se obtendrá
una serie de medidas (en distintos tiempos y con diferentes operadores). Se calcularán los percentiles β ,

13
ISO. Capability of detection. Part 1. Terms and definitions. ISO 11843-1. Geneva:ISO, 1997.
14
ISO. Capability of detection. Part 2. Methodology in the linear calibration case. ISO 11843-2. Geneva:ISO,
2000.

página 19
como porcentaje de observaciones por debajo de LB . El LD es el menor nivel para el cual dicho percentil
β sea del 5 % o menor.

4.16. Procedimiento para verificar un límite de detección


En un laboratorio se puede plantear asegurar que un procedimiento cumpla las especificaciones de LD
que establece el fabricante, en lugar de establecer su propio LD . Si se dispone de él, el laboratorio debería
usar el LB proporcionado por el fabricante, pero debe verificarlo con al menos 20 replicados de un blanco.
Se puede asumir el LB considerado por el fabricante si no se observan más de tres replicados superiores
al LB .
Si no se conoce el LB , se debe estimar como se ha descrito anteriormente y posteriormente procesar
muestras repetidas de la concentración del LD para así estimar la proporción de resultados que exceden
el LB . Se recomienda un mínimo de 20 medidas de dichas muestras, si es posible en diferentes muestras
y varios días. Si la proporción de observaciones que superan el LB está de acuerdo a lo esperado ( 1 − β ,
por defecto 95 %), es decir, si el “95 %” está incluido en el intervalo de confianza del 95 % para la
proporción registrada, puede decirse que los datos apoyan el LD del fabricante. Puede ocurrir que se
obtenga más de una medida de 20 por debajo del LB y aún así se cumpla este criterio. En la tabla 2 se
presenta, para tamaños muestrales entre 20 y 1000, los límites inferiores de la proporción registrada que
están de acuerdo con la proporción esperada del 95 %.
Si la proporción obtenida no está de acuerdo con el 95 % esperado, entonces no habrá sido posible verificar
el LD del fabricante. El usuario debería considerar contactar con éste, o establecer un LD por su cuenta,
como es ha descrito anteriormente.

n límite inferior proporción observada (%)


20 85
30 87
40 88
50 88
60 88
70 89
80 89
90 90
100 90
150 91
200 92
250 92
300 92
400 93
500 93
1000 94
Tabla 2. Límites inferiores del 95 % de confianza para los resultados observados que excedan el LB
con una proporción esperada de 1-β = 95 % (modificado de Linnet & Kondratovich)15

Ejemplo de verificación de un LD
Un procedimiento analítico para medir una hormona un LD de 45 UI/L según el fabricante con
α = β = 5% . El usuario determina 25 medidas de blanco (5 medidas de 5 muestras de blanco durante 5
días) y 25 medidas en muestras a las que se ha añadido 45 U/L del analito (5 medidas de 5 muestras en 5
días). Los resultados se presentan en la tabla 3 y la figura 2. La inspección visual revela que la distribución

15
Linnet K, Kondratovich M. A partly nonparametric procedure for determination of the limit of detection. Clin
Chem. 2004; 50: 732-40.

página 20
de valores del blanco es asimétrica y, por lo tanto, se estima el LB no paramétricamente. El percentil 95 es
20,28.

orden blancos muestras


1 0 18,8
2 0 19,02
3 0 26,63
4 0 26,91
5 0 31,08
6 0 33,99
7 0 35,11
8 0 35,9
9 0 36,12
10 1,08 41,67
11 1,92 43,9
12 2,38 46,32
13 2,98 47,77
14 3,8 47,99
15 4,78 48,83
16 7,3 54,67
17 8,81 57,3
18 10,31 59,1
19 11,29 61,17
20 13,48 61,96
21 14,39 62,97
22 16,97 66,44
23 17,4 73,44
24 21 73,8
25 24 75,71
Tabla 3. Valores de ejemplo para una verificación del LD

Figura 3. Ejemplo de verificación del LD distribuciones de las 25 medidas del blanco y de las 25 de
muestras suplementadas con analito de modo que la concentración sea igual al LD supuesto de 45
U/L. Se estimó el LB en 20,28 UI/L (p95 de la distribución de los blancos).

El 92 % de las medidas de las muestras, 23 , superaron el LB .


25

página 21
En la tabla 3 se observa que el 92 % es mayor que el límite inferior (85 %) para una confianza del 95 %
siendo el tamaño muestral de 25. Por tanto, la proporción observada no es contradictoria con el LD
esperado.

5. Límite de cuantificación

El Límite de cuantificación ( LQ ) es la menor cantidad de analito que puede ser detectado con fiabilidad (el
LD ), y al cual el error total cumple los requisitos del laboratorio para aportar un aceptable uso clínico.
Dependiendo del objetivo definido para el error, el LQ puede ser igual la LD o mucho mayor. Nunca
puede ser inferior. El LQ debería determinarse como parte del desarrollo del método y puede ser
documentado por el fabricante. El usuario puede establecer su propio LQ o verificar el del fabricante. No
es necesario determinar el LQ para cada método si puede determinarse la incertidumbre (o error total) de
la medida para los niveles bajos. En estos casos, puede ser aceptable informar la incertidumbre estimada
del resultado de cada resultado de nivel bajo y permitir al usuario interpretar si es adecuado para su uso.

5.1. Establecimiento del límite de cuantificación


Los resultados del estudio del LD deberían usarse para estimar el sesgo y la imprecisión para cada nivel
de analito. Para este protocolo, se recomienda un mínimo de 40 replicados, entre tres y cinco muestras
diferentes, determinadas en al menos cinco series. La diferencia entre la media de los replicados (si se
emplea una muestra) y el valor de referencia aceptado es una estimación del sesgo. Si se emplea más de
una muestra para cada nivel, el promedio de las diferencias es una estimación de la veracidad. La
desviación típica total de los 40 resultados (una muestra) o la estimación conjunta de la s S es una
estimación de la precisión. La combinación de estos para estimar el error total a cada nivel, se realiza
empleando: sesgo + 2 s S = error total (si el sesgo es negativo, usar sesgo − 2 s S = error total ). Si
la estimación es inferior al objetivo definido para el error total, puede asumirse que: LQ = LD .
Este procedimiento asegura que, para muestras con un valor verdadero igual al LQ, hay aproximadamente
un 95 % de probabilidad de que el resultado del test sea suficientemente exacto. Si se requiere mayor
probabilidad, la s S debería multiplicarse por un factor mayor; por ejemplo, si sesgo + 4 s S y sesgo − 4 s S
están dentro de los valores esperados (y el error es gaussiano), más del 99,5 % de los resultados se
ajustarán al uso deseado.
Si no se cumple el objetivo a este nivel, deberán chequearse niveles ligeramente más altos. Deben
obtenerse materiales de referencia adecuados, similares a los materiales empleados para determinar el
LD . La concentración real debe ser conocida por un método independiente, bien mediante un método de
referencia, por suplementación, o, cuando sea adecuado, por dilución. Si los materiales con comerciales, la
incertidumbre del factor de dilución y/o proceso de suplementado debe incluirse con la estimación de la
incertidumbre o del error total derivado del estudio.
Si se obtiene un LQ superior al menor nivel asumido en el intervalo de medida (o intervalo comunicable), el
intervalo de medida puede no ser adecuado para el uso deseado en el laboratorio. Si los límites inferiores
del 95 % de confianza para la estimación del sesgo y la imprecisión son mayores de lo descrito para el
método, deberá investigarse una causa técnica.

5.2. Verificación de un límite de cuantificación


Si se desea confirmar un LQ o si el error no puede asumirse como gaussiano, se puede usar un
procedimiento alternativo para chequear el LQ descrito. Esto requiere el seguimiento de todas las
consideraciones anteriores, a excepción del cálculo de s S y la estimación del error total, y es aceptable un
mínimo de 25 replicados. En este caso, los replicados en cada muestra se comparan con el valor de
referencia para la muestra y el objetivo de error total. El número de resultados que excederán el error total
es una medida de lo adecuado del método a ese nivel. Se puede utilizar la tabla 3 para determinar el
número de resultados “inaceptables” que podrían ser observados, si se emplea un criterio del 95%. Por
ejemplo, si hay un total de 30 replicados (sobre un número de muestras), en la tabla 3 se puede ver que al
menos 87 % de los resultados (26,1, redondeados a 27) deben estar entro del objetivo de error. Por tanto, si

página 22
se obtienen hasta tres resultados con error excesivo, el LQ puede considerarse verificado. Si existe duda
acerca de este resultado (en el ejemplo, permitiendo al 10 % de las muestras tener un error excesivo),
deben obtenerse más replicados.
Si no se cumple este criterio, el LQ descrito por el fabricante quedará en entredicho.

5.3. Informe de resultados


5.3.1. Informe de intervalos para resultados cuantitativos
Habiendo establecido varios límites de acuerdo con este protocolo, el fabricante de un método puede querer
informar LB , LD y LQ en el folleto incluido en los reactivos o descripción del método. Si el fabricante del
método decide informar de estos límites, deben ir acompañados de las probabilidades α y β , objetivos
para los niveles establecidos de precisión y veracidad, así como otras características del diseño.
El informe va a depender de dónde se sitúan los resultados observados respecto a los límites y de los
procedimientos del laboratorio. Si un laboratorio quiere aportar el máximo de información, incluyendo la
“zona gris” de incertidumbre de la cuantificación, sería adecuado el siguiente planteamiento:
• Si resultado ≤ LB se informa como “no detectado; concentración < LD ”;
• Si LB < resultado < LD se informa como “analito detectado; concentración < LQ;”
• Si LD ≤ resultado < LQ (a) se informa como “analito detectado; concentración < LQ ”; o bien
(b) se informa el resultado advirtiendo de que posiblemente esté sujeto a
mayor incertidumbre;
• Si resultado > LQ se informa.
Si un laboratorio elige informar sólo resultados cuantitativos y simplificar el informe de las concentraciones
inferiores al LQ , puede ser adecuado el siguiente procedimiento:
• Si resultado ≤ LB se informa como “concentración < LD ” o “no detectado”;
• Si LB ≤ resultado < LQ se informa como “concentración < LQ ” o “detectado”
• Si resultado ≥ LQ se informa el resultado medido

Figura 4.

5.3.2. Precauciones en la interpretación de resultados cuantitativos


Los valores medidos menores que el LQ pero superiores al LB pueden servir para demostrar la presencia
del analito, pero los niveles reales medidos no deberían emplearse para ninguna interpretación clínica. Los
resultados que se sitúen entre el LD y el LQ no deberían informarse sin alertar de la posible mayor
incertidumbre de esos valores.
El LD y el LQ pueden coincidir o diferir en cierta cantidad, dependiendo de la incertidumbre del LD y de
los objetivos del laboratorio. Si hay diferencia entre ambos valores, no se puede asumir que la respuesta
medida entre el LD y el LQ sea lineal, ni siquiera que siga una función monótona creciente. Aunque esta
monotonía sea cierta en la mayoría de los casos, pueden darse situaciones en que no exista relación a esos

página 23
niveles, debido a discontinuidades, valores nulos, etc. Si no existe una documentación clara acerca de la
relación monótona, no deben hacerse interpretaciones acerca de concentraciones en este intervalo de
concentraciones.
En la práctica rutinaria, el LD y el LQ deberían emplearse como se ha descrito anteriormente para decidir
cómo informar los resultados. Existen otras situaciones, como es el caso de que se use el promedio de
varias réplicas como resultado para un sujeto, o en estudios científicos, en que deben registrarse las
concentraciones medidas (si se dispone de ellos), independientemente de que estén por debajo o por
encima del LD , porque en estas situaciones si se emplean resultados truncados, cualquier promedio
estaría sesgado.

6. Linealidad
La demostración del intervalo lineal requiere una serie de concentraciones conocidas o relaciones
conocidas establecidas por dilución. En todas las situaciones la secuencia de análisis debe ser aleatoria. El
experimento del intervalo lineal requiere contar con suficiente cantidad de cada espécimen para preparar
diluciones y llevar a cabo el análisis de cada uno de cinco o más concentraciones. El volumen puede variar
según lo que se desee establecer:
• Para demostrar que la operación del sistema está dentro de las especificaciones del fabricante deben
emplearse de cinco a siete concentraciones elegidas a lo largo de todo el intervalo lineal establecido.
Deben chequearse dos replicados de cada nivel.
• En el desarrollo de métodos nuevos, si se desea establecer el intervalo lineal, o cuando se quiere
modificar un método ya existente, deberían emplearse entre siete y once concentraciones a lo largo del
intervalo de medida que se espera de antemano. En el desarrollo de métodos se puede emplear más
puntos y ampliar dicho intervalo hasta hacerlo un 20 – 30 % más amplio, con la intención de eliminar
algunos de los puntos y obtener el intervalo lineal más amplio posible. Deben usarse de dos a cuatro
replicados de cada nivel, dependiendo de la imprecisión esperada.
• El número mínimo de puntos para describir de una manera fiable un intervalo lineal es cinco, mediante
un método polinómico. Con mayor número de puntos, se obtendrá una descripción más exacta de la
linealidad se podrá también establecer un intervalo lineal más amplio, una vez se hayan eliminado los
puntos necesarios.
Se recomienda preparar adecuadamente niveles de concentración intermedia igualmente espaciados
mezclando proporcionalmente un pool alto y uno bajo, aunque el método que se propone en el documento
CLSI EP6 no lo requiere necesariamente.9 Se acepta el empleo de muestras especialmente preparadas
para obtener concentraciones específicas, dado que se conocerán las concentraciones relativas a cada una
de las demás. Para esta evaluación, se cometerá menos error si se emplean mezclas preparadas,
dispensando con exactitud adecuada, a partir de un pool alto y otro bajo, que si se emplean muestras
individuales o soluciones reconstituidas o preparadas en el laboratorio. Debe tenerse especial precaución
cuando se dispensen volúmenes pequeños. Las pipetas de desplazamiento positivos son útiles para
preparar diluciones exactas con pequeños volúmenes.

S = 5 muestras S = 6 muestras S = 7 muestras S = 8 muestras S = 9 muestras


1: bajo (L) 1: bajo (L) 1: bajo (L) 1: bajo (L) 1: bajo (L)
2: 0,75 L + 0,25 H 2: 0,80 L + 0,20 H 2: 0,833 L + 0,167 H 2: 0,857 L + 0,143 H
2: 0,875 L + 0,125 H
3: 0,50 L + 0,50 H 3: 0,60 L + 0,40 H 3: 0,667 L + 0,333 H 3: 0,714 L + 0,286 H
3: 0,750 L + 0,250 H
4: 0,25 L + 0,75 H 4: 0,40 L + 0,60 H 4: 0,500 L + 0,500 H 4: 0,571 L + 0,429 H
4: 0,625 L + 0,375 H
5: Alto (H) 5: 0,20 L + 0,80 H 5: 0,333 L + 0,667 H 5: 0,429 L + 0,571 H
5: 0,500 L + 0,500 H
6: Alto (H) 6: 0,167 L + 0,833 H 6: 0,286 L + 0,714 H
6: 0,375 L + 0,625 H
7: Alto (H) 7: 0,143 L + 0,857 H
7: 0,250 L + 0,750 H
8: Alto (H) 8: 0,125 L + 0,875 H
9: Alto (H)
Tabla 4. Esquemas de dilución para preparar muestras de cinco a once concentraciones
igualmente espaciadas

página 24
Se pueden emplear productos comerciales para diagnóstico in vitro, siempre que se sigan las instrucciones
del fabricante. Estos productos permiten verificar cuantitativamente una calibración, validar intervalos de
medida, y determinar la linealidad de sistemas químicos automáticos, semiautomáticos y manuales.
A continuación, se presenta una lista de posibles tipos de especímenes en orden de preferencia para la
aplicación que nos atañe. Debe extremarse la precaución en lo que respecta a emplear una matriz
apropiada para un método particular.

6.1. Pool de muestras de pacientes


La matriz de muestra ideal es un pool de especímenes de pacientes con una concentración de analito
cercana al límite superior del intervalo dinámico esperado, que será diluido con otro pool de muestras de
pacientes de la menor concentración esperada o deseada. La concentración final de los pooles que
realmente se analicen representará el intervalo estudiado. Por lo tanto, los pooles alto y bajo finales pueden
requerir ajuste para llevarlos al intervalo deseado.

6.2. Pool de muestras de pacientes diluido con un diluyente recomendado


El fluido empleado para diluir una concentración del pool de muestras de pacientes de concentración alta
puede afectar a los resultados obtenidos.
Sólo el diluyente recomendado por el fabricante, o que se haya comprobado como aceptable en el
laboratorio, deberá emplearse para las diluciones. Para aquellos sistemas analíticos que permitan la dilución
de la muestra del paciente cuando las concentraciones del analito estén por encima del intervalo dinámico,
empleando el diluyente apropiado para demostrar la linealidad a lo largo del intervalo de medida, existe la
ventaja de que se dispondrá de un diluyente recomendado y chequeado para dicho fin.

6.3. Pool de muestras de pacientes suplementado con el analito de interés


El material de suplemento que contenga el analito de interés no necesita ser de alta pureza si no existen
sustancias interferentes. En caso contrario, debe registrarse en el estudio la fuente, pureza, efecto
esperado... Si se emplea una disolución concentrada del analito para suplementar el pool, se debe diluir el
pool lo menos posible (en principio, menos del 10 %), y documentar el disolvente.

6.4. Pool diluido con materiales tratados de baja concentración o con otro pool tratado
Si es posible, se empleará para las diluciones un pool de pacientes de baja concentración.
Alternativamente, pueden emplearse ciertos tratamientos para reducir la concentración de analito, (como
diálisis, tratamiento por calor o cromatografía). Debe tenerse en cuenta que estos tratamientos pueden
alterar el analito y/o la matriz física o químicamente. Es más importante mantener constante la matriz que
alcanzar bajos niveles por simple dilución.

6.5. Controles / calibradores / materiales para estudio de linealidad comerciales


Si se emplean estos materiales, deben analizarse como si se tratara de muestras de pacientes. Si no se
suministran mezclas de las concentraciones apropiadas, se empleará la muestra más alta y más baja para
preparar concentraciones intermedias. Conviene asegurar que el analito esté en la forma fisiológicamente
normal (por ejemplo, enlazado a proteína o como metabolito, si es el caso).

6.6. Pool diluido con suero salino u otros diluyentes diferentes del recomendado
Cuando se empleen estas muestras debe considerarse posibles efectos de matriz que puedan afectar a los
resultados. Las diluciones deben ser las mínimas necesarias y han de documentarse.

6.7. Material de control comercial diluido con diferente volumen del establecido
Cuando se empleen estas muestras deben considerarse posibles efectos de matriz que puedan afectar a
los resultados: estos efectos pueden modificar la concentración. Las diluciones deben ser las mínimas
necesarias y han de documentarse. Debe extremarse la precaución para asegurar que se consigue una
completa disolución del material liofilizado.

página 25
6.8. Soluciones acuosas
Cuando se emplean disoluciones acuosas, no se chequean los efectos de la matriz de las muestras reales
en la respuesta del método. Dichos efectos de matriz pueden influir en la interpretación de los resultados.
Aunque son preferibles materiales de alta pureza porque minimizan las posibles interferencias que
potencialmente afecten a los resultados, pueden ser aceptables materiales menos puros.
Muchos métodos químicos en clínica se calibran con materiales acuosos, y la concentración suministrada
por pesada puede ser aceptada como valor diana.

6.9. Disoluciones en otros disolventes


Los efectos de matriz pueden ser más probables aún si se emplean disolventes orgánicos.
La secuencia analítica debería ser aleatoria. Si existe arrastre o deriva significativos los resultados del
experimento no son aceptables.

6.10. Intervalo analítico


Los niveles de concentración extremos elegidos para la medida deben incluir o ser iguales a los valores
mínimo y máximo especificados en las características del método. Cuando se establece el intervalo lineal,
se emplean entre siete y once niveles seleccionados en un intervalo de concentraciones dentro de un rango
que será entre un 20 y un 30 % más amplio que el intervalo de medida esperado, con la intención de
eliminar puntos de no–linealidad y establecer el intervalo más amplio posible de respuesta lineal aceptable.
El empleo de un número mayor de niveles puede ayudar a justificar el uso de la interpolación para definir las
características del intervalo dinámico de medida.
Si no se conoce la concentración de los pooles alto y/o bajo, debe codificarse cada uno de ellos. La
codificación es el proceso de asignar a cada pool un número que aluda a su concentración relativa. Para
concentraciones igualmente espaciadas, la codificación permite asignar números enteros a cada pool
consecutivo. En otras palabras, las concentraciones del pool no necesitan ser conocidas de antemano. Para
verificar los límites, puede emplearse la media de los resultados de los pooles alto y bajo. Se puede
preparar una concentración intermedia a partir de los pooles alto y bajo así como sucesivas concentraciones
intermedias a partir de ésta y los pooles alto y bajo.
En el ejemplo siguiente, se emplea un protocolo por dilución, aunque en algunos laboratorios puede ser
preferible un diseño gravimétrico. Independientemente del procedimiento por el cual se preparen las
disoluciones, éstas deben realizarse con extremo cuidado
(1) Se obtienen dos pooles (de concentraciones alta y baja respectivamente), en una matriz aceptable y
con suficiente volumen para todo el experimento. El volumen requerido de cada pool dependerá del
volumen del procedimiento. Aseguraremos que el sistema de dispensación es el más exacto y preciso
posible. La siguiente aproximación se basa en cinco concentraciones igualmente espaciadas.
(2) El pool de concentración baja (idealmente cerca y dentro del límite bajo) se codifica como Pool 1; el pool
de la concentración más alta chequeada se codifica como Pool 5.
(3) Los pooles de concentración intermedia se preparan por dilución y se establecerá la relación entre ellos
y con los pooles alto y bajo mediante intervalos constantes. Un método conveniente para preparar los
pooles intermedios es el siguiente:
• Pool 2: 3 partes de pool 1 y 1 parte de pool 5.
• Pool 3: 2 partes de pool 1 y 2 partes de pool 5.
• Pool 4: 1 parte de pool 1 y 3 partes de pool 5.
La concentración de cada pool se define por la siguiente fórmula
C 1 V1 + C 5 V 5
concentración =
V1 + V 5
donde: C 1 es la concentración de Pool 1;

C5 es a concentración de Pool 5;

V1 es el volumen del Pool 1;

V5 es el volumen de Pool 5.

página 26
Debe tomarse la precaución de mezclarlos perfectamente y protegerlos de la posible evaporación y
deterioro.
Por ejemplo, para un sistema analítico que requiera 0,05 mL por determinación, y se chequeen 10 muestras
por concentración, se necesitarán al menos 0,5 mL adicionales de volumen muerto. Supongamos que la
concentración del pool 1sea de 120 unidades y la del de concentración baja de 40 unidades (no es preciso
conocer la concentración antes de analizarlo).
(1) Especímenes para Pooles 1 y 5: alícuotas de 0,6 mL se dispensan en tubos apropiadamente rotulados.
(2) Pool 2: se añaden 0,6 mL de Pool 1 a 0,2 mL de Pool 5.
(3) Pool 3: Se mezclan 0,4 mL de Pool 1 y 0,4 mL de Pool 5.
(4) Finalmente, el Pool 4 se hace mezclando 0,2 mL de Pool 1 y 0,6 mL de Pool 5. La concentración de
Pool 4 se calcula según:
40 × 0, 200 + 120 × 0, 600
Pool 4 = = 100 unidades
0, 200 + 0, 600
Las concentraciones esperadas de los pooles son 40, 60, 80, 100, y 120 unidades.
La representación de los resultados analíticos puede emplear concentraciones conocidas o calculadas.
• Para establecer el intervalo lineal: 9 a 11 niveles, y 2 a 4 replicados de cada nivel.
• Para validar las especificaciones de un método: 7 a 9 puntos, y 2 o 3 replicados de cada nivel.
• Para confirmar que el intervalo lineal es válido en un laboratorio: 5 a 7 niveles, y 2 replicados de cada
nivel.
Las muestras deberían analizarse aleatoriamente durante la misma serie o series analíticas próximas.
El número de réplicas deberá ser suficiente para proporcionar una estimación fiable de la concentración a
cada nivel. Para algunos analitos, en algunas concentraciones, se puede requerir 3–5 réplicas. Los usuarios
deben juzgar acerca del número de réplicas necesarias. Este procedimiento no se ve afectado
negativamente por el empleo de diferente número de replicados a diferentes niveles.
En este capítulo, se hablará de outliers en el sentido de aquellos resultados aislados que sean visual o
estadísticamente diferentes del resto de los resultados, y se aplica sólo a valores individuales de los
replicados. No son múltiples replicados del mismo nivel o un valor promedio a un nivel; Estos tipos de
resultados desviados serían indicativos de falta de linealidad o de error sistemático. Los outliers son
resultados que proceden de errores probados o razonablemente asumidos. En este contexto, los outliers
son resultados que no se ajustan al patrón representado por el resto de los datos. La inspección visual de la
gráfica de los resultados frente a los valores esperados suele ser suficiente para detectarlos. Un único
outlier en una serie de datos puede ser eliminado y no necesita ser reemplazado. Si subjetivamente se
observa más de un punto candidato a ser eliminado, el sistema de medida probablemente sea impreciso, y
las causas de la misma deberían ser examinadas y a ser posible solucionadas antes de tratar de establecer
o verificar la linealidad del método.

6.11. Determinación del intervalo lineal


La evaluación polinómica de la linealidad asume, a priori, que los datos no son lineales. Esta aproximación
asume que los resultados se ajustan perfectamente a una curva en ausencia de error aleatorio. Si la curva
de mejor ajuste es lineal o no afecta a la capacidad de interpolar entre los datos experimentales.
Esencialmente, el método polinómico evalúa la no–linealidad: por este motivo se emplean polinomios.
El método consta de dos partes. La primera parte examina si un polinomio no–lineal ajusta los datos mejor
que una línea recta. La segunda parte, realizada en aquellos casos en que el ajuste polinómico no–lineal es
mejor que el lineal, establece si la diferencia entre el polinomio no–lineal que mejor se ajusta y el lineal es
menor que la cantidad de sesgo aceptable para el método, que debería estar predefinido.

6.12. Regresión polinómica


La evaluación de la linealidad requiere al menos cinco disoluciones de diferentes concentraciones
analizadas al menos por duplicado.
Se debe conocer tanto la concentración de analito como la relación entre las disoluciones, que puede
consistir en intervalos equidistantes o intervalos de distinta longitud. Por ejemplo, en un intervalo de 0,20 a
1,00 g/L, las soluciones equidistantes deberían tener concentraciones de 0,40, 0,60, y 0,80 g/L. Se puede
representar 0,20, 0,40, 0,60, 0,80 y 1,00 g/L para los valores en el eje de las abscisas, o 1, 2, 3, 4 y 5.

página 27
A continuación, se realiza un análisis de regresión polinómica para polinomios de primero, segundo y tercer
orden. Esto puede llevarse a cabo en la mayoría de los programas estadísticos comerciales.

6.13. Orden de la regresión polinómica


grados de libertad de la regresión
orden polinomio
(g. de l. reg)
primero y = b 0 + b1 x 2

segundo y = b 0 + b1 x + b 2 x 2 3

tercero y = b 0 + b1 x + b 2 x 2 + b3 x 3 4

El modelo de primer orden es una línea recta. Esta será la ecuación de mejor ajuste lineal tanto si el método
es lineal como si no lo es. El modelo de segundo orden describe una relación en la que existe una curva de
respuesta, tanto con una tendencia creciente en la misma como decreciente. El modelo de tercer orden
ajusta situaciones donde la respuesta cambia según los niveles; respuestas con forma sigmoide se ajustan
bien a este modelo, dado que son modelos donde no hay linealidad en los extremos del intervalo de
medida.
Los coeficientes de regresión se etiquetan como bi . En el modelo de segundo orden, b 2 es el coeficiente
de no–linealidad; en el modelo de tercer orden, b 2 y b3 son coeficientes de no–linealidad. Se debe obtener
el error estándar de la pendiente para cada coeficiente de no–linealidad, es i . El siguiente paso es realizar
una prueba t para comprobar si los coeficientes de no–linealidad son estadísticamente significativos; esto
(
es, si el coeficiente es significativamente diferente de cero. Los primeros dos coeficientes b 0 , b1 ) no se
chequean porque nunca reflejarán no–inealidad. El test se calcula como sigue, para b 2 y b3 :

bi
t =
es i
Se calcula el número de grados de libertad a partir de la formula:
grados de libertad ( g . de l.) = L R − g . de l. reg
donde: L es el número de concentraciones diferentes,
R es el número de replicados de cada preparación o concentración; y
g. de l. reg. es el número de grados de libertad consumidos por el análisis de regresión.
g. de l. reg es el número de coeficientes presentes en el modelo de regresión (incluido b 0 ). (En el ejemplo
anterior, para un polinomio de tercer orden sería L = 5 ; R = 2 , g. de l. reg. = 4, y g.de l. = 5 × 2 - 4 = 6 . Se
consultaría el valor crítico de t (bilateral para α = 0, 05 ), o la probabilidad de que se exceda el valor
observado de t . Si ninguno de los coeficientes de no–linealidad, b 2 o b3 , son significativos ( p > 0, 05 para
todos), puede considerarse que los datos son lineales y el análisis está completado excepto si es preciso
chequear una gran imprecisión.
Si alguno de los coeficientes de no–linealidad son significativos, b 2 en el modelo de segundo orden, o b 2 o
b3 en el modelo de tercer orden, ( p < 0, 05 ) , entonces los datos no son lineales según este protocolo. Es
importante notar que éste es un mero test de significación estadística, e indica solo que se ha detectado
falta de linealidad, no que sea suficientemente relevante como para afectar a los resultados de los
pacientes.

página 28
6.14. Grado de no–linealidad
Se selecciona el polinomio de segundo o tercer orden (no–lineal) con el mayor ajuste examinando el error
estándar de la regresión ( es ) . Este estadístico es una medida de la diferencia entre los resultados
y,x

medidos y el modelo, de modo que el modelo con menor valor de es y , x proporciona el mejor ajuste de los
datos.
Se calcula la desviación de la linealidad ( DL ) a cada concentración como sigue:

DL i = p ( x i ) − ( b 0 + bi x i )
donde: x varía desde x1 a x s ; y

p ( x i ) es el valor del polinomio de mejor ajuste en el punto x i .


Por tanto, DL i es la diferencia entre el modelo de segundo orden (cuadrático) y el de primer orden (lineal) a
cada nivel de concentración, o la diferencia entre el modelo de tercer orden (cúbico) y el lineal. Es una
medida de la diferencia entre el modelo no–lineal y el lineal, a cada una de las concentraciones medidas. La
diferencia se expresa en unidades analíticas de modo que se puedan comparar con objetivos predefinidos.
Si los objetivos se expresan como porcentajes, los valores DL i pueden transformarse análogamente en
porcentajes dividiendo DL i por la concentración a cada valor (las concentraciones son x i para muestras
de valores conocidos o el promedio de los valores medidos si x i son concentraciones relativas) y
multiplicando por 100 %. Los DL i se calculan sólo a los niveles de las muestras, no a cualquier valor de los
polinomios entre dichos puntos (incluso la presunción de no–linealidad podría ser mayor a niveles entre los
niveles medidos).
Se examina DL i a cada nivel y se compara con el criterio establecido para el error a cada nivel. Si cada
DL i es inferior que el criterio, entonces, incluso si se ha detectado no–linealidad estadísticamente
significativa no es importante dado que la cantidad de error no–lineal está dentro de la tolerancia elegida. Si
algún DL i supera el criterio, existe un posible problema de no–linealidad a ese nivel. Hay dos
aproximaciones al problema:
(a) tratar de encontrar la razón de la no–linealidad (preparación de la muestra, interferencia, calibración
instrumental, etc.) y eliminarla;
(b) examinar la gráfica de respuesta frente a concentración y determinar si la no–linealidad está en los
extremos del intervalo de concentraciones o en el medio del mismo.
Si la concentración no–lineal está a cada extremo, una opción es eliminar el punto para el cual DL i sea
demasiado grande y repetir el análisis estadístico. Obviamente esta opción reducirá el intervalo de
linealidad.

6.15. Consideraciones acerca del error aleatorio


Hasta ahora no hemos considerado la contribución del error aleatorio al establecimiento de la linealidad. El
error aleatorio resulta de la variabilidad aleatoria, (variabilidad en el sistema analítico) y puede conducir a
dificultad para detectar una posible no–linealidad. La mejor estimación de la repetibilidad es la diferencia
conjunta entre las L parejas de replicados. La diferencia conjunta entre los replicados es una medida del
promedio global de la variabilidad que es independiente del nivel de analito presente. Esta es la
“repetibilidad” del método, y se denota por s x (o CV x , o error proporcional). Si la estimación de s x son
razonablemente iguales a todos los niveles, entonces la repetibilidad es también constante. Si la diferencia
es mucho mayor a concentraciones altas entonces la repetibilidad puede ser aproximadamente proporcional
a la concentración de referencia ( CV x constante). Si la repetibilidad es proporcional a la concentración,
debe calcularse los errores como diferencias porcentuales antes que como diferencias absolutas. La
repetibilidad puede calcularse mediante análisis de varianza, como la raíz cuadrada de las medias
cuadráticas del error. También puede hacerse una estimación sencilla como sigue:

página 29
• Calcular la diferencia entre dos replicados a cada nivel;
• Elevar al cuadrado las diferencias entre replicados;
• Sumar las diferencias al cuadrado;
• Dividir por el número de niveles ( L ) x 2;
• Tomar la raíz cuadrada.
Para dos replicados y L niveles la fórmula sería la siguiente:
L

∑(r − ri 2 )
2
i1
i =1
sr =
2L
ri1 y ri 2 pueden ser tanto resultados reales del procedimiento como expresarse como porcentajes de la
media (aunque se deben usar las mismas unidades para todos los niveles). Si se emplean las diferencias
porcentuales entonces el resultado obtenido sería un CV x en lugar de s x .
Para situaciones con más de dos replicados, la estimación del error aleatorio deberá venir de un análisis de
la varianza.
L R

∑ ∑ (r − r ji )
2
ij
i =1 j =1
sr =
L ( R − 1)
donde: R es el número de replicados a cada nivel ( j =1, 2,… , R ) ;
L es el número de niveles ( i = 1, 2,… , L ) ;

ri es el resultado promedio del nivel i .

Se compara s x con el objetivo para la repetibilidad, tanto si se expresa con sus unidades como en
porcentaje. Si s x es mayor que el objetivo, la imprecisión puede no ser adecuada para efectuar una
determinación fiable de la linealidad. Esto es, la media de los replicados a cada nivel puede ser demasiado
incierta para realizar una determinación veraz de la linealidad. En este caso puede ser necesario estudiar el
motivo de la imprecisión, corregirlo y repetir el experimento de linealidad. Cuando la repetibilidad es muy
diferente a lo largo de las distintas concentraciones, puede ser preferible emplear regresión ponderada para
el modelo lineal. Para ello se utiliza el inverso de la varianza de los replicados a cada nivel.

6.16 Establecimiento del error máximo permisible


El laboratorio debe determinar sus propios objetivos para el error de medida de cada analito.16 Los objetivos
deberían basarse en las necesidades de los clientes del propio laboratorio y en el entendimiento de las
capacidades del método tal como se emplea en dicho laboratorio. Los requisitos para el error de medida se
emplean para determinar los objetivos de las diferentes fuentes de error de medida, como son los diversos
componentes de la precisión, la veracidad y la no–linealidad. Se han propuesto diversos modelos para
determinar los objetivos del error de medida.
Algunas consideraciones para elegir objetivos para la linealidad:
• Los objetivos de la linealidad no deben ser superiores que los del sesgo;
• Los objetivos del sesgo deben ser menores o iguales que los del error de medida.
Cuando las concentraciones de las muestras analizadas son desconocidas, los objetivos para la linealidad
deben estar en unidades relativas (porcentaje).
Ciertos requisitos que implícitamente deben cumplirse para la evaluación estadística del intervalo lineal
según el presente protocolo, son:

16
NCCLS. Estimation of total analytical error for clinical laboratory methods. Approved guideline. NCCLS
document EP21-A.

página 30
• Los niveles de las muestras deben ser conocidos sin error (niveles reales conocidos, o conocidos con
respecto a cada uno de los otros);
• El intervalo lineal se chequeará sólo entre las concentraciones menor y mayor que demuestren
características aceptables;
• El intervalo lineal se evaluará para la salida final del sistema (concentración o actividad) y no para la
señal instrumental, la cual puede ser procesada posteriormente por el sistema;
• Las muestras usadas han de estar libres de interferencias, que invalidarían el experimento;
• El sistema analítico cumplirá el resto de características en el intervalo lineal chequeado;
• Los tests de significación de los coeficientes de regresión también asumen que los replicados se
distribuyen según una normal a cada nivel, y que la varianza de esta distribución es constante a lo largo
de todos los niveles.

7. Calibración

7.1. Conceptos básicos asociados a la calibración


La calibración y todos los conceptos asociados a ésta, han sido determinados a lo largo de los años por los
organismos metrológicos y de normalización internacionales. En un principio fueron fijados básicamente con
miras a su empleo desde dentro de los laboratorios de calibración, ensayo, etc. Sin embargo, hoy día el
personal técnico de una empresa en la que se desea mantener un Sistema de Confirmación Metrológica se
ve enfrentado con toda esta terminología, conceptos y definiciones, que le resultan ajenos y de difícil
comprensión. La definición de calibración desde la norma ISO17 es la operación de comparar la salida de un
equipo de medida frente a la salida de un patrón de exactitud conocida cuando la misma entrada (magnitud
medida) es aplicada a ambos instrumentos. Durante el proceso de calibración el equipo es verificado para
un conjunto de puntos representativos de todo su intervalo de medida. El requisito 4.11 de la norma ISO
900118 especifica claramente que los equipos de medida se deben gestionar y utilizar de manera adecuada:
"El suministrador debe establecer y mantener al día procedimientos documentados para controlar, calibrar y
realizar el mantenimiento de los equipos de inspección, medición y procedimiento (incluyendo el soporte
lógico usado en los procedimientos analíticos) utilizados por el suministrador para demostrar la conformidad
del producto con los requisitos especificados." Más concretamente, el documento ISO 10012-1 y en su
versión UNE EN 30012-119 indica que se debe diseñar e implantar un Sistema de Confirmación Metrológica.
El objetivo último de este sistema de confirmación es garantizar el correcto funcionamiento de los equipos
de medida que afectan a la calidad. Si se atiende a la definición de confirmación metrológica dada en el
mismo documento, este sistema debe incluir toda operación requerida “para asegurar que un equipo de
medida cumple con los requisitos establecidos para su uso planificado”. Entre estas operaciones se
encuentra la calibración, ajuste, reparación, sellado y etiquetado, etc.
Examinar la linealidad de una función de calibración es una tarea habitual tanto en la validación de métodos
analíticos como en las operaciones de la práctica rutinaria. La linealidad es una característica importante y
deseable de un método analítico. Por ejemplo, si la función de calibración es lineal, es más fácil estimar la
ecuación y los errores en la estimación de concentraciones desconocidas a partir de la función de
calibración serán probablemente menores. Además, asumir la linealidad de la calibración es implícito al uso
válido de un método para adiciones estándar. Dada la importancia de la calibración lineal, no es infrecuente
que se tienda a usar el coeficiente de correlación como indicador de linealidad.
El coeficiente de correlación, dado por

17
Cuaderno técnico: calibración de equipos de medida industriales según iso 9000.
18
UNE-EN-ISO 9000: Normas para la gestión de la calidad y el aseguramiento de la calidad. (Partes
individuales publicadas como ISO 9000, ISO 9001, ISO 9002, ISO 9003 e ISO 9004). AENOR, Madrid,
1994.
19
UNE-EN 30012–1: Requisitos de aseguramiento de la calidad de los equipos de medida. Parte 1: Sistema
de confirmación metrológica de los equipos de medida. (ISO 10012–1: 1992). AENOR, Madrid, 1994.

página 31
n

∑(x
i =1
i − x )( y i − y )
r =
n 2 n
∑( x − x) ∑( y − y)
2
i i
i =1 i =1

es una medida de la relación entre dos variables x e y . Tiene diversas propiedades muy útiles (véase el
tema Correlación, Notas). Su uso en calibración, sin embargo, se basa en una incorrecta interpretación
bastante generalizada. Es cierto que, si los puntos de la calibración se ajustan mucho a una recta, el valor
experimental de r será próximo a la unidad (figura 5).

Figura 5. Datos A
Sin embargo, la afirmación inversa no es cierta. Un valor de r próximo a la unidad no necesariamente
procede de una relación lineal sino que puede ser, por ejemplo, resultado de que los puntos se ajusten
claramente a una curva (figura 4).

Figura 6. Datos B
Existe un problema adicional relacionado con esto: los valores de r no pueden compararse
apropiadamente. No es correcto decir que unos datos con r = 0,99 sean ‘más lineales’ que otros con una
r = 0,95 . Lo mismo ocurre con el estadístico R 2 obtenido de una regresión. Subyace una cuestión de
grado. Una calibración con r = 0,9999 se aproximará necesariamente a una recta. El problema es que no
se puede decir cuánto o si será lo suficientemente próxima.

7.2. Chequeo de la falta de ajuste


Estrictamente hablando, no se puede chequear la linealidad como tal. Lo que se puede hacer es comprobar
si la desviación de la linealidad es demasiado pequeña como para detectar que, dados unos resultados,
dicha desviación no es estadísticamente significativa. Una aproximación es examinar los residuales de la
regresión lineal. Se trata de las distancias entre los datos experimentales a la línea de regresión, medida
paralelamente al eje de respuesta. Si no hay falta de ajuste (esto es, si la calibración es inherentemente
lineal) los residuales representados frente a la concentración parecerán una muestra aleatoria de una
distribución normal de media cero. Como ejemplo, a continuación se representan los datos de la figura 5
frente a la concentración (figura 6).

página 32
Sin embargo, si no hay linealidad, se podrá percibir un patrón en la gráfica de los residuales, generalmente
con forma de una tendencia en los puntos, como puede observarse en la figura 8, correspondiente a los
datos de la figura 6. Para saber si este patrón que sugiere no–linealidad es significativo se debe replicar las
medidas en cada punto de la calibración, proporcionando la información inherente a la variabilidad de la
respuesta de las medidas (lo que se conoce como el error puro). En la figura 8 se observa, por ejemplo, una
desviación sistemática de los residuales respecto al cero que es razonablemente grande con respecto a las
diferencias entre las medidas de los duplicados, y por tanto probablemente sea estadísticamente
significativa.

Figura 7. Residuales estandarizados de la regresión lineal usando los datos A. No se observa patrón
alguno respecto a los residuales.

Figura 8. Residuales estandarizados de la regresión lineal usando los datos B. Se observa clara
tendencia de los residuales.

En casos de duda, el test estadístico que se aplica es un análisis de la varianza de los residuales en el
contexto de una ausencia de ajuste o de error puro. Si existe una falta de ajuste significativa, y el patrón de
los residuales apoya esta interpretación, se habrá demostrado la no–linealidad significativa de una manera
inequívoca. Dados los datos de la figura 8, el estadístico muestra que existe falta de ajuste significativo,
p ≈ 0, 01 . Si hay evidencia de diferente varianza en la respuesta, lo que es frecuente en calibraciones en un
intervalo amplio, se puede emplear una regresión ponderada.

7.3. Diseño de un experimento de calibración


Un diseño eficaz es emplear seis o más concentraciones del analito, igualmente espaciados a lo largo del
intervalo de concentraciones de interés, y medirlas por duplicado en orden aleatorio. La razón es la
siguiente: (a) debe haber suficientes puntos de calibración para obtener un patrón discernible. En algunos
casos seis puede ser un mínimo de puntos práctico; (b) aleatorizar el orden de las medidas evita el
problema de confundir la no–linealidad con efectos temporales como deriva instrumental durante la
calibración.

7.4. ¿Linealidad exacta?


Cabe preguntarse en algunos casos si necesitamos una linealidad exacta o es aceptable cierto grado de
desviación de la linealidad, como por ejemplo si la evaluación de la incertidumbre resultante de usar una
función de calibración lineal aporta una contribución insignificante sobre la incertidumbre global de la
medida. Sin embargo, habrá que considerar en todo caso qué parte de la calibración es relevante para
nuestras necesidades.

página 33
En la figura 9 se observa cómo emplear una relación lineal para representar una curva de calibración que en
realidad es curva puede conllevar una falta de ajuste que conducirá a resultados seriamente erróneos. En
este ejemplo, bajas concentraciones de analito pueden estar sujetas a errores sistemáticos relativamente
grandes.

Figura 9

7.5. Ajuste de datos a una función lineal con error en ambas variables
Una condición básica de la regresión es que los valores de la variable respuesta (variable dependiente)
sean aleatorios mientras que los de la variable x (independiente o predictora) deberían estar exentos de
error. Este modelo a menudo se aproxima a las aplicaciones clínicas, por ejemplo en el caso de las
calibraciones. Sin embargo, si no se cumplen las condiciones, los resultados de la regresión son en principio
incorrectos y en la práctica pueden llevar a error. Alternativamente puede ser válido un método general de
estimación funcional de máxima verosimilitud ( FREML ) . FREML estima la ordenada en el origen y la
pendiente, así como sus correspondientes errores estándar, sin introducir sesgos debidos al uso
inadecuado de la regresión. El método es simétrico, por lo que las variables x e y pueden ser
intercambiadas sin afectar al resultado y permite manejar datos heterocedásticos, es decir resultados con
diferentes precisiones.

7.6. Modelos de regresión y de relación funcional


La regresión ponderada normal se basa en un modelo de los pares de datos
(( x , x ) , ( x , x ) ,…, ( x , x )) tales que a y b son parámetros que describen la verdadera línea y e
1 2 1 2 i i i

es el error normal aleatorio de varianza var y i . Las estimaciones( ) ( a , b) de a y b se obtienen


minimizando la función

(y − a − b xi )
2
n


i

i =1 s y2 i
con respecto a a y b . La minimización se lleva a cabo por simple aplicación del cálculo a las conocidas
ecuaciones de la regresión.
En la estimación de la relación funcional el modelo es diferente:
xi = u i + ε i
yi = ν i + η i
ν i = α + β ui
donde εi y ηi son independientes, normalmente distribuidas y con errores de varianzas κi y λi
respectivamente. Se encuentra la relación funcional minimizando

página 34
(x − ui ) (y − a − bui )
2 2
n n

∑ ∑
i i
+
i =1 κi i =1 λi
Esta formulación sigue el principio de máxima verosimilitud, que es una aproximación de estimación
estadística más general que el conocido método de mínimos cuadrados. Sin embargo, a diferencia de la
regresión, la minimización ahora no puede resolverse algebraicamente, sino que requiere métodos
numéricos iterativos.

7.7. Aplicaciones analíticas de FREML


(a) Calibración con materiales de referencia sólidos (donde la incertidumbre del valor de referencia puede
ser considerable);
(b) Comparación de resultados de dos métodos sobre un intervalo de concentraciones apreciable y
caracterización del sesgo, si existe, entre ellos.
Ambas aplicaciones pueden requerir pruebas de significación de a y b y de la ausencia de ajuste.
FREML acomoda estos requisitos proporcionando los errores estándar es a , es b y un estadístico de
ausencia de ajuste.
Se podría contrastar, por ejemplo, la hipótesis H 0 : α = 0 (la línea pasa por el origen de la gráfica)
calculando:
a
za =
es a
Asimismo, se podría chequear H 0 : β =1 (la pendiente de la recta es la unidad) con:

b −1
za =
es b
Los valores de z pueden interpretarse como una distribución normal estándar, de modo que para una
confianza del 95 % debe usarse el valor crítico de 1,96 para | z | .
El estadístico de ausencia de ajuste es la suma de cuadrados de los residuales escalados, que pueden ser
tratados aproximadamente como una variable χ con n − 2 grados de libertad. Un valor significativamente
2

alto de este estadístico sugiere tanto que la estimación de la varianza fue considerada demasiado baja (un
fallo común) como una ausencia de ajuste. En el segundo caso puede deberse a una interferencia no
corregida o a una verdadera falta de linealidad. El examen de la representación gráfica de los residuales
escalados permite dilucidar cual de las situaciones se está dando.

7.8. Cómo estimar las ponderaciones


En el ejemplo anterior las varianzas fueron estimadas a partir de un número moderado de resultados
replicados. En algunos casos, el empleo de FREML estaría indicado si tuviéramos sólo uno o un pequeño
número de resultados por punto. Para ponderar las estimaciones en primer lugar se asume que los datos
son homocedásticos, podríamos usar una varianza común para cada uno de los valores y otra para los x. Si
los datos son heterocedásticos, una gráfica de residuales escalados puede resolver el problema. Entonces
se toman diferentes varianzas para cada valor x e y . Si la heterocedasticidad es muy grande incluso
pocas réplicas de los datos mejorarán los resultantes estadísticos.
En la calibración, además, se puede usar un modelo lineal simple de la desviación típica en función de la
concentración, que podría ser empleado para suavizar las estimaciones puntuales de los datos obtenidos
con pocas medidas.

página 35
Apéndice 1. Consideraciones adicionales relativas al estudio de la imprecisión

A1.1. Modificaciones para realizar una serie analítica por día


Para aquellos instrumentos en que por la larga duración del método, o por otro motivo, no sea posible
realizar más de una serie analítica por día, cabe la posibilidad de estimar la imprecisión Sin embargo en
este caso no será posible valorar por separado la imprecisión interensayo de la inter–día y no se podrá
estimar la imprecisión intra–día.
La fórmula básica para estimar la repetibilidad será:
I

∑(x − xi2 )
2
i1
i =1
sr =
2I
donde: I es el número total de días (generalmente 20);
x i1 es el replicado 1 del día i ; y

xi2 es el replicado 2 del día i .


El procedimiento será el descrito en el apartado 3, salvo por el hecho de que se realizará solo una serie
analítica por día en lugar de 2.
En esta estimación los grados de libertad serán la mitad de los del protocolo que utiliza dos series analíticas
por día. Para aumentar el número de grados de libertad hay dos alternativas:
(a) Incrementar el tamaño del experimento, prolongando el estudio durante más días (se recomienda un
mínimo de 30), procesando dos alícuotas del material empleado para el estudio de la imprecisión en
cada serie analítica;
(b) Incrementar el número de alícuotas procesadas en cada serie manteniendo la duración del estudio en
20 días. En este caso, la desviación típica intraserial se estimará mediante la siguiente fórmula:
I N

∑∑ ( x − xii )
2
i1
i = 1 j =1
sr =
I ( N −1)
donde: I es el número total de días;
N es el número de replicados analizados en cada serie analítica;
xi j es el resultado obtenido en el replicado j de la serie analítica procesada el día i ;

xii es el promedio de todos los replicados del día i .

El número de grados de libertad en esta estimación es igual a I veces el número de replicados efectuados
en cada serie analítica menos 1, esto es, g . de l. = I ( N − 1) . Cada serie analítica debe contener el mismo
número de replicados para que la fórmula anterior sea adecuada. No se incluye el factor 2 en el
denominador porque ahora esta formula emplea la suma de desviaciones cuadráticas respecto a la media
de las series analíticas, a diferencia de las diferencias entre los duplicados empleados en fórmulas previas
(adecuado sólo para dos observaciones).

A1.2. Desviación típica intralaboratorio o instrumental


Cuando sólo se disponga de una serie analítica por día, se estimará la imprecisión intralaboratorio según la
siguiente expresión:
I

∑(x − x ii )
2
ii
i =1
B =
I −1
donde: I es el número de días;

página 36
xii es el promedio de los replicados en el día i ;

x ii es el promedio de todos los resultados en todos los días;

B es la desviación típica de los promedios diarios (generalmente denominado error estándar


de las medias diarias). Cuando sólo se realiza una serie analítica por día, esta estimación combina las
componentes interdiaria e interserial de la imprecisión. Esta será la formula empleada independientemente
del número de días o el número de replicados.
A partir de la anterior estimación, B , y de la desviación típica intraserial, s r , se puede calcular la
imprecisión instrumental o intralaboratorio según la expresión:
N −1 2
sT = B2 + sr
N
donde: N es el número de replicados en cada serie analítica;
B es la desviación típica de las medias diarias;
2
s r es la estimación de la repetibilidad en forma de varianza.
Esta fórmula puede emplearse independientemente del método usado para incrementar el número de
observaciones del estudio de repetibilidad (días adicionales o replicados adicionales en cada serie
analítica).

A1.3. Ecuación de Satterthwaite


Se emplea para calcular el número adecuado de grados de libertad, T , para valorar s T aplicando

apropiadamente el test de χ2 cuando se quiera verificar la imprecisión aportada por el fabricante. Se


calcula T según la fórmula:

( ( N − 1) ME + MD )
2
I
T =
I MD 2
( N − 1) ME 2 +
I −1
donde: ME = s r
2
es la media cuadrática intraserial;

MD = N B 2 es la media cuadrática para ambas series analíticas y días.


Se utiliza el valor entero más próximo al resultado obtenido para T como grados de libertad para evaluar
sT .

A1.4. Otras estimaciones posibles


En ocasiones hablar de imprecisión día–a–día o intra–día ha creado confusión. A menudo “día–a–día” se
emplea erróneamente como la imprecisión media a lo largo de una periodo largo de tiempo. Otra fuente de
confusión adicional proviene de que los parámetros componentes de la imprecisión son independientes del
tipo de experimento, mientras que los cálculos de estas estimaciones difieren considerablemente en función
del número de observaciones incluidas en cada serie analítica, de las series analíticas procesadas por día, y
del número de días del experimento.

A1.5. Imprecisión inter–días


Estadísticamente, la imprecisión día–a–día (más apropiadamente denominada inter–días) es la desviación
típica (ajustada) de las medias diarias, tras eliminar los efectos de la repetibilidad y la variabilidad interserial,
la variabilidad intra–día, en los promedios diarios. Debemos pensar en términos de una estimación de la
variabilidad de los promedios diarios que se esperarían si se pudiera realizar un número infinito de
observaciones cada día. Si se realiza una única serie analítica cada día, se puede demostrar que la
varianza de los promedios diarios sigue la siguiente expresión:

página 37
I

∑(x ii − x ii )
var ( x ) =
i =1
= s D2
I −1
con un valor esperado:
σ r2
E(s 2
D ) = σ 2
dd + ,
N
donde: x i i es el promedio de los resultados del día i ;

x ii es el promedio de todos los resultados en todos los días;

I es el número total de días;


σ d2 d es la varianza inter–días real (ajustada);

σ r2 es la varianza intraserial real (repetibilidad);


N es el número de replicados de cada serie analítica.
Según aumenta el número de replicados de cada serie analítica, la estimación será más próxima al
parámetro verdadero (ej, la repetibilidad tendrá menos influencia en la estimación). La cantidad denominada
B en este protocolo no puede tomarse como una estimación de la imprecisión inter–días. Para que esta
cantidad sea útil requiere un ajuste. El proceso de ajuste depende del número de series analíticas por día y
del número de observaciones por serie analítica, pero no del número de días en que haya sido efectuado el
protocolo.

Dos series analíticas por día


Para dos series analíticas por día, como se describió en el protocolo principal, las cantidades A y B del
apartado 3 se usan para derivar la estimación de la desviación típica inter–días verdadera ajustada σ d d :

A2
sdd = B −
2

2
y de la desviación típica interensayo intra–día:

s r2
srr = A −
2

2
Una única serie analítica por día
Para una única serie analítica por día y dos o más observaciones por serie, el procedimiento es algo
diferente. Las componentes inter–día e interensayo no pueden separarse. La cantidad denominada B mide
en este caso la suma de ambas componentes. Habrá que eliminar el efecto de la variabilidad intraserial de
la estimación calculando:

s r2
sdd = B2 −
N
donde: N es el número de replicados por serie analítica.
La interpretación de la cantidad s d d es la suma de los efectos inter–día e interserial intra–día.
En algunos casos, la cantidad obtenido en el radicando anterior puede ser negativa, si la componente inter–
días es pequeña. Si ocurre esto, la estimación de s d d debe establecerse en 0. Esta precaución debe
aplicarse a las estimaciones calculadas anteriormente para dos series analíticas por día.

página 38

También podría gustarte