Está en la página 1de 5

Investigacin: Medidas de concordancia: el ndice de Kappa

1/5

Medidas de concordancia: el ndice de Kappa


Autores: Lpez de Ullibarri Galparsoro I, Pita Fernndez, S. Unidad de Epidemiologa Clnica y Bioestadstica. Complexo Hospitalario-Universitario Juan Canalejo. A Corua (Espaa) Cad Aten Primaria 1999; 6: 169-171. Actualizacin 24/09/2001. _________________________________ En cualquier estudio de investigacin una cuestin clave es la fiabilidad de los procedimientos de medida empleados. Como seala Fleiss (1) en el contexto de los estudios clnicos, ni el ms elegante de los diseos sera capaz de paliar el dao causado por un sistema de medida poco fiable. Tradicionalmente se ha reconocido una fuente importante de error de medida en la variabilidad entre observadores (1,2). Consecuentemente, un objetivo de los estudios de fiabilidad debe consistir en estimar el grado de dicha variabilidad. En este sentido, dos aspectos distintos entran a formar parte tpicamente del estudio de fiabilidad: de una parte, el sesgo entre observadores dicho con menos rigor, la tendencia de un observador a dar consistentemente valores mayores que otro y de otra, la concordancia entre observadores es decir, hasta qu punto los observadores coinciden en su medicin. Cindonos a este segundo aspecto, la manera concreta de abordar el problema depende estrechamente de la naturaleza de los datos: si stos son de tipo continuo es habitual la utilizacin de estimadores del coeficiente de correlacin intraclase, mientras que cuando se trata de datos de tipo categrico el estadstico ms empleado es el ndice kappa, al que dedicamos el resto de este artculo.

El ndice kappa
Supongamos que dos observadores distintos clasifican independientemente una muestra de n tems en un mismo conjunto de C categoras nominales. El resultado de esta clasificacin se puede resumir en una tabla como la tabla 1, en la que cada valor xij representa el nmero de tems que han sido clasificados por el observador 1 en la categora i y por el observador 2 en la categora j.
Tabla 1. Formato de los datos en un estudio de concordancia Observador 2 Observador 1 1 2 C Total 1 X11 X21 XC1 X.1 XC2 X.2 2 X12 X22 C X1C X2C XCC X.C Total X1 X2 XC n

Por ejemplo, podemos pensar en dos radilogos enfrentados a la tarea de categorizar una muestra de radiografas mediante la escala: "anormal, "dudosa", "normal". La tabla 2 muestra un conjunto de datos hipotticos para este ejemplo, dispuesto de acuerdo con el esquema de la tabla 1.

www.fisterra.com

Atencin Primaria en la Red

Investigacin: Medidas de concordancia: el ndice de Kappa Tabla 2. Datos hipotticos de clasificacin de una muestra de 100 radiografas por dos radilogos. Radilogo 2 Radilogo 1 Anormal Dudosa Normal Total Anormal 18 1 2 21 Dudosa 4 10 4 18 Normal 3 5 53 61 Total 25 16 59 100

2/5

Desde un punto de vista tpicamente estadstico es ms adecuado liberarnos de la muestra concreta (los n tems que son clasificados por los dos observadores) y pensar en trminos de la poblacin de la que se supone que ha sido extrada dicha muestra. La consecuencia prctica de este cambio de marco es que debemos modificar el esquema de la tabla 1 para sustituir los valores xij de cada celda por las probabilidades conjuntas, que denotaremos por ij (tabla 3).
Tabla 3. Modificacin del esquema de la Tabla 1 cuando se consideran las probabilidades de cada resultado Observador 2 Observador1 1 2 C Marginal 1
11 12

2
12 22

C
1 2C

Marginal c 1
1 2


C1

C2

CC

.1

.2

.C

Con el tipo de esquematizacin que hemos propuesto en las tablas 1 3 es evidente que las respuestas que indican concordancia son las que se sitan sobre la diagonal principal. En efecto, si un dato se sita sobre dicha diagonal, ello significa que ambos observadores han clasificado el tem en la misma categora del sistema de clasificacin. De esta observacin surge naturalmente la ms simple de las medidas de concordancia que consideraremos: la suma de las probabilidades a lo largo de la diagonal principal. En smbolos, si denotamos dicha medida por 0, ser donde los ndices del sumatorio van desde i = 1 hasta i = C. Como es obvio, se cumple que correspondiendo el valor 0 a la mnima concordancia posible y el 1 a la mxima. Aunque este sencillo ndice ha sido propuesto en alguna ocasin (3) como medida de concordancia de eleccin, su interpretacin no est exenta de problemas. La tabla 4 ilustra el tipo de dificultades que pueden surgir. En el caso A, 0 = 0.2, luego la concordancia es mucho menor que en el caso B, donde 0 = 0.8. Sin embargo, condicionando por las distribuciones marginales se observa que en el caso A la concordancia es la mxima posible, mientras que en el B es la mnima.
Tabla 4. Ejemplos de concordancia. A Observador 2 Observador 1 1 2 Marginal 1 0 2 0.1 Marginal 0.9 0.1 1 Observador 1 1 2 Marginal 1 0.1 0.1 0.8 0.1 0.9 B Observador 2 2 0 Marginal 0.9 0.1 1 0.8 0.1 0.9 0.1

www.fisterra.com

Atencin Primaria en la Red

Investigacin: Medidas de concordancia: el ndice de Kappa

3/5

Por lo tanto, parece claro que la bsqueda se debe orientar hacia nuevas medidas de concordancia que tengan en cuenta las distribuciones marginales, con el fin de distinguir entre dos aspectos distintos de la concordancia, a los que podramos aludir informalmente como concordancia absoluta o relativa (4). El ndice kappa representa una aportacin en esta direccin, bsicamente mediante la incorporacin en su frmula de una correccin que excluye la concordancia debida exclusivamente al azar correccin que, como veremos, est relacionada con las distribuciones marginales. Con la notacin ya empleada en la tabla 3, el ndice kappa, , se define como

[1]
donde los ndices del sumatorio van desde i = 1 hasta i = C. Es instructivo analizar la expresin anterior. Observemos en primer lugar que si suponemos la independencia de las variables aleatorias que representan la clasificacin de un mismo tem por los dos observadores, entonces la probabilidad de que un tem sea clasificado por los dos en la misma categora i es i. .i . Por lo tanto, si extendemos el sumatorio a todas las categoras, i. .i es precisamente la probabilidad de que los dos observadores concuerden por razones exclusivamente atribuibles al azar. En consecuencia, el valor de simplemente es la razn entre el exceso de concordancia observado ms all del atribuible al azar ( ii - i. .i) y el mximo exceso posible (1 - i. .i) (5). La mxima concordancia posible corresponde a = 1. El valor = 0 se obtiene cuando la concordancia observada es precisamente la que se espera a causa exclusivamente del azar. Si la concordancia es mayor que la esperada simplemente a causa del azar, > 0, mientras que si es menor, < 0. El mnimo valor de depende de las distribuciones marginales. En el ejemplo de la tabla 4, vale 0.024 en el caso A y -0.0216 en el B, lo que sugiere una interpretacin de la concordancia opuesta a la que sugiere el ndice 0 (vide supra). Para comprender resultados paradjicos como stos (6), conviene recordar los comentarios que hacamos ms arriba acerca de las limitaciones del ndice 0. A la hora de interpretar el valor de es til disponer de una escala como la siguiente (7), a pesar de su arbitrariedad:
Valoracin del ndice Kappa Valor de k < 0.20 0.21 0.40 0.41 0.60 0.61 0.80 0.81 1.00 Fuerza de la concordancia Pobre Dbil Moderada Buena Muy buena

A partir de una muestra se puede obtener una estimacin, k, del ndice kappa simplemente reemplazando en la expresin [1] las probabilidades por las proporciones muestrales correspondientes:

[2]

Con los datos de la tabla 2 se obtiene aplicando esta frmula un valor de k = 0.66, que segn nuestra convencin anterior calificaramos como una buena concordancia.
www.fisterra.com Atencin Primaria en la Red

Investigacin: Medidas de concordancia: el ndice de Kappa

4/5

Contrastes de hiptesis e intervalos de confianza.


La obtencin de una simple estimacin puntual del valor de no nos proporciona ninguna indicacin de la precisin de dicha estimacin. Desde el punto de vista de la Estadstica Inferencial es esencial conocer la variabilidad de los estimadores y emplear ese conocimiento en la formulacin de contrastes de hiptesis y en la construccin de intervalos de confianza. Fleiss, Cohen y Everitt (8) dan la expresin de la varianza asinttica es decir, para muestras infinitamente grandes del estimador k, cuando el verdadero valor de es cero:

[3]
Reemplazando las probabilidades tericas, que desconocemos, por las proporciones muestrales, obtenemos un estimador de 02(k) que denotaremos por s02(k):

[4]

Podemos emplear este resultado para contrastar la hiptesis nula de que es cero frente a la alternativa de que no lo es, utilizando como estadstico del contraste el cociente

[5]
(|k| denota el valor absoluto de k) y comparando su valor con los cuantiles de la distribucin normal estndar. Con los datos de la tabla 2, k = 0.6600 y s02(k)= 0.0738, luego |k|/ s0(k)= 8.9441 y como z 0.975 = 1.96, concluimos que, al nivel de significacin = 0.05, el valor de k es significativo y nos lleva a rechazar que sea cero. Es discutible la utilidad del contraste de hiptesis anterior, ya que como en general es razonable esperar cierto grado de concordancia ms all del azar, nos encontraremos trivialmente con un resultado significativo. Para poder realizar contrastes de hiptesis ms interesantes es necesario conocer la expresin de la varianza asinttica cuando no se supone que es cero. La expresin es sensiblemente ms compleja que la [3] (4):

[6]
donde:

T1 = ii, T2 = i. .i, T3 = ii( i. + .i), T4 = ij( j. + .i)2.

Se puede demostrar que cuando es cero la expresin [6] se reduce a la [3]. Para contrastar la hiptesis nula de que es igual a un valor dado 0 frente a una alternativa bilateral, procedemos como en el caso = 0, slo que empleando como estadstico del contraste:

www.fisterra.com

Atencin Primaria en la Red

Investigacin: Medidas de concordancia: el ndice de Kappa

5/5

[7]
donde s(k) ahora es la raz cuadrada de s2(k), el estimador de 2(k) obtenido sustituyendo en [6] probabilidades por proporciones muestrales. Es obvio que el caso = 0 que explicbamos con anterioridad no es ms que un caso particular de este contraste, con una mejor estimacin del error estndar. Volviendo al ejemplo de la tabla 2, para contrastar la hiptesis de que el verdadero valor de es 0 = 0.7, como k = 0.6600 y s(k) = 0.0677, calculamos |k - 0|/s(k) = 0.5908 < z 0.975 = 1.96. Por tanto, al nivel de significacin = 0.05, no hay suficiente evidencia para rechazar la hiptesis nula. Desde el punto de vista inferencial, un enfoque ms verstil que el del contraste de hiptesis consiste en dar intervalos de confianza para el verdadero valor de . Tomados simultneamente, k y el intervalo de confianza nos dan, adems de la mejor estimacin de , una medida del error que podemos cometer con esa estimacin. Un intervalo de confianza aproximado del (1- )100%, construido por el mtodo estndar, es de la forma:

donde z 1- /2 es el percentil de orden (1- /2)100 de la distribucin normal estndar. Con los datos de la tabla 2, nuestro intervalo de confianza del 95% para sera [0.5273 , 0.7927]. Se observa como los valores 0 y 0.7 que considerbamos en los contrastes anteriores, quedan respectivamente fuera y dentro del intervalo, un hecho que ilustra la equivalencia entre los dos enfoques: contraste de hiptesis y estimacin por intervalos. Aunque el lector ms interesado en los aspectos prcticos, aqul que se limita exclusivamente a usar un programa estadstico para analizar sus datos, quizs piense que todos estos detalles son algo prolijos, consideramos que son importantes para interpretar y explotar ptimamente los resultados que le brinda el programa. Por ejemplo, un programa ampliamente difundido como el SPSS, muestra solamente el valor de k (expresin [2]), su error estndar calculado a partir del estimador de [6], y el valor del estadstico [5]. Las explicaciones de este epgrafe muestran cmo utilizar estos valores para obtener intervalos de confianza y realizar otros contrastes de hiptesis.

Bibliografa
1. 2. 3. 4. 5. 6. 7. 8. Fleiss JL. The design and analysis of clinical experiments. New York: Wiley; 1986. Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics 1977; 33: 159-174. [Medline] Holley WJ, Guilford JP. A note on the G index of agreement. Educ Psychol Meas 1964; 32: 281288. Bishop YMM, Fienberg SE, Holland PW. Discrete multivariate analysis: theory and practice. Cambridge, Massachussetts: MIT Press; 1977. Fleiss JL. Statistical methods for rates and proportions, 2nd edition. New York: Wiley; 2000. Feinstein AR, Cicchetti DV. High agreement but low kappa: I. The problems of two paradoxes. J Clin Epidemiol 1990; 43: 543-549. [Medline] Altman DG. Practical statistics for medical research. New York: Chapman and Hall; 1991. Fleiss JL, Cohen J, Everitt BS. Large sample standard errors of kappa and weighted kappa. Psychol Bull 1969; 72: 323-327.

www.fisterra.com

Atencin Primaria en la Red

También podría gustarte