Está en la página 1de 8

Universidad de Concepcin Departamento de Ciencias Geodsicas y Geomtica

Exactitud Tematica
La exactitud temtica ha sido definida por la norma ISO 19113 como la Exactitud de los atributos cuantitativos o no cuantitativos y de la correccin de las clasificaciones de los elementos y de sus relaciones. A su vez la norma tambin disgrega esta componente del dato en subelementos de la calidad como: Correccin de la clasificacin Correccin de los atributos cualitativos Exactitud de los atributos cuantitativos Por tanto, se observan dos niveles distintos de correccin, el de las clases y el de los atributos, con distincin de si stos ltimos son cualitativos o cuantitativos. Desde un punto de vista de la calidad, la componente temtica se refiere a la exactitud de los atributos de una BDG. Al igual que con la componente posicional, ningn mapa es perfecto, dependiendo su aceptacin de su adecuacin al uso. La componente temtica no es propia exclusivamente de los tradicionalmente denominados mapas temticos, pues cualquier elemento que aparece representado en un mapa topogrfico pertenece a un tema, con el cual se relaciona gracias a la leyenda. De esta forma, por ejemplo, los elementos puntuales que aparecen en un mapa topogrfico (construcciones, fuentes, ermitas, vrtices geodsicos, etc.) tambin pueden someterse a un estudio sobre si su asignacin es correcta o no.

La norma ISO 19113 considera la componente temtica como un elemento (cuantitativo) de la calidad, distinguiendo los siguientes subelementos: correccin de la clasificacin, correccin de los atributos cualitativos y exactitud de los atributos cuantitativos. Por tanto, se observan dos niveles distintos: el de las clases y el de los atributos, con distincin de si stos ltimos son cualitativos o cuantitativos. La correccin de la clasificacin y de los atributos se mide de manera similar. Los Prof. Ing. Gustavo Godoy U.

Universidad de Concepcin Departamento de Ciencias Geodsicas y Geomtica atributos de carcter cuantitativo se tratan como variables unidimensionales, por lo que lo presentado para la componente posicional es de plena aplicacin para los mismos cuando se consideran de forma unidimensional. Para la evaluacin de esta componente ISO 19138 propone las medidas que se recogen en la siguiente Tabla.

Medidas de la calidad temtica contenidas en ISO 19138.


Nombre Nmero de elementos clasificados incorrectamente Tasa de malclasificacin Matriz de confusin Matriz de confusin relativa Coeficiente Kappa Nmero de valores de atributos incorrectos Tasa de valores de atributos correctos Tasa de valores de atributos correctos Incertidumbre valor atributo al 68.3% de significacin Incertidumbre valor atributo al 50% de significacin Incertidumbre valor atributo al 90% de significacin Incertidumbre valor atributo al 99% de significacin Incertidumbre valor atributo al 99.8% de significacin Elemento Exactitud temtica Subelemento Correccin de clasificacin la Medida bsica Contador de errores

Exactitud temtica Exactitud temtica Exactitud temtica Exactitud temtica Exactitud temtica

Exactitud temtica

Exactitud temtica

Exactitud temtica

Correccin de la clasificacin Correccin de la clasificacin Correccin de la clasificacin Correccin de la clasificacin Correccin de los atributos no cuantitativos Correccin de los atributos no cuantitativos Correccin de los atributos no cuantitativos Exactitud atributos cuantitativos Exactitud atributos cuantitativos Exactitud atributos cuantitativos Exactitud atributos cuantitativos Exactitud atributos cuantitativos

Tasa de error ---Contador de errores

Tasa de correctos Tasa de error

tems

LE68.3 o LE68.3(r)

Exactitud temtica

LE50 o LE50(r)

Exactitud temtica

LE90 o LE90(r)

Exactitud temtica

LE99 o LE99(r)

Exactitud temtica

LE99.8 o LE99.8(r)

La correccin de la clasificacin puede caracterizarse con diversas medidas, pero la herramienta ms aplicada y potente son la matriz de confusin y los ndices derivados de la misma, y por ello se le dedica un apartado posterior. En la Tabla anterior tambin se puede apreciar como para la exactitud de los elementos cuantitativos se proponen medidas bsicas que coinciden con las que se pueden aplicar a la componente posicional.
Prof. Ing. Gustavo Godoy U.

Universidad de Concepcin Departamento de Ciencias Geodsicas y Geomtica La Matriz de confusin Tambin se denomina tabla de contingencia o matriz de error. Su ordenamiento suele ser tal que la verdad del terreno aparece en columnas, mientras que las unidades cartografiadas (mapa) aparecen en las filas. La tabla as formada presenta una visin general de las asignaciones correctas (elementos de la diagonal) y de las migraciones o fugas (elementos fuera de la diagonal) (ver ejemplo). No importa el origen de la matriz (BDG vectorial, teledeteccin, etc.), ya que el tratamiento estadstico es el mismo. Los errores, fuera de la diagonal, suelen denominarse errores de comisin y de omisin, ya que cualquier confusin entre dos categoras conlleva una omisin y comisin de forma simultnea. Las comisiones son los elementos que no perteneciendo a una clase aparecen en ella, mientras que las omisiones son los que perteneciendo a esa clase no aparecen por estar mal clasificados en otra. Cuando los errores de comisin y omisin se presentan en trminos porcentuales se denominan riesgos del usuario y del productor, respectivamente. Esta ltima terminologa permite adems no confundir los errores de omisin y comisin que proceden de confusiones de aquellos que proceden de verdaderas ausencias y presencias de objetos. La formacin de la matriz a partir de una muestra requiere de ciertas condiciones: Las clases que se establezcan deben ser independientes, mutuamente excluyentes, exhaustivas y en nmero suficiente. Deben usarse mtodos de muestreo que no introduzcan autocorrelacin. Conviene usar estratificacin para asegurar la presencia de clases extraas o minoritarias. La Tabla 7.20 recoge la nomenclatura que se seguir en esta exposicin, y la Tabla 7.19 aplica esta nomenclatura a la estructura de la matriz de confusin

Parmetros de exactitud derivados de la matriz de confusin Los parmetros de exactitud derivados de la matriz de confusin pretenden eliminar la incomodidad del uso de la misma resumiendo su contenido sin reducir demasiado la informacin presente en ella. Sin embargo, pueden existir casos en los que una clase concreta merezca, por parte de un usuario, una especial atencin y mayores niveles de conocimiento sobre su calidad, lo cual requiere de ndices parciales o de clase. Es por ello, que para cuantificar la bondad de la clasificacin, de forma general, o atendiendo a clases concretas, se utilizan diversos parmetros que veremos a continuacin. Prof. Ing. Gustavo Godoy U.

Universidad de Concepcin Departamento de Ciencias Geodsicas y Geomtica Estos ndices parciales pueden clasificarse de diversas formas atendiendo a mltiples criterios como, por ejemplo, la facilidad de clculo, la forma de clculo, el conocimiento apriorstico de probabilidades, etc. La clasificacin que aqu se recoge se basa, fundamentalmente, en las relaciones de clculo de dichos ndices con respecto a la matriz de error, lo que permite deducir de forma indirecta su sentido (global, clase) y complejidad de clculo. La Tabla de ndices derivados de la matriz de confusin contiene los parmetros o ndices globales y por clase ms comunes. ndices derivados de la matriz de confusin.
ndices Globales Pa Porcentaje de Acuerdo Es considerado como la probabilidad global de estar bien clasificado, por lo que se puede considerar distribuido segn una binomial. Sus valores se encuentran en el intervalo [0, 1], siendo el valor 1 el caso de total acuerdo. No tiene en cuenta la concordancia que, de forma aleatoria, pueda existir. As, una asignacin totalmente aleatoria tendra como resultado un valor de Pa > 0. Ca Coeficiente de Acuerdo Aleatorio a Posteriori.
ps

Se basa en la probabilidad a posteriori de cada clase. Representa el porcentaje de acuerdo que cabe esperar al azar por cruce de clases. Ca Coeficiente de Acuerdo Aleatorio a Priori.
pr

Es similar al anterior, pero en este caso las probabilidades consideradas son a priori a la clasificacin. Cuando todas son iguales, se cumple que Ca = 1 / M.
pr

K Coeficiente Kappa de ajuste. Su valor da idea del porcentaje de acuerdo obtenido en una clasificacin una vez se ha eliminado la parte que se debera al azar. Se basa en la probabilidad a posteriori de pertenencia a un grupo. Sus valores se encuentran en el intervalo [0, 1], siendo el valor 1 el caso de total acuerdo. T Coeficiente Tau de ajuste. Su valor da idea de cunto ha mejorado el sistema de clasificacin respecto a una clasificacin aleatoria de los N elementos en M grupos. Se basa en la probabilidad a priori de pertenencia a un grupo. ndices por clase EU Exactitud del Usuario Tambin llamado pureza de la unidad cartogrfica, es el porcentaje de elementos de una clase que estn bien clasificados en la cartografa. RP Riesgo del Productor. Es el complementario a la unidad del ndice anterior. EP Exactitud del Productor para una clase. Es el porcentaje de elementos del muestreo de verificacin que se han clasificado correctamente dentro de la unidad cartogrfica equivalente. RU Riesgo del Usuario. Es el complementario a la unidad de este ndice anterior

Prof. Ing. Gustavo Godoy U.

Universidad de Concepcin Departamento de Ciencias Geodsicas y Geomtica

EJEMPLO de anlisis de una matriz de confusin El siguiente ejemplo se centra en la evaluacin de la clasificacin de una imagen de teledeteccin. Se ha obtenido la matriz de confusin presentada en la Tabla Matriz de Confusin, con las clases especificadas en la Tabla de clases de la imagen, procedente de la clasificacin realizada por un programa de anlisis de imagen, sobre una escena del Delta del Ebro (6.000 6.000 pxeles) en la que se tomaron 347.005 pxeles distribuidos en 120 campos de verificacin. No obstante, la unidad de muestreo de la matriz es el pxel, lo que permitir conocer las superficies relativas de verificacin entre las clases. Se pretende obtener sus ndices globales, as como sus ndices por clase. De los resultados se extraen conclusiones acerca de la calidad temtica de la clasificacin realizada.
Clases de la Imagen
Clase 1 2 3 4 5 6 7 8 9 Descripcin agua cultivos suelo improductivo arroz frutales matorral olivos y algarrobos salinas juncal

Matriz de confusin de la clasificacin de una imagen


V1 V2 V3 V4 V5 V6 V7 V8 C1 238051 1 939 0 0 5 0 29 C2 7 4086 5082 0 48 151 105 36 C3 132 188 51817 5 4 119 601 280 C4 0 0 0 11148 834 135 110 0 C5 0 4 34 1618 2853 726 174 0 C6 24 16 500 78 340 6774 155 6 C7 9 45 1867 0 32 75 8257 5 C8 2 1 325 0 0 1 8 2993 C9 189 0 17 0 197 553 0 0 Total 238414 4341 60581 12849 4308 8539 9410 3349 Nota: V se refiere a la verdad terreno y C a las unidades cartografiadas V9 115 2 0 4 124 595 0 0 4374 5214 Total 239140 9517 53146 12231 5533 8488 10290 3330 5330 347005

Primeramente es especificado el nmero de clases y de casos presentes en la matriz: Nmero de Clases en la Matriz (M): Nmero de Casos (n): 9 347005 (0,96%)

A continuacin se calculan los ndices globales de la matriz: Porcentaje de acuerdo (Pa): 0,952 Prof. Ing. Gustavo Godoy U.

Universidad de Concepcin Departamento de Ciencias Geodsicas y Geomtica Varianza del Pa ( ):


Pa 2

0,000 0,1111 0,5038 0,94601 0 0,90329 0,000001

Coeficiente Acuerdo Aleatorio a Priori (Capr): Coeficiente Acuerdo Aleatorio a Posteriori (Caps): Coeficiente de Acuerdo Tau (T): Varianza de T ( T ): Coeficiente de Acuerdo Kappa (K): Varianza de K ( K):
2 2

Seguidamente se obtienen los ndices por cada clase:


Clase 1 2 3 4 5 6 7 8 9 Exactitud Productor 0,998 0,941 0,855 0,868 0,662 0,793 0,877 0,894 0,839 Riesgo Usuario 0,002 0,059 0,145 0,132 0,338 0,207 0,123 0,106 0,161 Exactitud Usuario 0,995 0,429 0,975 0,911 0,516 0,798 0,802 0,899 0,821 Riesgo Productor 0,005 0,571 0,025 0,089 0,484 0,202 0,198 0,101 0,179

El primer comentario se puede realizar en cuanto al tamao de la muestra de verificacin. En principio, dado que la superficie verificada constituye el 0,96% de la imagen, puede decirse que el muestreo de verificacin tiene un tamao adecuado, ya que est muy prximo al 1%, valor sugerido por algunos autores como Congalton (1988). No obstante, si atendemos al nmero de pxeles empleados, 347.005, se puede decir que la muestra es excesivamente grande, muy por encima de los 50 pxeles por clase (Congalton, 1991), que dara lugar a una muestra de 450 pxeles, o del valor sugerido por una distribucin multinomial o binomial. Por ejemplo, para ste ltimo caso, para un 95% de confianza, con un error admitido del 5% y suponiendo que a priori la probabilidad de acertar es igual a la de errar, se obtendra un tamao de 384 pxeles. Por tanto, se puede decir que, a priori, el esfuerzo realizado para efectuar la verificacin es excesivo. As, la recomendacin de verificar el 1% de la imagen queda en entredicho, ya que este porcentaje no debera ser fijo, sino dependiente del tamao de la poblacin, o nmero total de pxeles de la imagen. Por otro lado, dado que no se tiene informacin acerca del tipo de muestreo ni del nmero de muestras de cada clase, no se puede saber si todas ellas estn suficientemente representadas. Lo que s se deduce es que, por trmino medio, los campos de verificacin tienen un gran nmero de pxeles (el promedio es de casi 2900 cada uno). Hay que indicar que es adecuado considerar como unidad de muestreo una entidad mayor al pxel, ya que puede ser muy difcil hallarlo en el terreno, incluso empleando un receptor GPS, o en una cartografa, ortofotografas, etc. Prof. Ing. Gustavo Godoy U.

Universidad de Concepcin Departamento de Ciencias Geodsicas y Geomtica Las conclusiones que se obtienen de los resultados de los parmetros globales son, en principio, claras. El valor de Pa indica que, en primera instancia, la clasificacin ha sido excelente, dado que la mayora de celdillas de la imagen han sido correctamente asignadas. Los valores de T y K tambin son muy elevados, evidenciando la bondad de la clasificacin. La gran diferencia entre el Capr y el Caps indica que existen clases que acumulan un nmero mucho mayor de celdillas que otras, por lo que la probabilidad que cabra esperar a priori se incrementa a posteriori. Concretamente se pasa del 11% al 50% de probabilidad, siendo ste un valor bastante elevado. Sin embargo, ste es un caso en el que los valores globales Pa, T y K sobrestiman en gran medida la bondad de la clasificacin. Baste para ello observar los resultados ofrecidos por los ndices por clase. El buen resultado del Pa viene dado por la ptima clasificacin de la clase 1 (agua), que es la que contiene un mayor nmero de celdillas de la imagen. Pero si se examinan otras clases, se comprueba que hay algunas muy mal clasificadas. Por ejemplo, observando los valores de riesgo del usuario destacan, por ser muy elevados, los de las clases 5 (frutales) y 6 (matorral). Esto indica que hay muchas celdas que, perteneciendo a estas clases, han sido asignadas a otras clases tras la clasificacin (ver matriz de confusin). Si se atiende a los valores de riesgo del productor existen resultados no satisfactorios, sobre todo los de las clases 2 (cultivos) y 5 (frutales). En la clase 2 un 57% de las celdas asignadas en realidad pertenecen a otras clases, comprobando en la matriz de confusin que no se ha podido discernir bien de la clase 3 (suelo improductivo), quiz por el pequeo tamao de las plantas de los cultivos que apenas hace cambiar la respuesta espectral del suelo desnudo. En la clase 5, la mitad de las celdas asignadas pertenecen en realidad a las clases 4 (arroz) y 6 (matorral), posiblemente debido al hecho de que tanto los frutales como el arroz son de regado y a que el tamao de las copas de los frutales provoca un porcentaje de recubrimiento del suelo similar al de los matorrales. Se puede decir que esta clasificacin no es en absoluto adecuada, dado que el objetivo pretendido es distinguir los diferentes usos del suelo. nicamente se han conseguido resultados ptimos en la clasificacin de la clase 1, debido a la muy diferente signatura espectral del agua.

Prof. Ing. Gustavo Godoy U.