SemanticVideo TR 2008 01InformeSobreDiseñoDeOntologiasDeDominio

Informe sobre diseño de
ontologías de dominio
SemanticVideo.TR.2008.01
Juan Carlos San Miguel

Javier Molina
Álvaro García
Jesús Bescós
José M. Martínez
Índice del documento
1 Introducción ........................................................................................................................ 1
2 Motivación............................................................................................................................. 2
3 Representación del conocimiento........................................................................... 3
4 Ontologías para descripción de contenido multimedia.............................. 5
4.1 Introducción .................................................................................................................... 5
4.2 Estándares de descripción Multimedia............................................................ 6
4.2.1 MPEG-7 ........................................................................................................................... 7
4.3 “Integración Ontológica” “Salvando el intervalo semántico” ........... 8
4.3.1 Ontologías Fundamentales ................................................................................. 8
4.3.2 Ontologías de Medio Nivel................................................................................... 9
4.3.3 Ontologías de Dominio .......................................................................................... 9
4.3.4 Ontologías Multimedia........................................................................................... 9
4.3.5 Ontologías basadas en estándares de descripción ............................ 10
4.4 Extracción de Descripciones ................................................................................ 12
4.5 Conclusiones.................................................................................................................. 12
4.6 Referencias..................................................................................................................... 13
5 Ontología para análisis de secuencias de video........................................... 15
5.1 Introducción .................................................................................................................. 15
5.2 Estado del arte ............................................................................................................. 15
5.3 Requisitos ....................................................................................................................... 18
5.4 Ontología básica.......................................................................................................... 19
5.4.1 Conceptos básicos.................................................................................................. 19
5.4.2 Especializaciones de conceptos básicos ................................................... 22
5.4.2.1 Object ............................................................................................................................ 22
5.4.2.2 Descriptor.................................................................................................................... 24
5.4.2.3 Event .............................................................................................................................. 24
5.4.2.4 SceneContext ............................................................................................................ 26
5.4.3 Diccionario de conceptos ................................................................................... 27
5.5 Ontología de dominio para detección de eventos en secuencias de
video-vigilancia ....................................................................................................................... 28
5.5.1.1 Object specializations.......................................................................................... 28
5.5.1.2 Context specializations ....................................................................................... 28
5.5.1.3 Event specializations............................................................................................ 28
5.5.2 Framework for Video Surveillance Analysis Based on Ontology 32
SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías i
5.6 Conclusions and Future Work ............................................................................. 32
5.6.1 References .................................................................................................................. 32
SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías ii

1 Introducción
El proyecto SemanticVideo tiene como uno de sus principales objetivos la extracción de
información semántica de la escena de vídeo captada. Para ello se propone investigar en el
diseño y desarrollo de algoritmos de análisis de secuencias de vídeo para su aplicación en
adaptación de contenido audiovisual. La principal innovación propuesta parte de la hipótesis
de que la realimentación entre etapas de análisis y la inclusión sistemática y formalizada de
información contextual en dichas etapas es una vía para mejorar sustancialmente la calidad
de los resultados obtenidos y para independizar los algoritmos de análisis de su contexto de
aplicación, dos de los principales problemas que presenta el estado del arte en este ámbito.
En este documento se presenta el trabajo realizado en el paquete de trabajo 2 "Diseño de
ontologías de dominio" encargado del modelado de información contextual mediante
ontologías. Comienza describiendo los motivos por los cuales se ha hecho uso de ontologías
para representar el conocimiento (sección 2) y realizando una breve discusión sobre la
representación de conocimiento (sección 3). Posteriormente, se discuten las soluciones
propuestas actualmente para el modelado de contenido multimedia mediante ontologías
(sección 4). Después, se discuten las soluciones propuestas actualmente para el modelado de
información contextual relacionada con detección de eventos en video mediante ontologías
(sección 5) y se propone una ontología genérica para detección de eventos (sección 5.4)
aplicándola al dominio de video-vigilancia de estaciones de metro (sección 5.5).
SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 1

2 Motivación
La creciente automatización de procesos de análisis para extracción de información
semántica en secuencias de video ha provocado una proliferación de sistemas que necesitan
un conocimiento a priori del dominio de aplicación para obtener mejores resultados. El
desarrollo de sistemas basados en conocimiento normalmente se hace en diferentes
contextos, puntos de vista y suposiciones acerca de su materia de estudio.
Cada sistema utiliza su propio vocabulario, pudiendo tener diferentes conceptos con una
misma nomenclatura y diferentes métodos y estructuras. Este hecho provoca problemas de
integración por falta de entendimiento compartido, limitando la interoperabilidad entre los
sistemas y el potencial de la reutilización/compartición de información.
Una posible vía de solución a este tipo de problemas es el modelado, mediante el uso de
herramientas y esquemas estándar, del conocimiento sobre un dominio concreto.
Dentro del proyecto SemanticVideo existen múltiples módulos que realizan la tarea conjunta
de interpretación semántica. Para evitar la problemática anteriormente descrita, se propone
por tanto el diseño y la implementación de un modelo de datos común para todos los
subsistemas del sistema global de la tarea.
Una posibilidad es tener un modelo de conocimiento común, haciendo una analogía con un
modelo de datos. Este modelo de conocimiento nos permitirá manejar los distintos dominios
de aplicación que se planteen a lo largo del proyecto.

3 Representación del conocimiento
El conocimiento se puede definir como un conjunto organizado de datos e información
destinados a resolver un determinado problema. Un conjunto de conocimiento formalmente
representado se basa en una conceptualización. En el contexto del proyecto, esta
conceptualización comprende los objetos y otras entidades que se asume que existen en un
área de interés y las relaciones entre ellas.
Esta conceptualización es una vista abstracta y simplificada del dominio, que queremos
representar con un propósito. Cada base de conocimiento, sistema basado en conocimiento o
agente a nivel de conocimiento está sujeto, explícita o implícitamente, a una
conceptualización.
Posteriormente a esta conceptualización, se debe proceder a la representación de estos
conceptos. En este punto se dispone de múltiples posibilidades; este documento solo evalúa
dos de ellas: modelos de datos (bases de datos relacionales) y ontologías.
Un modelo de datos describe la estructura lógica de los datos y su aplicación. Uno de los
modelos principales fue el modelo de entidad-relación. El modelo describe
esquemáticamente las posibles instancias de los conceptos representados. Estas instancias,
representan los datos que son usados por la aplicación. Se han hecho muchas extensiones al
modelo entidad-relación para tratar de capturar el significado de los datos (la parte
semántica). Una extensión común es usar jerarquías de clases-subclases. A pesar de ello, el
modelo de datos dispone de varias limitaciones en su diseño, entre ellas:
• El modelo de datos toma un solo punto de vista del mundo. Describe los objetos o
instancias de interés, pero bajo una sola posible interpretación.
• Si uno quiere reutilizar algún término, se hace evidente que el término puede tener
diferentes interpretaciones dependientes del contexto.
• La reutilización de conocimiento complejo es imposible sin tomar en cuenta los
diferentes puntos de vista.
En el diseño de bases de datos se han tratado de solucionar estas limitaciones pero toda la
información tiene que estar presente. Esto es, los puntos de vista no añaden información, por
lo que la visión global es limitada. Una posible solución es hacer accesible la semántica de la
información almacenada: ¿qué contiene, qué propiedades y cómo puede usarse?
Alternativamente, las estructuras ontológicas permiten manejar este tipo de información más
flexiblemente. Así pues si algún agente entiende la ontología, éste puede usar la información.
Así como existe una frontera difusa entre conocimiento e información, existe una frontera
difusa entre ontologías y modelos de datos. Finalmente, una ontología se puede ver como un
modelo de datos de conocimiento.
Una ontología es una especificación explícita de una (o una parte de una) conceptualización.
La ontología incluye un vocabulario de términos y una especificación de su sentido.
El termino ontología1 proviene originalmente del mundo de la filosofía. En este contexto, se
utiliza el nombre de Ontología como el nombre de un subcampo de la filosofía, llamada,
estudio de la naturaleza de la existencia, que es una rama de la metafísica relacionada con la
identificación y estudio de tipos de entidades y cómo describirlas. La definición formal
adoptada por la informática es la siguiente: “una ontología es una especificación formal y
explicita de una conceptualización de un dominio de interés particular”.
Así pues las ontologías proporcionan una manera de capturar el conocimiento de un dominio
concreto que puede ser usado por personas y sistemas automáticos. Las ontologías pueden
1 What is an Ontology, http://ksl-web.stanford.edu/kst/what-is-an-ontology.html

facilitar la interoperabilidad entre sistemas proporcionando un conocimiento estándar
compartido del dominio específico.
Es importante destacar que la conceptualización de las ontologías no solo define entidades y
sus relaciones (información) sino que también añade expresividad y capacidades de
razonamiento. La ontología puede proporcionar reglas que definen el comportamiento en un
sistema completo. Más concretamente, una ontología esta compuesta por:
• Conceptos: son las ideas básicas que se intentan formalizar. Los conceptos pueden ser
clases de objetos, métodos, planes, estrategias, procesos de razonamiento, etc.
• Relaciones: representan la interacción y enlace entre los conceptos del dominio.
Suelen formar la taxonomía del dominio. Por ejemplo: subclase-de, parte-de, parte-
exhaustiva-de, conectado-a, etc.
• Funciones: son un tipo concreto de relación donde se identifica un elemento mediante
el cálculo de una función que considera varios elementos de la ontología. Por ejemplo,
pueden parecer funciones como categorizar-clase, asignar-fecha, etc.
• Instancias: se utilizan para representar objetos determinados de un concepto.
• Axiomas: son teoremas que se declaran sobre relaciones que deben cumplir los
elementos de la ontología. Por ejemplo: “Si A y B son de la clase C, entonces A no es
subclase de B”, “Para todo A que cumpla la condición C1, A es B”, etc.
Finalmente, cabe destacar que las ontologías necesariamente han de ser construidas,
refinadas, adaptadas e integradas por expertos del conocimiento del dominio.

4 Ontologías para descripción de contenido multimedia
4.1 Introducción
En este capitulo se estudia la problemática de la anotación de contenidos multimedia de
modo que puedan ser utilizados por las herramientas de la web semántica2 . Esto implica no
sólo que el formato y la sintaxis de los metadatos estén estandarizados, sino que exista una
semántica explícita que interrelacione dichos metadatos y que pueda ser utilizada por las
herramientas propias de la web semántica.
En la actualidad, el volumen de información multimedia en la web es enorme y su
crecimiento cada vez mayor. De hecho, debido a la madurez de las tecnologías de
almacenamiento y transmisión de datos, los formatos digitales son actualmente la opción
más barata, fácil y segura para almacenar y distribuir contenidos multimedia, incluso con alta
calidad. Como consecuencia, las tareas relacionadas con la gestión de todo este material
resultan cada vez más complejas, requiriendo la ayuda de herramientas automáticas, dada la
inviabilidad de su anotación manual.
Al mismo tiempo, las herramientas de la web semántica están madurando, permitiendo cada
vez una mayor potencia y flexibilidad en la utilización de los metadatos asociados a
documentos y contenidos. De este modo, la integración de los estándares de anotación de
contenidos multimedia con las herramientas de la web semántica dotaría a estos metadatos
de una semántica de la que actualmente carecen pudiendo ser utilizados para la organización
y búsqueda inteligente de contenidos dentro de la web.
Tanto tareas tradicionales sobre contenidos multimedia (e.g. encontrar elementos relevantes
en una búsqueda) como otras más innovadoras (e.g. generar un resumen del contenido de
varios elementos diferentes) requieren de un conocimiento semántico del contenido. Esta
semántica no sólo incluye la información visual y de audio, sino también la del documento en
si, incluyendo aspectos tales como su origen o sus derechos de autor.
Antes de construir aplicaciones capaces de interpretar la semántica, ésta debe hacerse
explícita y comprensible para la máquina. Son varios los estándares de descripción
multimedia orientados a la caracterización de vídeo, audio, animaciones, videojuegos. Gran
parte de ellos surgen desde el punto de vista del análisis de señal del contenido, mostrando
importantes limitaciones en las relaciones presentadas por sus instancias que a su vez limitan
las posibilidades de razonamiento e inferencia.
Muchos de los actuales estándares de descripción de archivos multimedia, tales como MPEG-
73 o TV-Anytime4 carecen de una semántica formal con relaciones más allá de la pertenencia
(ver sección 4.2). Así, en los últimos años se están realizando esfuerzos por integrar estos
estándares de expresividad semántica limitada con los lenguajes habitualmente utilizados
por las herramientas de la web semántica (OWL5, RDF6). El uso de estos estándares de
descripción no es aún muy extendido, debido a que presentan diversas limitaciones:
• La dificultad y el coste de la anotación del contenido.
• La complejidad de los estándares.
• La poca proliferación de aplicaciones que hagan uso de los metadatos por ellos
ofrecidos.
2 Semantic Web, http://www.w3.org/2001/sw

3 MPEG-7. Multimedia Content Description Interface. Standard No. ISO/IEC n15938, 2001.
4TV-Anytime Forum, Specification Series S-3, Metadata Corrigenda 1 to S-3 v. 1.1, COR1 SP003v1.1, TV-Anytime
Forum, 2001. http://www.tv-anytime.org/
5 http://www.w3.org/TR/owl-features/
6 http://www.w3.org/TR/2002/WD-rdf-concepts-20021108/

Estas dificultades, especialmente la última, se solventarían en gran medida integrando los
estándares de representación utilizados en la industria multimedia con las tecnologías de la
web semántica. Aunque algunas propuestas incluyen otros estándares de descripción de
contenido multimedia (ver sección4.2), uno de los de uso más generalizado es MPEG-7.
MPEG-7 es, en si, una ontología implícita pero las posibles relaciones no están formalizadas.
Para posibilitar el razonamiento y la inferencia automáticos es necesario explicitar las
relaciones de las instancias del estándar, y establecer una forma de representarlas con
tecnologías de la web semántica. En la sección 4.3 se presentan las propuestas más
extendidas para esta integración.
Para que todo este trabajo resulte de utilidad, no basta con que exista la integración descrita
en esta introducción. Además de extender los descriptores de los contenidos multimedia a la
web semántica, es necesaria una muestra significativa de descripciones. Esto es, es necesaria
la anotación de una cantidad suficientemente representativa de contenidos multimedia. Lo
ideal sería que los metadatos fueran registrados en la cadena de producción, sin embargo,
dado el actual volumen de contenidos no anotados y la dificultad de que algún día,
finalmente, los contenidos se creen con sus metadatos asociados, es de rigor plantear el
problema de la anotación automática o semiautomática del contenido final (ya producido y
editado). En la sección 4.4 se plantea esta problemática y se analizan distintas técnicas de
anotación tanto automáticas, semiautomáticas o manuales. Finalmente, en la sección 4.5 se
plantean las conclusiones y se esboza un ejemplo de ontología multimedia.
4.2 Estándares de descripción Multimedia.

Existen estándares diseñados específicamente para describir contenidos multimedia y el
contexto que los rodea. Dublin Core7 proporciona un vocabulario general en diferentes
sectores, mientras que otros se centran en campos más específicos (e.g., NewsML8 para
noticias o CIDOC CRM9 para documentación de museos).
MPEG-7 (ver sección 4.2.1) no sólo intenta representar el contenido, sino también permite
cierto grado de interpretación. Más allá del alcance de MPEG-7 nace MPEG-2110, que
establece un marco de trabajo para la distribución y consumo de los contenidos, incluyendo
todos aquellos aspectos implicados en la cadena (contenidos, limitaciones de red,
preferencias de usuario, terminales, etc).
TV-Anytime11 se centra en el campo de distribución, simplificando las tareas necesarias para
hacer llegar los recursos audiovisuales al consumidor. Es un estándar que define las
especificaciones para el envío de contenido multimedia a un DVR (Digital Video Recorder).
En su concepción se plantean cuatro objetivos:
• Desarrollar las especificaciones necesarias para explotar el almacenamiento local de
contenidos.
• Posibilitar la transmisión de contenidos independientemente de la red sobre la que
ésta se realice.
http://dublincore.org/
7
http://www.newsml.org/
8
http://cidoc.ics.forth.gr/
9
http://www.mpegif.org/resources.php#section42
10
http://www.tv-anytime.org/
11

• Desarrollar especificaciones para operar en un sistema integrado: desde la
producción/creación de contenidos, pasando por los proveedores de servicios hasta
los consumidores finales.
• Proporcionar sistemas que aseguren la protección del contenido y de sus derechos de
autor a lo largo de toda la cadena.
4.2.1 MPEG-7
Se trata del estándar de descripción multimedia más extendido y prácticamente todas las
propuestas para anotación de contenidos multimedia para la web semántica lo tienen en
cuenta (ver sección 4.3.4). A continuación se ofrece una breve introducción al estándar y a su
estructura.
A diferencia de los estándares MPEG12 anteriores (MPEG-1, 2 y 4), MPEG-7 no tiene como
objetivo la codificación o compresión de los contenidos. Su cometido es la representación de
las descripciones de los contenidos. Los elementos principales de MPEG-7 son:
• Descriptor (D): Constituye una representación de una característica definida sintáctica y
semánticamente. Una instancia puede ser descrita por varios descriptores.
• Description Schemes (DS): Especifican la estructura y semántica de las relaciones entre

sus componentes (éstos pueden ser D o DS).
• Description Definition Language (DDL): Permite la extensión o variación de los DS, así
como la creación de nuevos D. Está basado en XML Schema, con la inclusión de arrays,
matrices y dos tipos de datos nuevos.
• System Tools: Son las herramientas facilitadas por MPEG-7 para afrontar la utilización
del estándar modo binario, la sincronización y el transporte/almacenamiento de las
descripciones obtenidas. Además consta de herramientas para la protección intelectual de
datos.
El estándar MPEG, con ánimo de permitir y fomentar su mejora, muestra cierto grado de
flexibilidad que se traduce en dos tipos de herramientas: las normativas y las no normativas.
En los estándares MPEG-1, MPEG-2 y MPEG-4 la metodología de decodificación es
normativa y, además de ceñirse a una determinada sintaxis, su implementación está
claramente indicada y ya cerrada. En cambio la codificación, pese a haber de respetar la
sintaxis de salida, permite distintas implementaciones en su realización. Siendo pues la
codificación no normativa. MPEG-7, siguiendo la línea apuntada por los anteriores
estándares de MPEG, respeta esta filosofía, entendiendo por normativa el formato en las
descripciones de salida, pero permitiendo implementaciones propias en la extracción de las
mismas.
Una primera clasificación del tipo de descripciones realizable con MPEG-7 diferenciaría entre
características asociadas al documento en si, tales como autor, fecha, formato, y
características asociadas al contenido del mismo, descritas mediante descriptores visuales
y/o de audio o mediante conceptos semánticos más abstractos. Las descripciones del
contenido pueden ser de bajo nivel, obtenidas mediante técnicas de procesado de señal, o de
más alto nivel, con conceptos semánticos anotados manualmente o inferidos a partir de las
descripciones de bajo nivel. La problemática por solventar cuando se infieren conceptos
12 http://www.chiariglione.org/mpeg/

semánticos a partir del análisis de señal es conocida como intervalo semántico (semantic
gap) [Dorai, 2003].
4.3 “Integración Ontológica” “Salvando el intervalo semántico”

Con el fin de la integración de contenido multimedia y web semántica, se suele establecer una
jerarquía de abstracción con la que se materializa la relación entre las características de más
bajo nivel del contenido (ver sección 4.2) y las ontologías de mayor nivel de abstracción (ver
sección 4.3.1) habitualmente utilizadas como base para la resolución de problemas más
concretos. Se definirán pues, ontologías intermedias entre el nivel de señal y el nivel de
abstracción más elevado: ontologías fundamentales (4.3.1), ontologías de medio nivel (4.3.2),
ontologías de dominio (4.3.3) y ontologías multimedia (4.3.4).
Las ontologías fundamentales son planteadas como fundamento genérico para la creación de
nuevas ontologías, constituyen una referencia para la comparación de aproximaciones
ontológicas y sirven para la integración de distintas ontologías en un marco común. Las
ontologías de dominio modelan un dominio específico, una parte del mundo. Se limitan a una
colección de conceptos de incidencia habitual en el dominio bajo consideración. Las
ontologías de medio nivel surgen para facilitar la integración entre ontologías fundamentales
y ontologías de dominio. Por último, las ontologías multimedia suponen la herramienta de
interrelación entre las características de más bajo nivel del contenido y las ontologías de
dominio.
4.3.1 Ontologías Fundamentales

Las ontologías fundamentales contienen conceptos y relaciones derivadas de la Filosofía, las
Matemáticas, la Lingüística y la Psicología. Pese a que en una aplicación cualquiera una
ontología fundamental no es estrictamente necesaria (i.e. la integración de distintas
ontologías se puede lograr sin ninguna fundamental) se considera una práctica recomendable
en el diseño partir de una, ya que en posteriores fases del desarrollo facilita la integración con
otras ontologías.
En términos generales, las ontologías fundamentales aspiran a unificar dominios
conceptualmente relevantes. Una ontología fundamental ha de ser ligera y no reflejar
conceptos particulares de ningún dominio concreto, ya que esto supondría una perdida de
generalidad. Su fin principal es el de definir una base de relaciones y conceptos para que
otras ontologías puedan ser creadas y extendidas a partir de éstas.
Entre las ontologías fundamentales de utilización más extendida podemos encontrar:
La ontología ABC [Lagoze, 2001] fue concebida como modelar la creación, evolución y
transición de objetos a través del tiempo. ABC ofrece una separación limpia entre entidades
así como la incorporación de semántica temporal en el modelo. Esto permite el diseño de
estados temporales y eventos que definen las transiciones entre ellos. Originariamente esta
ontología se propuso para modelar objetos de museos y obras de bibliotecas.
SUMO13 (Suggested Upper Merged Ontology) es una ontología fundamental propuesta por
IEEE14. Surge de la fusión de varias ontologías existentes y constituye una pragmática
aproximación a la modelación de ontologías. Por el momento, SUMO no recomienda
claramente un diseño de ontología 3D (i.e. incorporar las distinción entre objetos y procesos)
o 4D (i.e. considerar objetos y procesos como equivalentes).
La ontología DOLCE (a Descriptive Ontology for Linguistic and Cognitive Engineering) es el
primero de los módulos de la WFOL15 (WonderWeb Foundational Ontologies Library). Esta
http://www.ontologyportal.org/
13
http://www.ieee.org/
14
http://www.loa-cnr.it/DOLCE.html
15

ontología fue diseñada para incluir tan solo las categorías de alto nivel más comúnmente
aplicables y reutilizables. Introduce distinciones entre instancias en función de su
comportamiento temporal (i.e. si es un evento que perdura en el tiempo o no). Las cualidades
se entienden como entidades básicas perceptibles y/o cuantificables: formas, colores,
tamaños, sonidos, olores, pesos, longitudes y cargas eléctricas. Las características que no
tienen cualidades espaciales o temporales, y que no constituyen cualidades en si mismas (e.g.
regiones, conjuntos) reciben el nombre de Abstracts (abstractos). En particular, las regiones
se utilizan para codificar la medida de las cualidades en métricas o espacios conceptuales.
4.3.2 Ontologías de Medio Nivel

Como ya ha sido comentado, las ontologías fundamentales tienen como objetivo, entre otros,
la definición de conceptos fundamentales utilizables en un amplio abanico de aplicaciones.
Con el fin de simplificar la integración con ontologías de dominio, sin perder generalidad en
la ontología fundamental y sin extender la definición de ésta en demasía, algunas
aproximaciones se basan en la introducción de una ontología intermedia entre la filosofía
abstracta de las fundamentales y la filosofía concreta de las de dominio. Un ejemplo de este
concepto se encuentra en la ontología MILO16 (MId-Level Ontology) desarrollada como un
puente entre la abstracción de SUMO y la concreción de las ontologías de dominio.
4.3.3 Ontologías de Dominio

El propósito de una ontología de dominio es el modelar un subespacio del espacio total que
es representado por la ontología fundamental. Este subespacio representa el dominio de
interés para el que se desarrolla la aplicación.
Por ejemplo, considerando el dominio de desastres naturales en noticias de televisión,
tendríamos conceptos tales como: terremoto, incendio forestal o erupción volcánica. Estos
conceptos habrían de heredar su naturaleza más básica de una ontología fundamental y
presentar relaciones derivadas de ésta.
4.3.4 Ontologías Multimedia

El propósito de una ontología es el de establecer los puntos de enlace, hacer las veces de nivel
intermedio, entre la ontología de dominio y el contenido multimedia en si. Así, a partir de los
metadatos asociados al contenido, y de un análisis de señal del mismo, podremos enlazar con
los conceptos que modelan el dominio de interés.
La dificultad de la caracterización de la relación entre la conceptuación del dominio de
interés y del contenido perteneciente a ese dominio radica principalmente en que:
• La conceptuación del dominio de interés no es dependiente del tipo del contenido con el
que se trabaja, no posibilitando esto la extracción de información útil del contenido para
la elección de esos conceptos y de sus relaciones.
• La conceptuación tampoco tiene en cuenta cuales son los indicios visuales extraíbles
mediante el análisis a bajo nivel del contenido, por lo que no se puede conocer a priori
con cuanta fiabilidad esos conceptos serán deducibles a partir del análisis de señal.
Existen varías propuestas con el fin de integrar estándares de descripción multimedia en

ontologías que otorgan un valor añadido a éstos, abriendo las puertas del razonamiento y la
inferencia. Ya ha sido comentada la importancia de MPEG-7 (ver sección 4.2.1) en su
aplicación a la descripción de contenidos multimedia. Así, gran parte de las ontologías
http://www.schemaweb.info/schema/SchemaDetails.aspx?id=241
16

multimedia analizadas en esta sección toman este estándar como referencia. Pese a su
capacidad para la expresión semántica del estándar, sus limitaciones y su falta de sintaxis
unívoca son destacables. Por ejemplo, una anotación semántica como “Fernando Alonso
adelanta a Louis Hamilton en el gran Premio de Brasil” podría presentarse con diferentes
sintaxis: considerando cada palabra de la sentencia palabra clave, anotando sujeto y acción o
desglosando información más detallada sobre sujeto, acción, complemento indirecto (e.g.
corredor de formula uno, equipo al que pertenece cada corredor etc.).
Concretamente, el W3C17, desde su grupo W3C Multimedia Semantics Incubator Group18,
trabaja en el estudio de las distintas aproximaciones a la migración de MPEG-7 a OWL/RDF.
4.3.5 Ontologías basadas en estándares de descripción

Ya desde los primeros pasos de MPEG-7 se consideró su integración como ontología con más
capacidad semántica que el estándar en si [Hunter, 2001]. En esta aproximación Hunter
utiliza la ontología ABC como ontología fundamental, identificando puntos de acoplamiento
para la integración de ontologías de dominio específico además de parte de MPEG-7. En
concreto, dentro de MPEG-7, se centra en la jerarquía de entidades multimedia, las
descomposiciones y los descriptores de las partes visual y de audio. Las relaciones entre las
entidades se corresponden con las que implícitamente existían en el estándar, pero ahora
están definidas de forma explícita. En [Hunter, 2001], [Hunter, 2002] y [Hunter, 2003] la
autora describe el trabajo realizado dentro del proyecto HARMONY19 entre 1999 y 2002, y
posteriormente en FUSION20. En [Hunter, 2001] se describe una propuesta de modelado de
los descriptores MPEG-7 en RDFS, convertidos posteriormente a DAML21 (DARPA Agent
Markup Language)+OIL22 (Ontology Inference Layer). En [Hunter, 2003] esta ontología es
integrada en ABC, junto a MPEG-21, formando una sola ontología en OWL. Hunter utiliza
RuleML23 para la aplicación de de reglas de inferencia semántica.
Tsinaraky en [Tsinaraki, 2004a] [ Tsinaraki, 2004b] [ Tsinaraki, 2004c] [ Tsinaraki, 2007]
opta por una traducción de la semántica de MPEG-7 a OWL, constituyendo de esta forma una
ontología genérica que servirá de base para la extensión de ontologías de dominio específico.
Propone un framework basado en DS-MIRF [ Tsinaraki, 2007]. Podemos encontrar una
implementación del modelo llamada MPEG-7 MDS Ontology desarrollada en el proyecto
TUC/MUSIC24.
Una apuesta de vocación más amplia se encuentra en [García, 2005], donde, con ánimo de
posibilitar una conversión automática de descripciones a lenguajes de ontologías, presenta
dos sistemas capaces de convertir definiciones de XML Schema en axiomas de OWL
(XSD2OWL) o RDF (XSD2RDF). En este trabajo, García y Celma aplican su sistema a
MPEG-21 y a ODRL25 (Open Digital Rights Language), apuntando el procedimiento a seguir
para su aplicación sobre MPEG-7. La ontología resultante comparte la semántica de [Hunter,
2001] pero, a diferencia de esta última, se genera automáticamente.
Todos las aproximaciones comentadas hasta el momento, realizan una conversión uno a uno
de los tipos de MPEG-7 en conceptos o propiedades de OWL/RDF. En [Arndt, 2007],
17 http://www.w3.org/
18 http://www.w3.org/2005/Incubator/mmsem/wiki/FrontPage
19 http://metadata.net/harmony/
20 http://www.itee.uq.edu.au/~eresearch/projects/fusion/index.html
21 http://www.daml.org/
22 http://www.ontoknowledge.org/oil/
23 http://www.ruleml.org/
24 http://www.music.tuc.gr/
25 http://odrl.net/

partiendo del enfoque presentado en [Troncy, 2003], [Troncy, 2004] y [Troncy, 2006] y
utilizando DOLCE como ontología fundamental, se presenta una ontología de MPEG-7 en la
que no hay una correspondencia biyectiva entre los tipos del estándar y los conceptos
ontológicos. Esto da lugar a una ontología más abierta en la que es posible, por ejemplo,
introducir campos tales como información sobre el proceso de señal seguido para la
inferencia de un concepto semántico.
Un enfoque diferente se presenta en [Naphade, 2006], donde se plantea la construcción de
ontologías de conceptos presentes en contenidos multimedia desde otro punto de vista.
Concretamente, se plantea la elección de conceptos comúnmente presentes en los contenidos,
para luego, dependiendo del dominio de la ontología a definir, escoger los conceptos de
acuerdo a su:
• Utilidad: su relevancia para su futura utilización en búsquedas.
• Generalidad: Que cubra un amplio rango del espacio semántico relevante del
dominio.
• Posibilidad de realización: Qué su obtención sea factible o previsiblemente factible en
los próximos años.
• Posibilidad de observación: Qué tengan una incidencia suficientemente significativa
en la colección de contenidos del dominio objetivo.
Este planteamiento recibe el nombre de LSCOM (Large-scale concept ontology for

Multimedia). Dependiendo del dominio objetivo, por tanto, los conceptos más adecuados
para la ontología podrán variar. La taxonomía presentada a modo de ejemplo se corresponde
en gran medida con la propuesta en TRECVID26 2005 y 2006, siendo éstas últimas versiones
simplificadas.
La ontología Smart-Media introducida en [Vembu, 2006] propone una solución integrada en
la se combinan la estructura y descriptores de MPEG-7 con los conceptos semánticos de una
ontología de dominio que modela eventos deportivos. El diseño de una ontología siguiendo la
metodología propuesta es totalmente dependiente del dominio de interés bajo consideración.
Otra aproximación es la desarrollada en el proyecto europeo Acemedia27, que concluye con la
creación de una ontología que plasma en RDF parte de los descriptores visuales de MPEG-7,
recibe el nombre de VDO28 (Visual Descriptor Ontology).
En otro proyecto europeo, BOEMIE29 (Bootstrapping Ontology Evolution with Multimedia
Information Extraction), se plantea un sistema en el que la extracción de información visual
se refina a la vez que permite la evolución automática de las ontologías inicialmente
diseñadas.
En el DMAG30 (Distributed Multimedia Applications Group) se han desarrollado ontologías
basadas en el estándar MPEG-21, concretamente en las partes de propiedad intelectual y
derechos de autor.
En [Temal, 2006] se presenta una interesante aproximación al diseño de ontologías
multimedia: partiendo de COPS [Lando, 2006] (a Core Ontology of Programs and
Software) se presenta una ontología que modela herramientas de procesado de señal y
partiendo de I&DA [Lando, 2006] (Information and Discourse Acts) una que modela
imágenes médicas.
26 http://www-nlpir.nist.gov/projects/trecvid/
27 http://www.acemedia.org/aceMedia
28 http://www.acemedia.org/aceMedia/reference/resource/index.html
29 http://www.boemie.org/
http://dmag.upf.edu/ontologies/
30

4.4 Extracción de Descripciones
Para la consecución de conclusiones relevantes, además de migrar los descriptores de los
contenidos multimedia a la web semántica, es necesario poblar esos conceptos con
contenidos anotados semánticamente (i.e. Asociar etiquetas semánticas al contenido
multimedia) y a bajo nivel (i.e. Asociar descripciones de bajo nivel al contenido). Para ello, es
necesario que los contenidos multimedia sean anotados semánticamente y las descripciones
extraídas, siendo la primera una tarea, en la mayoría de los casos, manual.
Los estándares permiten y promueven el que estos metadatos con información semántica se
incluyan en la cadena de producción. Sin embargo, muchas de las herramientas de
producción utilizadas en la actualidad (e.g. Macromedia Director, Adobe Photoshop,
Macromedia Flash, Microsoft Powerpoint) utilizan estructuras propietarias para la
descripción del contenido generado, haciendo complicada la posterior reutilización de esos
metadatos. Además, gran parte de la industria de producción y distribución de contenidos no
tiene interés en producir metadatos accesibles por la competencia. Es más, aunque lo
industria finalmente decidiera cumplir con algún estándar en tiempo de generación de
contenido, todavía quedarían horas y horas de contenido ya producido sin anotar. Así, surge
como ineludible, el reto de la anotación automática de contenidos multimedia.
Respondiendo a esta necesidad, se pueden encontrar diversas herramientas de anotación
manual o semiautomática (e.g. Caliph31, Emir32, VideoAnnex33, MAT34). Sin embargo, sea
cual sea la herramienta utilizada, la anotación manual tiene un coste muy alto, es lenta y
dependiente de la subjetividad de quien realiza las anotaciones.
Por tanto, el análisis de contenidos multimedia para su anotación semántica es un campo
profundamente relacionado con las ontologías multimedia y con sus posibilidades de
utilización. Dentro del ámbito de diversos proyectos de investigación europeos (e.g.
Acemedia, MESH35) se aborda este problema a la vez que se aborda el del desarrollo de
ontologías útiles para posteriores búsquedas. De este modo, nuevos contenidos pueden
alimentar el sistema, siendo analizados en busca de información relevante y anotados para
pasar a formar parte del espacio de búsqueda. Los resultados obtenidos en TRECVID36 en los
últimos años pueden dar una idea del estado del arte de la inferencia automática de
conceptos de medio/alto nivel. Hoy en día, se da por sentada la necesidad de reducción del
problema a dominios concretos para la consecución de resultados aceptablemente fiables.
4.5 Conclusiones
En el acceso a grandes colecciones de contenido multimedia, tan importante es el acceso
físico al mismo, como la capacidad de encontrar a nivel semántico el contenido requerido.
Hoy en día, el volumen de contenidos multimedia en la red es enorme y su crecimiento aún
mayor, siendo ésta una de las principales razones para la necesidad de su anotación
automática.
La migración de los tradicionales estándares de descripción multimedia (e.g. MPEG-7,
MPEG-21, TV-Anytime) a lenguajes procesables por herramientas ontológicas, tales como
OWL o RDF, abren las puertas del razonamiento y la inferencia a dos niveles:
http://www.semanticmetadata.net/demo/CaliphDemo.htm
31
http://www.semanticmetadata.net/demo/EmirDemo.htm
32
http://www.research.ibm.com/VideoAnnEx/
33
http://www.alphaworks.ibm.com/tech/multimodalannotation
34
http://www.mesh-ip.eu
35
http://www-nlpir.nist.gov/projects/trecvid/
36

• A un nivel por debajo del de los conceptos semánticos, el razonamiento y la inferencia
pueden usarse para introducir restricciones en las relaciones de las instancias
descritas a bajo nivel.
• Una vez llegados a conceptos semánticos de medio nivel (entendiendo éstos como
aquellos cuya presencia es directamente deducible en base a descripciones de bajo
nivel) se pueden definir entre ellos relaciones semánticas.
Así, existe la necesidad de conseguir un estándar de representación que permita la

utilización de las herramientas de la web semántica.
Ya existen estándares para la representación de metadatos de contenidos multimedia. Existe
una semántica implícita en ellos, pero esto no es suficiente para poder ser utilizados con las
herramientas de la web semántica. Sus especificaciones no permite representar sin
ambigüedades la semántica que sus metadatos albergan. Esto se debe a que el diseño de estos
estándares se realizó desde la perspectiva de análisis de señal con objetivos poco relacionados
con el razonamiento o la inferencia semántica (por ejemplo encontrar imágenes parecidas en
términos de color, textura, actividad de movimiento).
Se han realizado varias propuestas en la línea de integración de estándares de descripción en
ontologías multimedia. Aunque la gran mayoría tienen en común la utilización de MPEG-7
como elemento central en la definición de los conceptos a considerar, también presentan
diferencias en un aspecto principal: los conceptos y las relaciones semánticas reflejadas en
cada una de las ontologías. Definir un punto de encuentro para todas estas propuestas se
plantea, más que como la elección de tan solo una ontología, como la armonización del mayor
número posible de ellas. La implicación de organismos como MPEG o W3C desempeña un
papel muy importante, aunando esfuerzos en la estandarización de la anotación de
contenidos multimedia para la web semántica.
No obstante, esta estandarización no es el único obstáculo para integrar información de alto
nivel sobre los contenidos multimedia en la web semántica. También es necesario poblar de
descripciones y anotaciones las ontologías definidas. Estas anotaciones, hoy en día, se han de
realizar con intervención humana. Esta es una de las limitaciones más importantes en la
labor de salvar el semantic gap (intervalo semántico). En cambio, la mayoría descripciones
de bajo nivel se pueden extraer automáticamente.
4.6 Referencias
[Dorai, 2003] Dorai C, Venkatesh S. Bridging the Semantic Gap with Computational Media
Aesthetics. IEEE MultiMedia 2003;10(2):15-17.
[Lagoze, 2001] C. Lagoze, J.Hunter, The ABC Ontology and Model, (Version3), Journal of
Digital Information, Special Issue - selected papers from Dublin Core 2001 Conference
[Hunter, 2001] J. Hunter. "Adding Multimedia to the Semantic Web — Building an MPEG-7
Ontology", In International Semantic Web Working Symposium (SWWS 2001), Stanford
University, California, USA, July 30 - August 1, 2001.
[Hunter, 2002] J.Hunter, Combining the CIDOC CRM and MPEG-7 to Describe Multimedia
in Museums, Museums on the Web 2002, Boston, April 2002.
[Hunter, 2003] J. Hunter, Enhancing the semantic interoperability of multimedia through a

core ontology, in Circuits and Systems for Video Technology, IEEE Transactions on, Vol.13,
Iss.1, Jan 2003, pp. 49- 58.
[Tsinaraki, 2004a] Tsinaraki C., Polydoros P., Christodoulakis S.: "Interoperability support
for Ontology-based Video Retrieval Applications". In the Proceedings of the Conference on
Image and Video Retrieval (CIVR) 2004, pp. 582-591, July 2004, Dublin,Ireland.
[Tsinaraki, 2004b] Tsinaraki C., Polydoros P., Christodoulakis S.: "Integration of OWL
ontologies in MPEG-7 and TV-Anytime compliant Semantic Indexing". In the proceedings of
the 16th International Conference on Advanced Information Systems Engineering (CAISE),
pp. 398-413, June 2004, Riga, Latvia.
[Tsinaraki, 2004c] Tsinaraki C., Polydoros P., Moumoutzis N., Christodoulakis S.: "Coupling
OWL with MPEG-7 and TV-Anytime for Domain-specific Multimedia Information
Integration and Retrieval". In the Proceedings of RIAO 2004, April 2004, Avignon, France.
[Tsinaraki, 2007] Tsinaraki C., Polydoros P., Christodoulakis S.: "Interoperability Support
between MPEG-7/21 and OWL in DS- MIRF". In the Proceedings of RIAO 2004, April 2004,
Avignon, France.
[García, 2005] R. García and O. Celma. Semantic Integration and Retrieval of Multimedia
Metadata, in 5th International Workshop on Knowledge Markup and Semantic Annotation
(SemAnnot’05), Galway, Ireland, 2005.
[Arndt, 2007] R Arndt, S Staab, RR Troncy, LL Hardman, "Adding Formal Semantics to

MPEG-7: Designing a Well-Founded Multimedia Ontology for the Web", Fachbereich
Informatik, Nr. 04/2007.
[Troncy, 2003] R. Troncy. Integrating Structure and Semantics into Audio-visual

Documents. In Second International Semantic Web Conference (ISWC 2003), pages 566 –
581, Sanibel Island, Florida, USA, October 20-23, 2003. Springer-Verlag Heidelberg
[Troncy, 2004] R. Troncy and J. Carrive, A Reduced Yet Extensible Audio-Visual Description
Language: How to Escape From the MPEG-7 Bottleneck, in 4th ACM Symposium on
Document Engineering (DocEng’04), Milwaukee, Wisconsin, USA, 2004.
[Troncy, 2006] R. Troncy, W. Bailer, M. Hausenblas, P. Hofmair, and R. Schlatte, Enabling

Multimedia Metadata Interoperability by Defining Formal Semantics of MPEG-7 Profiles, in
1st International Conference on Semantics And digital Media Technology (SAMT’06),
Athens, Greece, 2006.
[Naphade, 2006] M. Naphade, J. R. Smith, J. Tesic, C. Shih-Fu, W. Hsu, L. Kennedy, A.

Hauptmann, J. Curtis, Large-scale concept ontology for multimedia, in Multimedia, IEEE,
July- Sept. 2006, Volume: 13, Page(s): 86-91.
[Vembu, 2006] S. Vembu, M. Kiesel, M. Sintek, S. Baumann, Towards bridging the semantic
gap in multimedia annotation and retrieval, Proceedings of the 1st International Workshop on
Semantic Web Annotations for Multimedia, SWAMM 2006 at the 15th International World
Wide Web Conference, 2006
[Temal, 2006] L. Temal, P. Lando, B. Gibaud, M. Dojat, G. Kassel, A. Lapujade,

OntoNeuroBase: a multi-layered application ontology on neuroimaging, in Proceedings of the
2nd Workshop: Formal Ontologies Meet Industry, FOMI 2006, Trento (Italy).
[Lando, 2006] P. Lando, A. Lapujade, G. Kassel, F. Fürst, Towards a General Ontology of

Computer Programs, ICSOFT’2007, Barcelona, Spain, 22-25 July 2007.

5 Ontología para análisis de secuencias de video
5.1 Introducción
Para poder alcanzar los objetivos del proyecto relacionados con el análisis de eventos en
secuencias de video se propone la especificación, diseño e implementación de un modelo de
datos que represente el conocimiento de manera jerárquica y organizada. Adicionalmente,
este modelo de datos se plantea que proporcione el detalle suficiente como para poder
construir un sistema automático de análisis basado en conocimiento.
A tal efecto se ha elegido el uso de ontologías para representar el modelo de conocimiento,
debido a que es capaz de ofrecer una representación estructurada y jerárquica del
conocimiento a priori. Esta representación proporciona un enlace entre las características de
bajo nivel y los nodos de las jerarquías conceptuales. Además permite describir tanto los
procesos de análisis y las entidades que forman parte de una escena, como los posibles
consumidores del contenido semántico extraído. Se ha seleccionado Protegé [ref] como
herramienta para el uso de la ontología y OWL para el formato de representación.
Esta sección presenta el modelo de datos a utilizar para el análisis de eventos en secuencias
de video. Comienza con una breve discusión sobre el estado del arte actual (sección 5.2),
posteriormente se analizan los requisitos que debe cumplir el modelo de datos para
representar el conocimiento de la escena de vídeo (sección 5.3). Finalmente, el documento
presenta detalladamente una primera aproximación a la ontología propuesta para modelar el
conocimiento a priori de la escena (sección 5.4.1), las partes que la componen (sección 5.4.2)
y su aplicación al dominio de video-vigilancia (sección 5.5).
5.2 Estado del arte

Los recientes esfuerzos hacia el uso del conocimiento en el análisis e interpretación
semántica [Cavallaro2003] de secuencias de video (y en general sistemas multimedia
[Chang2002]) se han traducido en el uso de diferentes esquemas de representación del
conocimiento. Siguiendo la iniciativa de la Web Semántica [W3C], las ontologías han sido
frecuentemente utilizadas para representar la semántica que rodea al contenido multimedia.
Recientemente se ha comenzado a plantear el uso de las ontologías para representar el
conocimiento a priori de la semántica de secuencias de video [Bremond2004].
Dentro de un entorno, contexto o dominio concreto (e.g., secuencias de partidos de tenis, o
de cámaras situadas en túneles de carreteras), la acotación en el número y tipo de los objetos
que pueden estar presentes permite ligar el proceso de análisis visual con ontologías del
dominio considerado (es decir, descripciones de los posibles objetos detectables y de sus
restricciones en cuanto a tamaños, formas, colores, patrones de movimiento, etc., así como
de las relaciones con otros posibles objetos y eventos de la escena), aproximación que
actualmente está consiguiendo resultados prometedores [Izquierdo2004] [Skinrath2005].
Adicionalmente, la detección de elementos ajenos a la ontología permite aplicar técnicas de
aprendizaje que agilicen (mediante intervención humana) o incluso automaticen su
ampliación.
En definitiva, la utilización de información sobre el contexto en que una secuencia de vídeo es
captada permite generalmente mejorar la calidad resultante de los procesos de análisis y
reconocimiento aplicados sobre ella. Tradicionalmente, esta información contextual se ha
incorporado en dichos procesos mediante el ajuste manual de parámetros o implícitamente a
través de la propia estructura y diseño de sus algoritmos.
En los últimos años se están proponiendo alternativas en las que la información contextual se
codifica explícitamente utilizando técnicas de representación del conocimiento. Estas
alternativas se basan en la utilización cada vez más habitual de descripciones formales del
contenido a través de ontologías de objetos, que especifican jerárquicamente, a diferentes

niveles de abstracción, las entidades que pueden aparecer en la secuencia, así como sus
interrelaciones y atributos, incluyendo estos últimos tanto información conceptual de alto
nivel, como descriptores visuales extraídos mediante algoritmos de procesamiento de
imágenes de bajo nivel. Estas ontologías vienen siendo utilizadas con éxito para describir el
contenido semántico de secuencias de vídeo de cara a su búsqueda e indexación automáticas
en bases de datos multimedia (e.g., [Mezaris2004] [Song2005]).
El uso de ontologías para representar información contextual ha dado lugar al desarrollo de
sistemas de visión basados en el conocimiento, también conocidos como sistemas de visión
cognitivos [Maillot2004]. Estos sistemas buscan soluciones a dos problemas básicos: por un
lado la manera en que se construye y representa la ontología de objetos y, por otro, la forma
en que esa ontología se utiliza para realizar el proceso de análisis deseado.
En cuanto al primer problema, la mayoría de propuestas definen los componentes y
estructura de la ontología de forma manual (e.g., [Maillot2004] [Voisine2005] [Town2006]),
obteniendo sus atributos de bajo nivel mediante la extracción de descriptores visuales a
partir de secuencias de entrenamiento disponibles. En algunas propuestas se define una
ontología genérica para problemas de análisis y tantas ontologías específicas como dominios
de aplicación, las cuales proporcionan el vocabulario de los objetos que aparecerán en esos
dominios, así como sus características específicas [Dasionpulou2005]. Las distintas
propuestas representan sus ontologías con lenguajes formales originalmente empleados para
representación del conocimiento en Inteligencia Artificial y que han ganado un renovado
interés a raíz del proyecto de Web Semántica. Por ejemplo, en [Dasionpulou2005]
[Voisine2005] se utiliza RDFS, mientras que [Maillot2004] opta por DL. Recientemente se
ha estandarizado VERL, lenguaje de representación de ontologías para especificar eventos en
secuencias de [Bolles2004] [Francois2005], como iniciativa para dinamizar la utilización de
ontologías en todos los ámbitos del procesamiento de vídeo.
Las soluciones al segundo problema de utilización de ontologías para análisis son las que más
diferencian a las distintas aproximaciones. Así, por ejemplo, el proceso de análisis se
especifica en [Dasionpulou2005] mediante un conjunto de reglas de inferencia lógica
expresadas en formato F-Logic. Estas reglas hacen referencia a los conceptos de la ontología
y son disparadas por un motor de inferencia a partir de descriptores visuales iniciales
obtenidos mediante algoritmos de procesamiento de imágenes de bajo nivel. Dichas reglas
pueden ordenar la extracción de nuevos descriptores visuales que, a su vez, podrán provocar
la activación de nuevas reglas sucesivamente. Como alternativa, en [Voisine2005] se acude a
un algoritmo genético que trata de encontrar el emparejamiento óptimo entre las entidades
de la ontología y un conjunto de regiones inicialmente extraídas automáticamente de las
imágenes. Por otra parte, en [Town2006] se propone la utilización de la ontología para
definir la estructura inicial de una red Bayesiana que se entrena a partir de un conjunto de
secuencias de entrenamiento con el objetivo de identificar las entidades de la ontología en
nuevas secuencias de vídeo a partir de descriptores visuales extraídos de ellas. En todos los
casos, sin embargo, la información contenida en la ontología no afecta al funcionamiento de
los procesos de extracción de descriptores visuales de bajo nivel que, de ese modo, no se
benefician de la información contextual disponible.
En el ámbito del análisis contextual de secuencias de vídeo, el grupo más activo en la
actualidad pertenece al Information Processing Laboratory de la Universidad de Tesalónica37
y al Instituto de Informática y Telemática de Tesalónica38. Otros grupos activos en este
ámbito son el de Christopher Town en el Laboratorio de Computación de la Universidad de
Cambridge39 y el grupo ORION del INRIA Sophia Antipolis40.
37 Information Processing Laboratory, University of of Thessaloniki,

http://uranus.ee.auth.gr/ipl/index.php?ln=en&pg=home
38 The Informatics and Telematics Institute (ITI), http://www.iti.gr/db.php/en/pages/about.html
39 The Computer Laboratory , University of Cambridge, http://www.cl.cam.ac.uk/
40 The team Orion, Research institute “INRIA Sophia Antipolis”, http://www-sop.inria.fr/orion/index-en.html

El estado del arte en extracción de características de relevancia semántica está lejos de
permitir operar en tiempo real. Adicionalmente, las técnicas no están diseñadas para trabajar
on-line, es decir, con un retardo razonable. Sin embargo, hasta cierto punto sí es posible
extraer características semánticamente relevantes con bajo coste computacional y retardo
despreciable, basándose conjuntamente en aproximaciones jerárquicas y en análisis en
dominios transformados.
La extracción en dominios transformados de características como los cambios de toma o
plano (e.g., en secuencias de televisión) o la estimación del movimiento de cámara pueden
ofrecer resultados comparables a los obtenidos operando en el dominio del
píxel[Mezaris2004b]. Sin embargo, operando en dominios transformados, las características
que lleven asociada una resolución o densidad (máscaras, formas, flujo óptico, etc.) sólo
pueden obtenerse con la granularidad asociada al tamaño del bloque base de la
transformación. En este caso, la obtención de características con mayor nivel de detalle
exigiría una segunda etapa de refinamiento en los algoritmos involucrados.
Análogamente, el diseño de la ontología puede incluir niveles de complejidad creciente en los
modelos de una misma característica, objeto o evento considerado. Por ejemplo, en el
contexto de una cámara situada en un pasillo de un edificio, la etapa de operación on-line
utilizaría un modelo de persona básico (e.g., un rectángulo con la relación de aspecto
apropiada) mientras que sucesivas etapas acudiría a modelos que contemplarían sub-
modelos para cabeza y extremidades, etc.

5.3 Requisitos
Cuando se decide cómo representar algo en una ontología, implícitamente se están
imponiendo restricciones en su diseño. A continuación se exponen los requisitos principales
que se persiguen en el diseño de la ontología:
1. Claridad: la ontología debe de poder comunicar de manera efectiva el significado
de sus términos.
2. Coherencia: debe permitir hacer inferencias que sean consistentes con las
definiciones.
3. Extensibilidad: debe anticipar usos y permitir extensiones y especializaciones.
4. Mínimo compromiso ontológico: debe hacer la menor cantidad de “pretensiones''
acerca del dominio modelado.
Además de estos requisitos principales o generales, el diseño de la ontología también debe
contemplar unos requisitos específicos de la tarea del proyecto y del dominio de aplicación
que modela. Dependiendo de cada requisito, el modelo tiene que ser desarrollado y extendido
consecuentemente. Estos son:
1. Proporcionar realimentación entre resultados de “análisis semántico” (con
conocimiento del dominio) y “análisis de bajo nivel” (sin conocimiento del
dominio).
2. Guiar o facilitar la detección, clasificación y representación de objetos basada en
conocimiento.
3. Guiar o facilitar la detección, clasificación y representación de eventos basada en
conocimiento.
4. Permitir una representación compacta de la escena. La ontología ha de
representar los eventos posibles que ocurran en la escena de vídeo de manera
clara.
5. Posibilitar la selección automática de algoritmos de análisis en función del
dominio de aplicación. La selección de los algoritmos a aplicar para la obtención
del análisis semántica se obtendría a partir de una decisión sobre los objetos y
eventos objetivo, los algoritmos del sistema y el estado de las propiedades del
sistema.
6. Guiar las decisiones evento-reacción del sistema.

5.4 Ontología básica
La ontología que se propone está enfocada a modelar el conocimiento utilizado en la
resolución del problema de extracción de información semántica en escenas de vídeo.
Resolver este problema implica modelar el proceso estímulo-análisis-respuesta. Este proceso
involucra los distintos tipos de objetos que hay presentes en la escena, las capacidades de
proceso del sistema y las posibles respuestas ante los distintos eventos observados. Para ello
se ha estructurado el diseño de la ontología en dos partes: conceptos básicos y sus
extensiones.
Los conceptos básicos pretenden definir el fundamento común para la construcción de
nuevas ontologías basadas en la extracción de información semántica de secuencias de vídeo.
Posteriormente, se proponen extensiones de estos conceptos básicos que se presentan
basándose en el conocimiento del dominio de aplicación. Este dominio de aplicación se
corresponderá con el análisis de secuencias de video.
La ontología que aquí se presenta se ha implementado utilizando el editor de ontologías
Protegé 2000 de la Universidad de Stanford41 [Noy2000].
5.4.1 Conceptos básicos

La primera división en el conocimiento implícito del proceso estimulo-análisis-respuesta
establece que cualquier concepto relevante pertenece a uno de los siguientes conceptos de
nivel superior: la escena (o “lado exterior”), el sistema (o “lado interior”) y el consumidor o
usuario (o “interfaz de interacción”).
SystemContext
Scene hasSystemStatus
hasSceneContext systemReactionList
objectList systemCapabilityList
eventList <properties>
<properties>
SystemCapability
SceneContext SystemReaction <properties>
<properties> Event
appliesToEvent
<properties>
<properties>
SystemStatus
Object <properties>
<properties>
Figura 1: Jerarquía básica de la ontología
A continuación se describen más detalladamente los conceptos básicos:

• Escena
o Representa toda la información que se puede extraer de la realidad captada a
través de secuencias de vídeo, que son elementos externos al sistema. Este
concepto de alto nivel incluye tanto los objetos como la interacción entre estos
(eventos) y el contexto de la escena. Así pues la escena puede incluir:
Contexto de la escena (SceneContext). Información general sobre las
condiciones en que se desarrolla la escena (iluminación global, si el
entorno es exterior o interior,…)
Objetos presentes en la escena (ObjectList). Representación espacial
del estado actual de la escena. Básicamente, los objetos presentes en la
escena, incluyendo las descripciones y las relaciones espaciales entre
41
The Protégé Project, University of Stanford, 2000, http://protege.stanford.edu/

ellos. Esta lista de objetos genérica puede incluir objetos de todo tipo y
naturaleza (móviles e inmóviles,…)
Eventos presentes en la escena (EventList). Eventos que han ocurrido
o están ocurriendo actualmente en la escena. Estos eventos pueden
tener una naturaleza muy distinta como por ejemplo: cambios de
iluminación, aparición/desaparición de objetos, interacciones entre los
objetos de la escena,… De aquí también puede deducirse que, a su vez,
los objetos de la escena también podrán estar implicados en estos
eventos, ya sea como sujetos de la acción o como objetos de ella.
Figura 2: Jerarquía de la clase Scene de la ontología
• Sistema
o Representa al propio sistema que utiliza el modelo de conocimiento. Esta
representación incluye tanto las capacidades de análisis del sistema como las
posibles respuestas que se generan ante los eventos y un estado general del
sistema.
o Un sistema puede incluir la siguiente información:
Capacidades de análisis (SystemCapabilities). Describe las
capacidades de análisis del sistema y todos los parámetros asociados:
algoritmos disponibles, configuración,…
Estado del sistema (SystemStatus). Describe el estado actual del
sistema. Dependiendo de la aplicación, esta descripción variará
significativamente.
Reacciones del sistema (SystemReactions). Describe los diferentes
tipos de reacciones que puede tener el sistema respondiendo ante
determinado tipo de eventos u objetos.

Figura 3: Jerarquía de la clase System de la ontología
• Usuario
o Este concepto representa al usuario final que consume la información
semántica generada por el sistema (esta información incluye eventos, objetos,
reacciones del sistema,…, es decir, cualquier tipo de información que maneje
el sistema).
o Esta descripción también puede incluir el modo de interacción a través de la
cual se solicita información al sistema.
Aunque por completitud el esquema anterior incluye al consumidor o usuario como parte
integrante fundamental de la ontología, su modelado queda fuera del ámbito de esta tarea,
por lo que en adelante se prescinde de este elemento.
La organización jerárquica de los conceptos semánticos descritos hasta el momento se puede
observar en la siguiente figura. Los conceptos básicos se desarrollan de manera más extensa
en el apartado 5.4.2; su extensión final estará condicionada al dominio de aplicación concreto
de la ontología.

5.4.2 Especializaciones de conceptos básicos
Una vez descrito el marco en el que se englobarán los conceptos incluidos en la ontología, se
puede pasar a ver en más detalle los aspectos en los que nosotros vamos a centrarnos.
5.4.2.1 Object
El concepto Object es la base de la descripción de la estructura de la escena. El tipo y
descripción de cada objeto presente en la escena, así como las relaciones entre ellos,
proporcionan esa descripción.
Existen diferentes formas de clasificar los tipos de objeto en la escena. Estas subdivisiones
definen las distintas especializaciones del concepto. Inicialmente, los diferentes objetos se
clasifican desde dos puntos de vista diferentes:
• En función de su “autonomía de movimiento”, pueden ser animados (con un
movimiento autónomo) o inanimados (su posible movimiento sólo existirá si es
provocado por un objeto animado). Este aspecto nos divide los objetos existentes
entre objetos móviles (mobile_object) y objetos contextuales (Contextual_object).
Adicionalmente, los objetos contextuales pueden ser divididos entre objetos portables
(Portable_Object) si pueden iniciar movimiento inducido por otros objetos (e.g.,
personas) o fijos (Fixed_Object) si no pueden iniciar el movimiento de ninguna
manera.
• En función del número de dimensiones del espacio que ocupa, pueden ser 2D y 3D.
Un objeto 3D contendrá, a su vez, objetos 2D, que se corresponderán con las
representaciones 2D de de las que dispone la aplicación.
La ¡Error! No se encuentra el origen de la referencia. muestra las especializaciones

propuestas y algunos ejemplos de objetos, para mostrar el modo en que son automáticamente
categorizados.
Figura 4: Jerarquía de la clase Object de la ontología
Entre las diferentes propiedades asociadas a la clase Object, destacaremos las siguientes:

• Propiedades “inter-object”: Su valor son objetos de la clase Object. Representan
relaciones entre objetos. Estas propiedades tendrán, a su vez, propiedades que las
describan (tipo de relación espacial, posición de una parte en el conjunto,…).
o hasPart-isPartOf. Indica si el objeto es parte de otro o tiene otro objeto como
parte de él ( e.g., los dedos de una mano)
o hasSpatialRelation. Indica la relacion espacial entre diferentes objetos (e.g., la
cabeza de una persona esta encima de los hombros).
• Propiedades “intra-object”: Su valor pertenece a clases base (como integer o string) o

a otras clases diferentes de Object. Representan propiedades de cada objeto.
o Visual Attributes using basic types
Position-Based: Xpos, Ypos
Global-appearance: height, width, ratio, global_color, size
Local-appearance: silhouette, posture, sub-part_color
o hasVisualDescriptor-isVisualDescriptorOf
o hasObjectTrack-isObjectTrackOf
Las diferentes sub-clases de la entidad Object heredan las propiedades básicas y añaden otras
nuevas para caracterizar la movilidad, autonomía o el rol en la escena. En la siguiente figura
se puede observar un ejemplo de las propiedades asociadas a la clase Person indicadas en
verde y sus relaciones con otras entidades en azul.
Figura 5: Propiedades de la clase Person de la ontología

5.4.2.2 Descriptor
En las tareas de análisis es especialmente importante el concepto de Descriptor. Una
instancia de la clase Descriptor irá siempre asociada a una instancia de Object, a la que
describe. Las diferentes características en las que puede basarse el descriptor, así como el
modo de representación de esa descripción definirán las diferentes especializaciones.
VDO (Visual Descriptor Ontology) [Simou2005] es una ontología que representa los
descriptores visuales de MPEG-7 en forma de ontología. Armonizarla con el modelo
propuesto permite disponer de un conjunto inicial de descriptores estándar para los objetos.
La inclusión de esta ontología no implica que el conjunto de posibles descriptores deba
limitarse a MPEG-7, ya que pueden definirse nuevas clases de descriptores que hereden de la
clase VisualDescription y no de vdo:Visual_Descriptor. La Figura 6 muestra un ejemplo del
modo en que puede armonizarse esta ontología con la propuesta en este documento sin
limitar por ello las diferentes clases de descriptores al conjunto incluido en VDO.
VisualDescriptor Object
<properties>
<properties>
Vdo_VisualDescriptor
<properties>
MobileObject 2DObject
<properties> <properties>
VDO 2DHand
Visual_Descriptor <properties>
<properties>
Shape_Descriptor ObjectTrajectory_Descriptor
<properties> Spatio-temporalLocator_Descriptor xTranlation
<properties> yTranslation
zTranslation
xRotation
yRotation
zRotation
timeInterval
MotionTrajectory_Descriptor
<properties>
Figura 6: Ejemplo de armonización de VDO en el modelo de datos propuesto.
5.4.2.3 Event
La clase Event engloba todos los eventos que puedan resultar de interés para un sistema de
análisis de vídeo.
El nivel semántico de un evento, por tanto, es muy variable: desde eventos relacionados con
el análisis a bajo nivel (detección de movimiento, cambios globales de iluminación), medio
nivel (aparición, desaparición, fusión, división y otros eventos relacionados con objetos) o
eventos con mayor contenido semántico (identificación de objetos, gestos, …).

La siguiente figura muestra la jerarquía de eventos propuesta, donde los posibles eventos se
clasifican desde tres puntos de vista diferentes.
Figura 7: Jerarquía de la clase Event de la ontología
Los tres tipos de aspectos tenidos en cuenta para la clasificación son:

• Numero de objetos de interés (Single or Multiple)
• Relación temporal entre eventos (Simple para eventos que ocurren en pequeños
periodos temporales y Complex para eventos de larga duración normalmente
compuestos de eventos más simples)
• Transitividad (Intransitive or Transitive). Desde el punto de vista de su
“transitividad”, un evento puede ser transitivo (un sujeto realiza la acción sobre un
objeto) o intransitivo (la acción realizada no requiere un objeto para ser definida).
Asi pues combinando los dos primeros aspectos (debido a que la transitividad solo añade las
caracteristicas action_subject y action_purpose a todas las clases derivadas) podemos
clasificar los eventos en cuatro tipos:
• Simple_SingleObject (o SSE): este tipo de eventos son realizados por un solo objeto
móvil y pueden ser calculados directamente de los atributos visuales de dicho objeto.
Este tipo de objetos se corresponde normalmente con propiedades físicas de los
objetos (e.g., “Una persona esta dentro de una zona”).
• Simple_MultipleObject (o SME): este tipo de eventos son realizados por varios
objetos moviles y pueden ser calculados cada imagen (o cada poco tiempo). Por
ejemplo, “Dos personas dentro de una zona” o “Persona A esta cerca del objeto O y
persona B esta dentro de la zona Z” son eventos de este tipo.
• Complex_SingleObject (o CSE): este tipo de eventos representan una combinación
lineal de eventos más simples y son realizados por un solo objeto. Este tipo de
eventos que implican una relación temporal imponen a su vez un orden entre los
distintos eventos que lo componen (e.g., “Detección de objetos abandonados” esta
compuesto de varios eventos mas simples como “Soltar objeto”, “Objeto se vuelve
estático” y “Distancia dueño-objeto demasiado lejana”).
• Complex_MultipleObject (o CME): este tipo de eventos involucra a los que son
realizados por varios objetos y estan compuestos de diferentes sub-eventos.
Normalmente este tipo de eventos involucra varias lineas argumentales siendo los
mas difíciles de detectar.
Los atributos de un evento son todas las propiedades que caracterizan la entidad/clase Event.
Estas propiedades están divididas en las siguientes:
• Una lista de objetos que realizan/reciben la acción (ObjectList)
• Una lista de sub-eventos que componen el evento a detectar (Sub-events)
• Relaciones o restricciones entre los sub-eventos y objetos que componen el evento a
ser modelado (constraints)
Figura 8: Ejemplos de atributos de eventos para el dominio de video-vigilancia de

estaciones de metro
5.4.2.4SceneContext
La clase/entidad SceneContext define toda la información que puede influenciar la manera
en como es percibida una escena. Esta información puede ser utilizada durante el análisis de
la escena para ayudar/mejorar los resultados del análisis realizado (e.g., detección de
eventos).
Figura 9: Jerarquía de la clase SceneContext de la ontología
A continuación se distinguen tres tipos de contexto:

• SpatialContext: descripción especial de la escena.
• ObjectContext: relaciones entre objetos especificas del dominio.
• EventContext: relaciones entre objetos especificas del dominio (e.g., eventos mas
probables, combinaciones entre ellos, localización espacial de eventos,…)

5.4.3 Diccionario de conceptos
A continuación se proporciona una definición formal de los conceptos incluidos en la
ontología.
• Scene: Engloba todo el conocimiento que un sistema de análisis de vídeo posee sobre
el entorno que le rodea.
• Object: Componentes en que se descompone espacialmente la escena. Los objetos
presentes, su descripción y las relaciones entre ellos proporcionan la descripción
espacial de la escena.
o MobileObject: Object con capacidad de movimiento autónomo por la escena.
Ejemplos: personas, caras, …
o ContextualObject: Object sin capacidad de movimiento autónomo por la
escena.
FixedObject: ContextualObject cuya posición en la escena no puede
variar. Ejemplos: puertas, ventanas,…
PortableObject: ContextualObject cuya posición en la escena puede
variar como consecuencia de una acción del sistema o la acción de un
AnimatedObject. Ejemplos: libros, ordenadores portátiles,…
o 2DObject: Object cuya representación está en 2D (o 2.5D).
o 3DObject: Object cuya representación está en 3D.
• VisualDescriptor: Descripción predefinida de un Object basada en alguna
característica visual, como color, textura o movimiento.
• Event: Eventos de interés para el sistema de análisis de vídeo.
o Simple_SingleObject events or (SSE)
o Simple_MultipleObject events (or SME)
o Complex_SingleObject events (or CSE)
o Complex_MultipleObject events (or CME)
• SceneContext: Características global de la escena, como iluminación global o
interpretación del tipo de escena que se está desarrollando.
o Spatial_context
o Object_context
o Event_Context
• System: Engloba todo el conocimiento que un sistema de análisis de vídeo tiene sobre
sí mismo.
o SystemStatus: Estado del sistema.
o SystemCapability: Componentes del sistema, como algoritmos de análisis,
clasificadores o razonadores.
o SystemReaction: Una posible acción que el sistema puede ejecutar como
reacción a un evento, sea modificando la base de conocimiento o
interactuando con la escena.

5.5 Ontología de dominio para detección de eventos en secuencias
de video-vigilancia
In this subsection, we describe a domain-specific specialization of the proposed ontology

framework, namely for the Underground Video-surveillance domain.
5.5.1.1Object specializations
For the Object concept, only a limited number of object types are observed in Underground
video sequences: person, group of persons, metro train, portable objects,... Low-level features
(see section 5.4.2.1) are used to discriminate between the different domain objects. A
description of the objects modelled is depicted in the following Figure.
Figura 10: Object class specializations and detailed hierarchy for the Underground
Video-surveillance domain
5.5.1.2Context specializations
For the SceneContext concept, we have only described the SpatialContext related to the scene
being monitored. This context includes the annotation of the fixed objects of the scene (zones
of interest, train tracks, doors, walls, seat,...) and their spatial location.
5.5.1.3Event specializations
For the Event concept, we have described the events of interest related to the domain being
modelled. These events have been classified depending on the previously described
categories. This classification allows the application of different event detection models for
each category depending on the available algorithms.
In the following, there is an example of the definition of some Simple and Single events for
the application domain modelled:

Figura 11: Sample Definition of Simple and Single events for the for the Underground
In the following, there is an example of the definition of some Complex events for the
application domain modelled:

Figure 12: Sample Definition of Complex events for the for the Underground Video-
surveillance domain
In the following, there is the full list of events for the Underground Video-surveillance
domain:

Figure 13: Event class specializations and detailed hierarchy for the Underground
5.5.2 Framework for Video Surveillance Analysis Based on
Ontology
According to the available knowledge described in the ontology, an analysis framework has
been designed supporting the domain-specific content described. The proposed framework is
depicted in Fig. 1.5 and it can be extended to other domains by developing the respective
domain ontology. All the shared knowledge (domain-specific specializations for object and
event entities, available spatial context, processing schemes and algorithms, user
preferences,...) is combined in a reasoning stage to determine the best video analysis
processing scheme, user interfaces and system reactions to the analyzed content. A
supervisor module has been introduced to manage this reasoning stages, the different
processing schemes used (forward/feedback configuration schemes) and the detection
models for each relevant concept (e.g., background subtraction for detecting foreground
objects, use Bayesian inference or state machines for detecting simple or complex events,...).
Figure 14: Proposed video analysis framework
5.6 Conclusions and Future Work

In this section, we have presented a formalization of knowledge relevant to video analysis
systems using an ontology. The relevant information is described in terms of scene-related
entities (Object, Event, Context), system-related entities (Capabilities, Reactions,...) and the
final user. Then, a domain extension is proposed for the Underground Video-surveillance
domain. Furthermore, the knowledge described in the ontology has been mapped to a video
analysis framework configurable for different application domains.
Future work includes an extension of the ontology with more complex representations of the
Object and Event entities. Additionally, the development of new domain ontologies (e.g.,
smart rooms domain) and the inclusion of new processing schemes in the System part of the
ontology (e.g., complex feedback strategies) will be explored.
5.6.1 References
[Cavallaro2003] A. Cavallaro, O.Steiger, T. Ebrahimi, “Semantic Segmentation and Description for
Video Transcoding”, Proceedings of IEEE International Conference on Multimedia and Expo,
ICME'03, vol. 3 (2003), p. 597-600
[Chang2002] S.-F. Chang, "The holy Grail of Content-based media analysis", IEEE Multimedia,
9(2):6-10, Apr.-Jun.2002

[W3C]W3C Multimedia Semantics Incubator Group Wiki:
http://www.w3.org/2005/Incubator/mmsem/wiki/FrontPage
[Bremond2004] F. Bremond, N. Maillot, M. Thonnat, V. Vu, “Ontologies for video events”, Technical
report, INRIA, April 2004, no 5189 (http://www.inria.fr/rrrt/rr-5189.html)
[Izquierdo2004] E. Izquierdo, A.K. Katsaggelos, M.G. Strintzis,(eds.) “Special Issue on Audio and
Video Analysis for Multimedia Interactive Services”, IEEE Transactions on Circuits and Systems for
Video Technology, 14(5), May 2004
[Srikanth2005] M. Srikanth, J. Varner, M. Bowden, D. Moldovan, "Exploiting ontologies for automatic

image annotation", Proc. of the Twenty-Eighth Annual International ACM Conference on Research
and Development in Information Retrieval ACM SIGIR 2005), pp. 552-558 2005.
[Mezaris2004] V. Mezaris, I. Kompatsiaris, M.G. Strintzis, “Region-Based Image Retrieval Using an

Object Ontology and Relevance Feedback”, EURASIP Journal on Applied Signal Processing, no.6, 886-
901, 2004.
[Song2005] D. Song, H. Tao Liu, M. Cho, H. Kim, P. Kim, “Domain Knowledge Ontology Building for
Semantic Video Event Description”. CIVR 2005: 267-275
[Maillot2004] N. Maillot, M. Thonnat, A. Boucher, “Towards Ontology Based Cognitive Vision”,

Machine Vision and Applications, 16(1), 33-40, 2004.
[Voisine2005] N. Voisine, S. Dasiopoulou, F. Precioso, V. Mezaris, I. Kompatsiaris, M.G. Strintzis, “A

Genetic Algorithm-Based Approach to Knowledge-Assisted Video Análisis”, Proc. ICIP 2005, vol.3,
441-444, Sept. 2005.
[Town2006] C. Town, “Ontological inference for image and video analysis”, Machine Vision and
Applications, 17(2), 94-115, 2006.
[Dasiopoulou2005]S. Dasiopoulou, V. Mezaris, I. Kompatsiaris, V.K. Papastathis, M.G. Strintzis,

“Knowledge-assisted semantic video object detection”, IEEE Transactions on Circuits and Systems for
Video Technology, 15(10):1210-1224, Oct. 2005
[Bolles2004] B. Bolles and R. Nevatia, A Hierarchical Video Event Ontology in OWL, ARDA Challenge
Workshop Report, 2004; https://rrc.mitre.org//nwrrc/OWLevents-final-report.pdf
[François2005] A.R.J François, R. Nevatia, J. Hobbs, R.C. Bolles, “VERL: An Ontology Framework for
Representing and Annotating Video Events”. IEEE Multimedia, vol.12, no.4, 76-86, Oct-Dic 2005.
[Mezaris2004b] V. Mezaris, I. Kompatsiaris, N.V. Boulgouris, M.G. Strintzis, M.G. ,“Real-time

compressed-domain spatiotemporal segmentation and ontologies for video indexing and retrieval”,
IEEE Transactions on Circuits and Systems for Video Technology, 14(5):606-621, May 2004.
[Noy2000] N. Noy, R. Fergerson, M. Musen, “The Knowledge Model of Protege-2000: combining

Interoperability and Flexibility”, Knowledge Engineering and Knowledge Management: 12th
International Conference EKAW 2000, Lecture Notes in Artificial Intelligence, Springer-Verlag. pp.
17- 32, 2000.
[Simou2005] N. Simou, V. Tzouvaras, Y. Avrithis, G. Stamou and S. Kollias, "A Visual Descriptor
Ontology for Multimedia Reasoning", in Proc. of Workshop on Image Analysis for Multimedia
Interactive Services (WIAMIS ’05), Montreux, Switzerland, April 13-15, 2005.

SemanticVideo TR 2008 01InformeSobreDiseñoDeOntologiasDeDominio

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

SemanticVideo TR 2008 01InformeSobreDiseñoDeOntologiasDeDominio

Cargado por

Copyright:

Formatos disponibles

Informe sobre diseño de

Juan Carlos San Miguel

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías ii

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 1

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 2

1 What is an Ontology, http://ksl-web.stanford.edu/kst/what-is-an-ontology.html

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 3

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 4

2 Semantic Web, http://www.w3.org/2001/sw

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 5

4.2 Estándares de descripción Multimedia.

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 6

• Description Schemes (DS): Especifican la estructura y semántica de las relaciones entre

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 7

4.3 “Integración Ontológica” “Salvando el intervalo semántico”

4.3.1 Ontologías Fundamentales

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 8

4.3.2 Ontologías de Medio Nivel

4.3.3 Ontologías de Dominio

4.3.4 Ontologías Multimedia

Existen varías propuestas con el fin de integrar estándares de descripción multimedia en

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 9

4.3.5 Ontologías basadas en estándares de descripción

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 10

Este planteamiento recibe el nombre de LSCOM (Large-scale concept ontology for

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 11

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 12

Así, existe la necesidad de conseguir un estándar de representación que permita la

[Hunter, 2003] J. Hunter, Enhancing the semantic interoperability of multimedia through a

[Arndt, 2007] R Arndt, S Staab, RR Troncy, LL Hardman, "Adding Formal Semantics to

[Troncy, 2003] R. Troncy. Integrating Structure and Semantics into Audio-visual

[Troncy, 2006] R. Troncy, W. Bailer, M. Hausenblas, P. Hofmair, and R. Schlatte, Enabling

[Naphade, 2006] M. Naphade, J. R. Smith, J. Tesic, C. Shih-Fu, W. Hsu, L. Kennedy, A.

[Temal, 2006] L. Temal, P. Lando, B. Gibaud, M. Dojat, G. Kassel, A. Lapujade,

[Lando, 2006] P. Lando, A. Lapujade, G. Kassel, F. Fürst, Towards a General Ontology of

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 14

5.2 Estado del arte

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 15

37 Information Processing Laboratory, University of of Thessaloniki,

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 16

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 17

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 18

5.4.1 Conceptos básicos

Figura 1: Jerarquía básica de la ontología

A continuación se describen más detalladamente los conceptos básicos:

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 19

Figura 2: Jerarquía de la clase Scene de la ontología

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 20

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 21

La ¡Error! No se encuentra el origen de la referencia. muestra las especializaciones

Figura 4: Jerarquía de la clase Object de la ontología

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 22

• Propiedades “intra-object”: Su valor pertenece a clases base (como integer o string) o

Figura 5: Propiedades de la clase Person de la ontología

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 23

Figura 6: Ejemplo de armonización de VDO en el modelo de datos propuesto.

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 24

Figura 7: Jerarquía de la clase Event de la ontología

Los tres tipos de aspectos tenidos en cuenta para la clasificación son:

Figura 8: Ejemplos de atributos de eventos para el dominio de video-vigilancia de

Figura 9: Jerarquía de la clase SceneContext de la ontología

A continuación se distinguen tres tipos de contexto:

SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 26