Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ontologías de dominio
SemanticVideo.TR.2008.01
1 Introducción ........................................................................................................................ 1
2 Motivación............................................................................................................................. 2
3 Representación del conocimiento........................................................................... 3
4 Ontologías para descripción de contenido multimedia.............................. 5
4.1 Introducción .................................................................................................................... 5
4.2 Estándares de descripción Multimedia............................................................ 6
4.2.1 MPEG-7 ........................................................................................................................... 7
4.3 “Integración Ontológica” “Salvando el intervalo semántico” ........... 8
4.3.1 Ontologías Fundamentales ................................................................................. 8
4.3.2 Ontologías de Medio Nivel................................................................................... 9
4.3.3 Ontologías de Dominio .......................................................................................... 9
4.3.4 Ontologías Multimedia........................................................................................... 9
4.3.5 Ontologías basadas en estándares de descripción ............................ 10
4.4 Extracción de Descripciones ................................................................................ 12
4.5 Conclusiones.................................................................................................................. 12
4.6 Referencias..................................................................................................................... 13
5 Ontología para análisis de secuencias de video........................................... 15
5.1 Introducción .................................................................................................................. 15
5.2 Estado del arte ............................................................................................................. 15
5.3 Requisitos ....................................................................................................................... 18
5.4 Ontología básica.......................................................................................................... 19
5.4.1 Conceptos básicos.................................................................................................. 19
5.4.2 Especializaciones de conceptos básicos ................................................... 22
5.4.2.1 Object ............................................................................................................................ 22
5.4.2.2 Descriptor.................................................................................................................... 24
5.4.2.3 Event .............................................................................................................................. 24
5.4.2.4 SceneContext ............................................................................................................ 26
5.4.3 Diccionario de conceptos ................................................................................... 27
5.5 Ontología de dominio para detección de eventos en secuencias de
video-vigilancia ....................................................................................................................... 28
5.5.1.1 Object specializations.......................................................................................... 28
5.5.1.2 Context specializations ....................................................................................... 28
5.5.1.3 Event specializations............................................................................................ 28
5.5.2 Framework for Video Surveillance Analysis Based on Ontology 32
SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías i
5.6 Conclusions and Future Work ............................................................................. 32
5.6.1 References .................................................................................................................. 32
4.1 Introducción
En este capitulo se estudia la problemática de la anotación de contenidos multimedia de
modo que puedan ser utilizados por las herramientas de la web semántica2 . Esto implica no
sólo que el formato y la sintaxis de los metadatos estén estandarizados, sino que exista una
semántica explícita que interrelacione dichos metadatos y que pueda ser utilizada por las
herramientas propias de la web semántica.
En la actualidad, el volumen de información multimedia en la web es enorme y su
crecimiento cada vez mayor. De hecho, debido a la madurez de las tecnologías de
almacenamiento y transmisión de datos, los formatos digitales son actualmente la opción
más barata, fácil y segura para almacenar y distribuir contenidos multimedia, incluso con alta
calidad. Como consecuencia, las tareas relacionadas con la gestión de todo este material
resultan cada vez más complejas, requiriendo la ayuda de herramientas automáticas, dada la
inviabilidad de su anotación manual.
Al mismo tiempo, las herramientas de la web semántica están madurando, permitiendo cada
vez una mayor potencia y flexibilidad en la utilización de los metadatos asociados a
documentos y contenidos. De este modo, la integración de los estándares de anotación de
contenidos multimedia con las herramientas de la web semántica dotaría a estos metadatos
de una semántica de la que actualmente carecen pudiendo ser utilizados para la organización
y búsqueda inteligente de contenidos dentro de la web.
Tanto tareas tradicionales sobre contenidos multimedia (e.g. encontrar elementos relevantes
en una búsqueda) como otras más innovadoras (e.g. generar un resumen del contenido de
varios elementos diferentes) requieren de un conocimiento semántico del contenido. Esta
semántica no sólo incluye la información visual y de audio, sino también la del documento en
si, incluyendo aspectos tales como su origen o sus derechos de autor.
Antes de construir aplicaciones capaces de interpretar la semántica, ésta debe hacerse
explícita y comprensible para la máquina. Son varios los estándares de descripción
multimedia orientados a la caracterización de vídeo, audio, animaciones, videojuegos. Gran
parte de ellos surgen desde el punto de vista del análisis de señal del contenido, mostrando
importantes limitaciones en las relaciones presentadas por sus instancias que a su vez limitan
las posibilidades de razonamiento e inferencia.
Muchos de los actuales estándares de descripción de archivos multimedia, tales como MPEG-
73 o TV-Anytime4 carecen de una semántica formal con relaciones más allá de la pertenencia
(ver sección 4.2). Así, en los últimos años se están realizando esfuerzos por integrar estos
estándares de expresividad semántica limitada con los lenguajes habitualmente utilizados
por las herramientas de la web semántica (OWL5, RDF6). El uso de estos estándares de
descripción no es aún muy extendido, debido a que presentan diversas limitaciones:
• La dificultad y el coste de la anotación del contenido.
• La complejidad de los estándares.
• La poca proliferación de aplicaciones que hagan uso de los metadatos por ellos
ofrecidos.
http://dublincore.org/
7
http://www.newsml.org/
8
http://cidoc.ics.forth.gr/
9
http://www.mpegif.org/resources.php#section42
10
http://www.tv-anytime.org/
11
4.2.1 MPEG-7
Se trata del estándar de descripción multimedia más extendido y prácticamente todas las
propuestas para anotación de contenidos multimedia para la web semántica lo tienen en
cuenta (ver sección 4.3.4). A continuación se ofrece una breve introducción al estándar y a su
estructura.
A diferencia de los estándares MPEG12 anteriores (MPEG-1, 2 y 4), MPEG-7 no tiene como
objetivo la codificación o compresión de los contenidos. Su cometido es la representación de
las descripciones de los contenidos. Los elementos principales de MPEG-7 son:
• Descriptor (D): Constituye una representación de una característica definida sintáctica y
semánticamente. Una instancia puede ser descrita por varios descriptores.
• Description Definition Language (DDL): Permite la extensión o variación de los DS, así
como la creación de nuevos D. Está basado en XML Schema, con la inclusión de arrays,
matrices y dos tipos de datos nuevos.
• System Tools: Son las herramientas facilitadas por MPEG-7 para afrontar la utilización
del estándar modo binario, la sincronización y el transporte/almacenamiento de las
descripciones obtenidas. Además consta de herramientas para la protección intelectual de
datos.
El estándar MPEG, con ánimo de permitir y fomentar su mejora, muestra cierto grado de
flexibilidad que se traduce en dos tipos de herramientas: las normativas y las no normativas.
En los estándares MPEG-1, MPEG-2 y MPEG-4 la metodología de decodificación es
normativa y, además de ceñirse a una determinada sintaxis, su implementación está
claramente indicada y ya cerrada. En cambio la codificación, pese a haber de respetar la
sintaxis de salida, permite distintas implementaciones en su realización. Siendo pues la
codificación no normativa. MPEG-7, siguiendo la línea apuntada por los anteriores
estándares de MPEG, respeta esta filosofía, entendiendo por normativa el formato en las
descripciones de salida, pero permitiendo implementaciones propias en la extracción de las
mismas.
Una primera clasificación del tipo de descripciones realizable con MPEG-7 diferenciaría entre
características asociadas al documento en si, tales como autor, fecha, formato, y
características asociadas al contenido del mismo, descritas mediante descriptores visuales
y/o de audio o mediante conceptos semánticos más abstractos. Las descripciones del
contenido pueden ser de bajo nivel, obtenidas mediante técnicas de procesado de señal, o de
más alto nivel, con conceptos semánticos anotados manualmente o inferidos a partir de las
descripciones de bajo nivel. La problemática por solventar cuando se infieren conceptos
12 http://www.chiariglione.org/mpeg/
http://www.ontologyportal.org/
13
http://www.ieee.org/
14
http://www.loa-cnr.it/DOLCE.html
15
http://www.schemaweb.info/schema/SchemaDetails.aspx?id=241
16
17 http://www.w3.org/
18 http://www.w3.org/2005/Incubator/mmsem/wiki/FrontPage
19 http://metadata.net/harmony/
20 http://www.itee.uq.edu.au/~eresearch/projects/fusion/index.html
21 http://www.daml.org/
22 http://www.ontoknowledge.org/oil/
23 http://www.ruleml.org/
24 http://www.music.tuc.gr/
25 http://odrl.net/
26 http://www-nlpir.nist.gov/projects/trecvid/
27 http://www.acemedia.org/aceMedia
28 http://www.acemedia.org/aceMedia/reference/resource/index.html
29 http://www.boemie.org/
http://dmag.upf.edu/ontologies/
30
4.5 Conclusiones
En el acceso a grandes colecciones de contenido multimedia, tan importante es el acceso
físico al mismo, como la capacidad de encontrar a nivel semántico el contenido requerido.
Hoy en día, el volumen de contenidos multimedia en la red es enorme y su crecimiento aún
mayor, siendo ésta una de las principales razones para la necesidad de su anotación
automática.
La migración de los tradicionales estándares de descripción multimedia (e.g. MPEG-7,
MPEG-21, TV-Anytime) a lenguajes procesables por herramientas ontológicas, tales como
OWL o RDF, abren las puertas del razonamiento y la inferencia a dos niveles:
http://www.semanticmetadata.net/demo/CaliphDemo.htm
31
http://www.semanticmetadata.net/demo/EmirDemo.htm
32
http://www.research.ibm.com/VideoAnnEx/
33
http://www.alphaworks.ibm.com/tech/multimodalannotation
34
http://www.mesh-ip.eu
35
http://www-nlpir.nist.gov/projects/trecvid/
36
4.6 Referencias
[Dorai, 2003] Dorai C, Venkatesh S. Bridging the Semantic Gap with Computational Media
Aesthetics. IEEE MultiMedia 2003;10(2):15-17.
[Lagoze, 2001] C. Lagoze, J.Hunter, The ABC Ontology and Model, (Version3), Journal of
Digital Information, Special Issue - selected papers from Dublin Core 2001 Conference
[Hunter, 2001] J. Hunter. "Adding Multimedia to the Semantic Web — Building an MPEG-7
Ontology", In International Semantic Web Working Symposium (SWWS 2001), Stanford
University, California, USA, July 30 - August 1, 2001.
[Hunter, 2002] J.Hunter, Combining the CIDOC CRM and MPEG-7 to Describe Multimedia
in Museums, Museums on the Web 2002, Boston, April 2002.
[Tsinaraki, 2004a] Tsinaraki C., Polydoros P., Christodoulakis S.: "Interoperability support
for Ontology-based Video Retrieval Applications". In the Proceedings of the Conference on
SemanticVideo.TR.2008.01 "Informe sobre Diseño de Ontologías de Ontologías 13
Image and Video Retrieval (CIVR) 2004, pp. 582-591, July 2004, Dublin,Ireland.
[Tsinaraki, 2004b] Tsinaraki C., Polydoros P., Christodoulakis S.: "Integration of OWL
ontologies in MPEG-7 and TV-Anytime compliant Semantic Indexing". In the proceedings of
the 16th International Conference on Advanced Information Systems Engineering (CAISE),
pp. 398-413, June 2004, Riga, Latvia.
[Tsinaraki, 2004c] Tsinaraki C., Polydoros P., Moumoutzis N., Christodoulakis S.: "Coupling
OWL with MPEG-7 and TV-Anytime for Domain-specific Multimedia Information
Integration and Retrieval". In the Proceedings of RIAO 2004, April 2004, Avignon, France.
[Tsinaraki, 2007] Tsinaraki C., Polydoros P., Christodoulakis S.: "Interoperability Support
between MPEG-7/21 and OWL in DS- MIRF". In the Proceedings of RIAO 2004, April 2004,
Avignon, France.
[García, 2005] R. García and O. Celma. Semantic Integration and Retrieval of Multimedia
Metadata, in 5th International Workshop on Knowledge Markup and Semantic Annotation
(SemAnnot’05), Galway, Ireland, 2005.
[Troncy, 2004] R. Troncy and J. Carrive, A Reduced Yet Extensible Audio-Visual Description
Language: How to Escape From the MPEG-7 Bottleneck, in 4th ACM Symposium on
Document Engineering (DocEng’04), Milwaukee, Wisconsin, USA, 2004.
[Vembu, 2006] S. Vembu, M. Kiesel, M. Sintek, S. Baumann, Towards bridging the semantic
gap in multimedia annotation and retrieval, Proceedings of the 1st International Workshop on
Semantic Web Annotations for Multimedia, SWAMM 2006 at the 15th International World
Wide Web Conference, 2006
5.1 Introducción
Para poder alcanzar los objetivos del proyecto relacionados con el análisis de eventos en
secuencias de video se propone la especificación, diseño e implementación de un modelo de
datos que represente el conocimiento de manera jerárquica y organizada. Adicionalmente,
este modelo de datos se plantea que proporcione el detalle suficiente como para poder
construir un sistema automático de análisis basado en conocimiento.
A tal efecto se ha elegido el uso de ontologías para representar el modelo de conocimiento,
debido a que es capaz de ofrecer una representación estructurada y jerárquica del
conocimiento a priori. Esta representación proporciona un enlace entre las características de
bajo nivel y los nodos de las jerarquías conceptuales. Además permite describir tanto los
procesos de análisis y las entidades que forman parte de una escena, como los posibles
consumidores del contenido semántico extraído. Se ha seleccionado Protegé [ref] como
herramienta para el uso de la ontología y OWL para el formato de representación.
Esta sección presenta el modelo de datos a utilizar para el análisis de eventos en secuencias
de video. Comienza con una breve discusión sobre el estado del arte actual (sección 5.2),
posteriormente se analizan los requisitos que debe cumplir el modelo de datos para
representar el conocimiento de la escena de vídeo (sección 5.3). Finalmente, el documento
presenta detalladamente una primera aproximación a la ontología propuesta para modelar el
conocimiento a priori de la escena (sección 5.4.1), las partes que la componen (sección 5.4.2)
y su aplicación al dominio de video-vigilancia (sección 5.5).
SystemContext
Scene hasSystemStatus
hasSceneContext systemReactionList
objectList systemCapabilityList
eventList <properties>
<properties>
SystemCapability
SceneContext SystemReaction <properties>
<properties> Event
appliesToEvent
<properties>
<properties>
SystemStatus
Object <properties>
<properties>
41
The Protégé Project, University of Stanford, 2000, http://protege.stanford.edu/
• Sistema
o Representa al propio sistema que utiliza el modelo de conocimiento. Esta
representación incluye tanto las capacidades de análisis del sistema como las
posibles respuestas que se generan ante los eventos y un estado general del
sistema.
o Un sistema puede incluir la siguiente información:
Capacidades de análisis (SystemCapabilities). Describe las
capacidades de análisis del sistema y todos los parámetros asociados:
algoritmos disponibles, configuración,…
Estado del sistema (SystemStatus). Describe el estado actual del
sistema. Dependiendo de la aplicación, esta descripción variará
significativamente.
Reacciones del sistema (SystemReactions). Describe los diferentes
tipos de reacciones que puede tener el sistema respondiendo ante
determinado tipo de eventos u objetos.
• Usuario
o Este concepto representa al usuario final que consume la información
semántica generada por el sistema (esta información incluye eventos, objetos,
reacciones del sistema,…, es decir, cualquier tipo de información que maneje
el sistema).
o Esta descripción también puede incluir el modo de interacción a través de la
cual se solicita información al sistema.
Aunque por completitud el esquema anterior incluye al consumidor o usuario como parte
integrante fundamental de la ontología, su modelado queda fuera del ámbito de esta tarea,
por lo que en adelante se prescinde de este elemento.
La organización jerárquica de los conceptos semánticos descritos hasta el momento se puede
observar en la siguiente figura. Los conceptos básicos se desarrollan de manera más extensa
en el apartado 5.4.2; su extensión final estará condicionada al dominio de aplicación concreto
de la ontología.
5.4.2.1 Object
El concepto Object es la base de la descripción de la estructura de la escena. El tipo y
descripción de cada objeto presente en la escena, así como las relaciones entre ellos,
proporcionan esa descripción.
Existen diferentes formas de clasificar los tipos de objeto en la escena. Estas subdivisiones
definen las distintas especializaciones del concepto. Inicialmente, los diferentes objetos se
clasifican desde dos puntos de vista diferentes:
• En función de su “autonomía de movimiento”, pueden ser animados (con un
movimiento autónomo) o inanimados (su posible movimiento sólo existirá si es
provocado por un objeto animado). Este aspecto nos divide los objetos existentes
entre objetos móviles (mobile_object) y objetos contextuales (Contextual_object).
Adicionalmente, los objetos contextuales pueden ser divididos entre objetos portables
(Portable_Object) si pueden iniciar movimiento inducido por otros objetos (e.g.,
personas) o fijos (Fixed_Object) si no pueden iniciar el movimiento de ninguna
manera.
• En función del número de dimensiones del espacio que ocupa, pueden ser 2D y 3D.
Un objeto 3D contendrá, a su vez, objetos 2D, que se corresponderán con las
representaciones 2D de de las que dispone la aplicación.
Entre las diferentes propiedades asociadas a la clase Object, destacaremos las siguientes:
Las diferentes sub-clases de la entidad Object heredan las propiedades básicas y añaden otras
nuevas para caracterizar la movilidad, autonomía o el rol en la escena. En la siguiente figura
se puede observar un ejemplo de las propiedades asociadas a la clase Person indicadas en
verde y sus relaciones con otras entidades en azul.
VisualDescriptor Object
<properties>
<properties>
Vdo_VisualDescriptor
<properties>
MobileObject 2DObject
<properties> <properties>
VDO 2DHand
Visual_Descriptor <properties>
<properties>
Shape_Descriptor ObjectTrajectory_Descriptor
<properties> Spatio-temporalLocator_Descriptor xTranlation
<properties> yTranslation
zTranslation
xRotation
yRotation
zRotation
timeInterval
MotionTrajectory_Descriptor
<properties>
5.4.2.3 Event
La clase Event engloba todos los eventos que puedan resultar de interés para un sistema de
análisis de vídeo.
El nivel semántico de un evento, por tanto, es muy variable: desde eventos relacionados con
el análisis a bajo nivel (detección de movimiento, cambios globales de iluminación), medio
nivel (aparición, desaparición, fusión, división y otros eventos relacionados con objetos) o
eventos con mayor contenido semántico (identificación de objetos, gestos, …).
5.4.2.4SceneContext
La clase/entidad SceneContext define toda la información que puede influenciar la manera
en como es percibida una escena. Esta información puede ser utilizada durante el análisis de
la escena para ayudar/mejorar los resultados del análisis realizado (e.g., detección de
eventos).
5.5.1.1Object specializations
For the Object concept, only a limited number of object types are observed in Underground
video sequences: person, group of persons, metro train, portable objects,... Low-level features
(see section 5.4.2.1) are used to discriminate between the different domain objects. A
description of the objects modelled is depicted in the following Figure.
Figura 10: Object class specializations and detailed hierarchy for the Underground
Video-surveillance domain
5.5.1.2Context specializations
For the SceneContext concept, we have only described the SpatialContext related to the scene
being monitored. This context includes the annotation of the fixed objects of the scene (zones
of interest, train tracks, doors, walls, seat,...) and their spatial location.
5.5.1.3Event specializations
For the Event concept, we have described the events of interest related to the domain being
modelled. These events have been classified depending on the previously described
categories. This classification allows the application of different event detection models for
each category depending on the available algorithms.
In the following, there is an example of the definition of some Simple and Single events for
the application domain modelled:
In the following, there is an example of the definition of some Complex events for the
application domain modelled:
In the following, there is the full list of events for the Underground Video-surveillance
domain:
5.6.1 References
[Cavallaro2003] A. Cavallaro, O.Steiger, T. Ebrahimi, “Semantic Segmentation and Description for
Video Transcoding”, Proceedings of IEEE International Conference on Multimedia and Expo,
ICME'03, vol. 3 (2003), p. 597-600
[Chang2002] S.-F. Chang, "The holy Grail of Content-based media analysis", IEEE Multimedia,
9(2):6-10, Apr.-Jun.2002
[Bremond2004] F. Bremond, N. Maillot, M. Thonnat, V. Vu, “Ontologies for video events”, Technical
report, INRIA, April 2004, no 5189 (http://www.inria.fr/rrrt/rr-5189.html)
[Izquierdo2004] E. Izquierdo, A.K. Katsaggelos, M.G. Strintzis,(eds.) “Special Issue on Audio and
Video Analysis for Multimedia Interactive Services”, IEEE Transactions on Circuits and Systems for
Video Technology, 14(5), May 2004
[Song2005] D. Song, H. Tao Liu, M. Cho, H. Kim, P. Kim, “Domain Knowledge Ontology Building for
Semantic Video Event Description”. CIVR 2005: 267-275
[Town2006] C. Town, “Ontological inference for image and video analysis”, Machine Vision and
Applications, 17(2), 94-115, 2006.
[Bolles2004] B. Bolles and R. Nevatia, A Hierarchical Video Event Ontology in OWL, ARDA Challenge
Workshop Report, 2004; https://rrc.mitre.org//nwrrc/OWLevents-final-report.pdf
[François2005] A.R.J François, R. Nevatia, J. Hobbs, R.C. Bolles, “VERL: An Ontology Framework for
Representing and Annotating Video Events”. IEEE Multimedia, vol.12, no.4, 76-86, Oct-Dic 2005.
[Simou2005] N. Simou, V. Tzouvaras, Y. Avrithis, G. Stamou and S. Kollias, "A Visual Descriptor
Ontology for Multimedia Reasoning", in Proc. of Workshop on Image Analysis for Multimedia
Interactive Services (WIAMIS ’05), Montreux, Switzerland, April 13-15, 2005.