Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Sede Manizales
Departamento de Ingeniera Elctrica, Electrnica y Computacin
Facultad de Ingeniera y Arquitectura
Flavio Prieto
Manizales, Colombia
Enero de 2008
Tabla de Contenido
Tabla de Contenido
Lista de Figuras
III
Lista de Tablas
Introduccin
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
. 5
. 6
. 6
. 7
. 7
. 8
. 9
. 10
2. Calibracin de Cmara
2.1. Modelo de Cmara . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. Mtodos de Calibracin . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1. Mtodo 1: algoritmo Tsai . . . . . . . . . . . . . . . . . . . .
2.2.2. Mtodo 2: algoritmo The Gold Standard . . . . . . . . . . . . .
2.2.3. Mtodo 3: calibracin de cmara basado en elipses . . . . . . .
2.2.4. Modelo de cmara con distorsiones . . . . . . . . . . . . . . .
2.2.5. Correccin de la distorsin radial: algoritmo The Gold Standard
2.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1. Mtodo 1: algoritmo Tsai . . . . . . . . . . . . . . . . . . . .
2.3.2. Mtodo 2: algoritmo The Gold Standard . . . . . . . . . . . . .
2.3.3. Mtodo 3: calibracin de cmara basado en elipses . . . . . . .
2.3.4. Mtricas de desempeo . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
15
15
15
17
18
19
20
21
22
23
23
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
25
25
26
26
29
29
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
TABLA DE CONTENIDO
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
30
31
31
32
32
35
35
36
38
38
42
42
42
43
.
.
.
.
.
.
.
.
47
48
48
50
51
52
52
54
57
.
.
.
.
.
.
.
61
61
62
62
63
64
64
66
Conclusiones Generales
69
Bibliografa
71
II
Lista de Figuras
1.1.
1.2.
1.3.
1.4.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 6
. 7
. 8
. 11
2.1.
2.2.
2.3.
2.4.
Modelo de Cmara. . . . . . . . . . . .
Proyeccin de una cnica en el espacio.
Patrones de calibracin. . . . . . . . . .
Correccin de la distorsin radial. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3.1. Compensacin de iluminacin empleando la tcnica blanco de referencia. (a) Imagen sin
compensacin. (b) Imagen con compensacin. . . . . . . . . . . . . . . . . . . . . . . . .
3.2. Color de la piel en el espacio de color Y Cb Cr . Los puntos azules representan el color reproducible en un monitor y los rojos representan las muestras del color de piel. . . . . . . . .
3.3. Imagen en el espacio de color Y Cb Cr . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4. Proyeccin en Cb Cr del espacio de color transformado, en el cual el modelo elptico del
color de piel est sobrecargado en su cluster (los puntos rojos indican el cluster de la piel).
3.5. Deteccin facial. (a) Imagen de color. (b) Imagen en el espacio de color Y Cb Cr . (c) Imagen
segmentada en base al modelo elptico. (d) Imagen despus del anlisis de regiones. . . . .
3.6. Rostro detectado y ubicacin de los ojos. . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.7. Distribucin tonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.8. Filtrado del tono. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.9. Anlisis en escala de grises. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.10. Bordes horizontales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.11. Ubicacin de la boca. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.12. Deteccin de vrtices: gradiente vertical. . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.13. Deteccin de vrtices: REBPS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.14. Extraccin del controno. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.15. Primera aproximacin al controno exterior de la boca. . . . . . . . . . . . . . . . . . . . .
3.16. Ajuste del labio inferior por medio de una funcin polinmica. . . . . . . . . . . . . . . .
3.17. Ajuste del labio superior por medio de funciones polinmicas. . . . . . . . . . . . . . . .
3.18. Ajuste de los labios usando funciones polinmicas. . . . . . . . . . . . . . . . . . . . . .
3.19. Resultados de la extraccin del contorno exterior. . . . . . . . . . . . . . . . . . . . . . .
14
18
21
23
. 27
. 28
. 28
. 29
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
29
30
31
31
32
32
37
37
37
40
41
41
41
42
45
LISTA DE FIGURAS
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
52
53
54
55
55
56
57
58
59
5.1.
5.2.
5.3.
5.4.
5.5.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
63
63
65
65
67
IV
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Lista de Tablas
7
8
9
2.1.
2.2.
2.3.
2.4.
2.5.
2.6.
2.7.
2.8.
.
.
.
.
.
.
.
.
.
.
.
. .
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
21
21
22
22
22
23
24
24
3.1.
3.2.
3.3.
3.4.
3.5.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
42
43
43
44
44
5.1.
5.2.
5.3.
5.4.
5.5.
5.6.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
61
62
64
64
68
68
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
LISTA DE TABLAS
VI
Introduccin
El procesamiento de imgenes faciales es una de las reas de mayor desarrollo dentro de los sistemas de
visin artificial [14]. Las medidas faciales han sido variables fundamentales para determinar las caractersticas especficas de cierta raza, el establecimiento de reglas para dibujar el rostro y la cabeza, aplicaciones de
carcter mdico en general; de manera ms reciente, se han desarrollado aplicaciones en interfaces hombremquina a travs del reconocimiento automtico de rostros y en seguridad. Por ejemplo, en aplicaciones
mdicas, el estudio de anomalas faciales en nios se realiza comparando sus medidas con datos promedio
obtenidos dentro de la poblacin a la cual pertenece el sujeto. Las medidas de esta poblacin deben mostrar
unos intervalos de normalidad que permitan ubicar las medidas faciales del paciente dentro de un rango,
estableciendo la existencia de alteracin o no dentro de ella [5].
La determinacin de las medidas faciales, hecha de manera manual, es una tarea que toma mucho tiempo y
en muchos casos es imprecisa, debido a la valoracin subjetiva de quien realiza las medidas. En bsqueda
de mejorar la eficiencia y precisin del proceso de obtencin de dichas medidas, desde inicios de los aos
80 se ha venido sistematizando este proceso bajo el nombre de fotogrametra del rostro [6, 7]. Sin embargo,
estos trabajos se han basado tradicionalmente en medidas bidimensionales, lo que conlleva a la introduccin
de un error debido a la forma tridimensional del rostro. Lo anterior, junto con la evolucin de los sistemas de
adquisicin de imgenes tridimensionales [8], que ya han alcanzado un alto grado de precisin, permite que
en la actualidad se puedan realizar anlisis de imgenes faciales utilizando este tipo de tecnologa [9]. No
obstante, la gran mayora de los trabajos actuales de anlisis facial utilizando informacin 3D, estn orientados a la identificacin de rostros [13, 10], esto debido, posiblemente, al importante nmero de aplicaciones
comerciales y de seguridad, dejando un vaco en aplicaciones de antropometra para ciruga reconstructiva
facial [11, 12].
Por lo anterior, en este trabajo se presenta una propuesta metodolgica, para lo que podra ser un sistema
mdico de antropometra facial utilizando imgenes tridimensionales, reconstruidas a partir de mltiples
vistas 2D. Las imgenes tridimensionales suministran informacin que puede permitir determinar de manera precisa la morfologa facial, facilitando la planificacin de un tratamiento y la definicin de cambios, a
medida que las estructuras anatmicas (seas y tejidos blandos) del paciente se desarrollan o el tratamiento
evoluciona. Adicionalmente, estas imgenes son tan fciles de capturar como las imgenes de fotogrametra.
Este tipo de sistemas adems permiten la evaluacin de un mayor nmero de imgenes en un menor tiempo,
y reducen de manera significativa las variaciones indeseadas que se presentan en la evaluacin del experto,
al tener criterios de medida claramente definidos y automatizados.
Este trabajo se centra en la medicin automtica de algunas caracteristicas de la boca. Pero siguiendo una
metodologa similar el sistema se puede ampliar para que realice un anlisis antropomtrico facial completo.
El sistema de adquisicin propuesto es un sistema estreo activo, que combina dos cmaras CCD y una fuente de luz estructurada. Las imgenes adquiridas por las cmaras CCD son imgenes bidimensionales y, sobre
Introduccin
ellas se realiza todo el procesamiento para extraer las caractersiticas faciales de inters. Poste-riormente,
utilizando una tcnica de reconstruccin a partir de dos vistas, estos puntos caractersticos son llevados al
espacio tridimensional, donde se realizan las medidas antropomtricas.
Este documento est compuesto, adems de esta introduccin y de las conclusiones generales, por cinco
captulos as: Captulo 1: Antropometra Mdica Facial, Captulo 2: Calibracin de Cmara, Captulo 3:
Extraccin de Caractersticas Faciales, Captulo 4: Geometra de Dos Vistas y, Captulo 5: Resultados. A
continuacin se describe brevemente cada uno de estos Captulos.
En el Captulo 1 se presentan algunos conceptos bsicos de la antropometra mdica facial. Se enuncian
los diferentes puntos caractersticos del rostro, los cuales son utilizados para realizar las diferentes medidas
antropomtricas faciales. Es de anotar que en la literatura se han descrito ms de 159 medidas. Tambin
se enumeran las medidas bsicas para las seis regiones del complejo craneofacial, como son: cabeza, cara, ojos, nariz, labios y boca, y orejas. Posteriormente se presentan las tcnicas utililizadas para realizar
el estudio antropomtrico facial. La tcnica directa o manual, que es tal vez la tcnica ms utilizada en
la actualidad, es sin embargo una tarea que implica mucho tiempo de trabajo e imprecisin generada por
la valoracin subjetiva de la persona que realiza las medidas. Luego es introducida la tcnica de fotogrametra, como una tcnica que busca mayor eficiencia y precisin en el proceso de adquisicin de dichas
medidas. Esta tcnica utiliza fotografas o imgenes bidimensionales del sujeto. Sin embargo, y aunque se
hacen algunas correcciones, tiene el problema de que las medidas son tomadas de las proyecciones de los
puntos caractersticos en el plano de imagen, perdiendo la informacin tridimensional del rostro. La ltima
tcnica presentada es la realizada con imgenes tridimensionales. Ms que una tecnologa consolidada, ella
est en pleno desarrollo, como se deduce por la revisin bibliogrfica que se realiza. El captulo termina definiendo las caractersticas sobre las que se concentra este trabajo, que estn enfocadas a la regin de la boca.
En el Captulo 2 se introduce lo relacionado con el proceso de calibracin de cmara. La informacin tridimensional utilizada en este trabajo, para realizar las medidas de antropometra facial, es obtenida mediante
el uso de sistema activo compuesto por dos cmaras CCD (dos vistas), y un patrn de luz proyectada. Como
la antropometra requiere medidas de buena calidad, una etapa de calibracin del sistema es necesaria para
garantizar la calidad de las medidas 3D. Despus de definir la geometra o el modelo de cmara utilizado,
se introducen algunos de los algoritmos de calibracin comnmente utilizados. Finalmente, se muestra la
evaluacin de la calibracin del sistema empleando los diferentes mtodos y se selecciona el mtodo The
Gold Standard con correccin radial de lo lentes, por ser el que arroja menor error en las medidas.
Se expone en el Captulo 3 todo lo relacionado con el proceso de extraccin de caractersticas faciales. La
metodologa utilizada inicia con la deteccin del rostro en la imagen, seguida por la deteccin de los ojos
y de la boca. Esta ltima es la regin de inters, donde se hace una bsqueda refinada de las caractersticas
seleccionadas para este trabajo. La deteccin del rostro en la imagen es fundamental ya que al permitir aislarlo del resto de la imagen, disminuye el costo computacional y aumenta el desempeo de los algoritmos
posteriores. Por lo tanto, se presentan algunas tcnicas para la deteccin de la posicin exacta del rostro en la
imagen. Si bien el trabajo est orientado a la extraccin de caractersticas de la boca, se presenta un apartado
sobre la deteccin de los ojos, ya que la ubicacin de ellos se utiliza para la deteccin de la boca, tambin
como una posible extensin del trabajo a otras medidas antropomtricas. Se utilizan tcnicas basadas en
imagen-pxel, las cuales presentan un buen desempeo en la deteccin y extraccin de caractersticas de la
boca, cuando se tienen condiciones de iluminacin controladas, como fue el caso de este trabajo. Posteriormente, se presentan los algoritmos implementados para la deteccin de la boca, extraccin de los vrtices
(comisuras de los labios) y extraccin y aproximacin del contorno exterior de los labios, superior e inferior,
2
Introduccin
separadamente. El Captulo concluye con la evaluacin del desempeo de los algortimos implementados,
que fueron evaluados sobre una base de datos de imgenes faciales, recogida para un estudio antropomtrico
dirigido a la poblacin infantil de la ciudad de Manizales.
Hasta aqu, la informacin que se ha procesado es sobre imgenes bidimensionales, pero como se busca
hacer un anlisis antropomtrico tridimensional, en el Captulo 4 se presenta el sistema estreo activo (combinacin entre dos cmaras CCD: estreo, y una fuente de luz estructurada: lnea de barrido), que permite
obtener la imagen tridimensional, a partir de dos vistas 2D. El captulo inicia presentando los fundamentos
matemticos de la geometra de dos vistas y el modelo de cmara. Posteriormente, se discute el sistema
de adquisicin y, en particular, los algoritmos que se requieren para obtener las imgenes 3D. Ellos son:
calibracin de las cmaras, procesamiento de las imgenes, estimacin de las correspondencias entre las dos
vistas (imgenes) y reconstruccin de la imagen 3D. El captulo concluye presentando algunos resultados
de reconstruccin de imgenes u obtencin de imgenes 3D.
Los resultados globales de trabajo se presentan en el Captulo 5. All se muestra que la antropometra facial
con imgenes tridimensionales arroja resultados prometedores como metodologa con baja dispersin para
realizar este tipo de medidas antropomtricas.
Introduccin
Captulo 1
1.1.
Antropometra Facial
Antropometra facial es la medida de la superficie de la cabeza y de la cara. Originada durante el renacimiento y definidos sus mtodos por las reglas de expresin del neoclasicismo, expresa la calidad de las
relaciones entre varias partes del cuerpo humano [16]. La introduccin de medidas individuales de la cabeza
y de la cara, desarrolladas principalmente para la medida del crneo, data de la segunda mitad del siglo
XIX. La antropometra experiment un renacimiento hace 3 dcadas, cuando los mdicos comenzaron a
usar las medidas de la superficie de pacientes con deformidades craneofaciales congnitas o adquiridas [17].
Gra-dualmente, gan reconocimiento como un mtodo objetivo para determinar cambios en la morfologa
de los tejidos blandos de la cara, permitiendo el establecimiento de los rasgos caractersticos del ser humano
de acuerdo a su raza y sexo, y las diferentes anomalas faciales dentro de una poblacin determinada [7].
La evaluacin antropomtrica facial est basada en la determinacin de locaciones particulares del sujeto,
para el caso ms concreto, los puntos caractersticos del rostro, definidos en trminos de las caractersticas
visibles o palpables del complejo facial. Un conjunto de medidas entre dichos puntos es obtenido empleando
5
1.1.1.
La anatoma del crneo incluye puntos externos e internos, que describen de manera general su estructura.
La cefalometra del rostro est conformada por planos y puntos caractersticos, estos ltimos clasificados de
acuerdo a su naturaleza de blandos o duros.
Vista frontal del rostro.
Visto de frente, el rostro humano posee puntos caractersticos distribuidos a lo largo de las 6 regiones del
complejo facial, las cuales permiten establecer las diferentes medidas para el estudio antropomtrico. Algunos de los puntos caractersticos faciales de acuerdo a la vista frontal se pueden observar en la Figura 1.1,
y se listan a continuacin [7]: Eurin (eu), Cigin (zy), Nasin (n), Gnatin (gn), Subnasal (sn), Alar (al),
Queilin (ch), Estomin (sto), Endocanto (en), Exocanto (ex), Labiale Superius (ls) y Labiale Inferius (li).
Figura 1.1: Puntos caractersticos del complejo facial para una vista frontal.
1.1.2.
Medidas de superficie
En las seis regiones del complejo facial (cabeza, cara, ojos, nariz, labios y boca, y orejas), se han descrito
150 medidas lineales y angulares [18], y 155 ndices de proporcin [19]. El ndice de proporcin indica la
relacin entre dos medidas o ms. Las medidas bsicas de cada regin ayudan a determinar las proporciones
generales de una regin en particular (Tabla 1.1).
Para el establecimiento de las medidas faciales se tienen las lneas de referencia vertical y las lneas de
referencia horizontal, algunas de las cuales pueden ser observadas en la Tablas 1.2 y 1.3.
6
Tabla 1.1: Medidas bsicas propuestas en seis regiones del complejo craneofacial.
1.2.
1.2.1.
Antropometra directa
Instrumentos antropomtricos.
Las medidas antropomtricas pueden ser obtenidas utilizando instrumentos como los presentados en la Figura 1.3, ellos son: Sliding caliper, Spreading caliper, Coordinate Caliper (Paralelmetro) y Attachable
Goniometer. Para realizar las medidas, ciertas precauciones deben ser tenidas en cuenta, por ejemplo, la
cabeza a ser medida debe conservarse en el plano horizontal Frankfurt (HF) [20]. Los puntos de medida
deben ser marcados antes de ser medidos.
7
Tabla I
Figura 1.3: Sliding Caliper, Spreading Caliper, Coordinated Caliper, y Attachable Goniometer.
1.2.2.
Fotogrametra 2D
Esta tcnica se basa en la realizacin de las medidas a partir de las imgenes o fotografas bidimensionales
(2D) de los pacientes. En ciruga plstica reconstructiva, la documentacin fotogrfica es tan importante
como los datos cuantitativos obtenidos de las medidas del esqueleto o de los tejidos blandos del complejo
craneofacial [7]. Con estas tcnicas de fotografa, las siguientes medidas han cobrado importancia:
Angulos. Seis ngulos del perfil facial pueden medirse con fiabilidad si las fotografas proporcionan contornos claros de las lneas de perfil facial.
Inclinaciones. Las medidas pueden tomarse de la frente, cara superior, cara inferior, mandbula y lnea de
perfil general de la cara.
Algunas distancias de proyeccin lineal se pueden obtener de la siguiente forma:
1. Cara: Vista frontal, altura de la cara superior (n-sto).
2. Ojos: Vista frontal, anchura intercantal (en-en); vista lateral, altura de la fisura palpebral (ps-pi) y
altura ojo-ceja combinada (or-sci).
3. Nariz: Vista frontal, altura nasal (n-sn); vista lateral, longitud de la columnella (sn-c).
8
Distancia Interpupilar (DIP): Distancia entre los centros de ambas pupilas con los ojos mirando directamente hacia adelante.
4. Boca y Labios: Vista frontal, anchura bucal (ch-ch), anchura del filtro (cph-cph), altura vertical lateral
derecha e izquierda del labio superior (sbal-ls); vista lateral, altura del labio superior (sn-sto) y altura
del bermelln inferior (sto-li) [6].
1.2.3.
Durante los ltimos aos, el uso de imgenes tridimensionales en aplicaciones relativas con el rostro humano
se ha incrementado, especialmente por la disponibilidad de estas tecnologas despus de ms de 20 aos de
investigacin [8]. Sin embargo, el mayor nmero de estos trabajos se ha orientado a la identificacin de
rostros [13], posiblemente por el gran nmero de aplicaciones comerciales y en seguridad. A continuacin,
presentaremos una revisin bibliogrfica de los trabajos que estn relacionados, de una u otra forma, con la
antropometra facial mediante el uso de datos 3D.
En [11] se evalu el potencial de los sensores 3D con luz estructurada para la realizacin de medidas de la
geometra del rostro humano. El objetivo era crear modelos virtuales del rostro humano, a partir de datos 3D
obtenidos al numerizar el rostro de los sujetos, y caracterizar la precisin de tales medidas. Se concluy que
la calidad de los datos 3D es suficiente para la realizacin de medidas con propsitos antropomtricos. Sin
embargo, las medidas que se realizaron estaban orientadas hacia la geometra del rostro. Adicionalmente,
los puntos en los datos 3D utilizados para las medidas, se seccionaban manualmente y no de forma automtica. Otro trabajo cuyo objetivo fue el estudio de la precisin de los captores 3D, que utilizan tecnologa
laser, para aplicaciones en antropometra, es el presentado en [12]. Este trabajo tambin concluy que esta
tecnologa tiene un alto potencial para el desarrollo de aplicaciones en antropometra facial.
9
Tal vez el nico trabajo, a nuestro conocimiento, directamente relacionado con la antropometra facial, es
el presentado por Ghoddousi et al [9]. El objetivo del trabajo fue comparar tres mtodos diferentes de realizar medidas faciales: antropometra manual, fotogrametra 2D y estereofotogrametra 3D. Los resultados
obtenidos con el mtodo utilizando estereofotogrametra, mostraron ser comparables con los obtenidos por
el mtodo de antropometra manual. Esto no sucedi con el mtodo de fotogrametra 2D, que arroj medidas ms alejadas. En este trabajo, se pusieron marcas en los rostros de los sujetos numerizados, para poder
obtener las medidas por el tercer mtodo. El sistema para las medidas tridimensionales utiliz dos conjuntos
de tres camaras CCD sincronizadas, para la captura de la imagen. Sin embargo, como ya se mencion, los
sistemas que utilizan luz estructurada o tecnologa laser, para obtener la informacin 3D, pueden arrojar resultados ms precisos que los obtenidos en este trabajo, que obtiene la informacin 3D a partir de mltiples
imgenes 2D.
En [21] se presenta un estudio que examina y compara las superficies faciales de nios con y sin labio y/o
paladar endido. Las superficies son obtenidas mediante un sistema de adquisicin que utiliza tecnologa
laser. Las medidas utilizadas para la comparacin se obtienen seleccionando, manualmente, puntos sobre
las superficies digitales. En el trabajo presentado en [22], se propone un algoritmo que, si bien es utilizado
para el reconocimiento de rostros, hace un anlisis interesante de ciertas medidas alrededor de la nariz y
los ojos. Los puntos utilizados para estas medidas son obtenidos automticamente, a partir de los datos 3D.
Un trabajo que hace un anlisis biomtrico de las orejas es presentado en [23, 24], pero las medidas son
utilizadas para identificacin de rostros y no para anlisis antropomtrico. La obtencin de las medidas es
realizado de manera automtica, utilizando la forma 3D de las orejas.
1.3.
Siendo el objetivo de este trabajo hacer una propuesta metodolgica para realizar un anlisis antropomtrico
facial, utilizando imgenes tridimensionales, nos concentraremos en el estudio antropomtrico de la regin
de la boca. Es importante anotar que se ha seleccionado esta regin del rostro, por la importancia e impacto
social que tiene la reconstruccin quirrgica de los labios y su posterior control, en nios con labio y/o
paladar hendido corregido.
En la reconstruccin quirrgica de los labios, uno de los factores ms importantes para evaluar los resultados de la intervencin, es la esttica [25]. Desafortunadamente, existe un gran nmero de caractersticas que
deben ser consideradas para lograr una evaluacin objetiva [6, 7, 2527]. En este trabajo nos centraremos en
el anlisis del contorno externo de los labios, mediante la obtencin de un conjunto de caractersticas que
son consideradas como buenas descriptoras de la morfologa de la boca (ver la Figura 1.4). Adicionalmente,
consideraremos la caracterstica conocida como concavidad del arco de Cupido. Las medidas sern obtenidas proporcionalmente al ancho de la boca.
Este conjunto de caractersticas est orientado a establecer asimetra en las medidas, debido a la relevancia
de esta asimetra, para establecer la calidad de la reconstruccin quirrgica [28].
10
F tml
Cba
Ls
Vx
Ml
Mh
Li
Caracterstica
Ancho del Philtrum
Arco de Cupido
Contorno del labio superior
Vrtices
Ancho de la boca
Alto de la boca
Controno del labio inferior
11
12
Captulo 2
Calibracin de Cmara
La antropometra facial en este trabajo se desarrolla empleando mltiples imgenes 2D para obtener, mediante el mtodo de triangulacin, la informacin 3D. Por tal razn, la adquisin de imgenes ser bsicamente bidimensional. La adquisicin de imgenes faciales es, dentro del procesamiento digital de la
imagen, una etapa que requiere mucho cuidado, ya que de sus condiciones y resultados depende el costo
computacional y la eficiencia de las etapas subsiguientes, y en particular de una buena extraccin de caractersticas faciales.
La cmara es la herramienta principal para conseguir la informacin 3D en la visin por computador. La
visin basada en los sistemas con cmara deben determinar los parmetros de esta, mediante el proceso de
calibracin. La calibracin de cmara es especialmente crucial para los usos que implican mtricas cuantitativas a partir de una imagen, tales como medidas dimensionales, profundidad, antropometra facial o
movimiento de las mismas. El proceso busca determinar las caractersticas geomtricas y pticas, junto con
la posicin y orientacin en el mundo, para establecer la conexin entre la posicin del pxel de la imagen y
un punto de la escena. Presentaremos a continuacin el modelo de cmara pinhole (Seccin 2.1). Adems,
se estudian dos mtodos de calibracin de cmara a partir de correspondencias R3 R2 y un mtodo
que utiliza propiedades geomtricas (Seccin 2.2). Finalmente, presenta la implementacin y los resultados
(Seccin 2.3).
2.1.
Modelo de Cmara
Una cmara realiza una transformacin R3 hacia R2 , donde un conjunto de puntos en el espacio (x) es
mapeado a un punto en un plano (X). El modelo de cmara ms utilizado para estimar la transformacin
es el modelo pinhole (Figura 2.1). Donde (xw , yw , zw ) es el sistema 3D coordenado del mundo, (x, y, z) es
el sistema 3D coordenado de la cmara, C es el centro de proyeccin llamado centro de cmara o centro
ptico y el plano de la imagen es el plano focal donde la componente de profundidad z es igual a la distancia
focal f . Esta transformacin de espacios R3 R2 est determinada por los parmetros, tanto extrnsecos
como intrnsecos, de la cmara. Los parmetros extrnsecos determinan la transformacin de cuerpo rgido
del espacio coordenado del mundo al espacio de la cmara (Ecuacin 2.1).
x
xw
y = R yw + T
(2.1)
z
zw
donde, R (x , y , z ) es la matriz de rotacin y T (tx , ty , tz ) es el vector de traslacin. La transformacin
desde el sistema 3D coordenado de la cmara (x, y, z) a la imagen (X, Y ), se rige por los parmetros
intrnsecos de la cmara. Una primera aproximacin se presenta con una transformacin de perspectiva,
13
(2.2)
Sin embargo, una cmara CCD sugiere la utilizacin de un modelo ms completo, que rena informacin
de la fabricacin de la cmara y del sensor CCD. De esta forma, la transformacin est determinada por la
Ecuacin 2.3.
x
X
f mx
0
mx px 0
y
Y = 0
f my my py 0
z
1
0
0
1
0
1
(2.3)
donde,
f : es la distancia focal.
mx , my : son el nmero de pxeles por unidad de distancia.
px , py : las coordenadas del punto principal en la imagen.
No obstante, cada mtodo de calibracin presenta su propio acercamiento de los parmetros intrnsecos; por
esta razn, sern tratados ms a fondo en la Seccin 2.2.
14
2.2.
Mtodos de Calibracin
Existen diferentes mtodos para realizar el clculo de los parmetros de la cmara. Las tcnicas ms comunes usan un conjunto de puntos correspondientes entre la imagen y el mundo real, mientras otras utilizan las
propiedades geomtricas de los elementos proyectados en la imagen.
2.2.1.
El mtodo fue presentado por Tsai [29,30], su mayor ventaja es que tiene en cuenta la informacin de la distorsin radial. Sin embargo, la principal desventaja es que utiliza datos propios de manufactura de la cmara
que normalmente no vienen especificados por el fabricante. Estos datos los utiliza para hallar la distancia
focal f , y el factor de incertidumbre de escala sx .
El acercamiento de los parmetros intrnsecos de la cmara y la transformacin desde el sistema 3D coordenado de la cmara (x, y, z) a la imagen (X, Y ), est descrito por la transformacin de perspectiva (Ecuacin 2.2), seguido de la distorsin radial (Ecuacin 2.12, Ecuacin 2.15). Finalmente, tiene en cuenta los
parmetros de fabricacin de la cmara, como lo muestra la Ecuacin 2.4.
X f = sx (Nf x /dx Ncx )X d + Cx
Y f = (1/dy )Y d + Cy
(2.4)
donde,
(Cx , Cy ): son el nmero de filas y columnas del centro de la imagen.
(dx , dy ): es la distancia, de centro a centro, entre elementos adyacentes del sensor en la direccin X
y Y respectivamente.
Nc x: es el nmero de elementos del sensor en la direccin X.
Nf x: es el nmero de pxeles de la imagen en la direccin X.
sx : es el factor de incertidumbre en la escala de la imagen.
2.2.2.
Este algoritmo es una mejora del algoritmo DLT (Trasformacin Lineal Directa), desarrollado por AbdelAziz y Karara [31]. Este mtodo supone que la ptica de la cmara es perfecta y no tiene en cuenta ningn
tipo de la distorsin. Para estimar el modelo de la cmara, slo basta con calcular la matrix P que mapea el
espacio 3D x, a la imagen 2D X (Ecuacin 2.5).
X = Px
La matriz P para una cmara finita est representada por:
h
i h
i
e = M | MC
e
P = K R | T = K R | RC
donde, K es la matriz de calibracin de la cmara,
(Ecuacin 2.7).
0
K=
0
15
(2.5)
(2.6)
s X0
y Y0
0
1
(2.7)
donde,
x y y : es el factor de escala en la direccin de la coordenada X y Y respectivamente.
s: es el skew, inclinacin del sensor (normalmente 0).
(X0 , Y0 )T : son las coordenadas del punto principal.
Las matrices K y R son halladas a travs de la descomposicin matricial RQ de la matriz M. La descomposicin RQ, encuentra dos matrices, tal que R sea una matriz triangular superior y Q sea un matriz
normalizada. Adems, es posible inferir el centro de cmara C = [Cx , Cy , Cz , Ct ]0 , el cual est dado por:
Cx = det([p2 |p3 |p4 ]) Cy = det([p1 |p3 |p4 ])
Cz = det([p1 |p2 |p4 ]) Ct = det([p1 |p2 |p3 ])
es obtenido a partir de C homogneo como C
= [x/t, y/t, z/t].
C
El clculo de la matriz P (Algoritmo 1), se realiza seleccionando el mayor nmero de puntos correspondientes (mnimo 6), entre la imagen planar y el espacio tridimensional. Por este motivo, y por facilidad de
clculo, se utiliz un patrn de calibracin para establecer dichas correspondencias.
Paso 1 Normalizacin: hallar las matrices de normalizacin T y Q, de cada uno de los n puntos X y x,
respectivamente. Normalizar las coordenadas en cada uno de los espacios de forma independiente y hallar
X y x.
Paso 2 DLT: para cada correspondencia Xi xi , construir la matriz Ai . Construir la matriz A de
(2n 12) a partir de las n matrices Ai . Obtener la descomposicin en valores singulares de A. El vector
singular asociado al menor valor singular, ser la solucin p. La matriz P se determina a partir de p por
filas.
1
T
P
0
xTi
yi XiT
P2
Ai =
=
xTi
0T xi XiT
P3
Paso 3. Minimizacin del error geomtrico: usando la estimacin lineal como punto inicial, se minimiza
2
P
el error geomtrico: d Xi , Pxi , sobre P. Se utiliza un algoritmo iterativo.
i
Matrices de normalizacin.
Para este caso en particular, cabe aclarar quela normalizacin paralas coordenadas espaciales debe ser tal
que: la mayor distancia en el espacio (x) sea 3 y en el plano (X) 2. Esta normalizacin es realizada para
evitar el problema computacional de las matrices dispersas (Algoritmo 2).
16
#
"
1 0 0 xmean
1
0
X
mean
1
1 0 1 0 ymean
0 1 Zmean
T=
Q=
dmax 0 0
dmax 0 0 1 zmean
1
0
2.2.3.
Este mtodo de calibracin utiliza las propiedades geomtricas que presenta una cnica o una cudrica en
el espacio, proyectada sobre la imagen, donde la cnica a estudiar ser una elipse. Un primer acercamiento
lo realiza Tarel [33] y Daucher [34]. Una de las ventajas de este mtodo es que los contornos de las elipses
pueden encontrarse con mayor precisin a comparacin de los puntos correspondientes.
El acercamiento de los parmetros intrnsecos de la cmara y la transformacin desde el sistema 3D coordenado de la cmara (x, y, z) a la imagen (X, Y ), est descrita por las Ecuaciones 2.3 y 2.1.
Caracterizacin de la elipse.
De manera general, toda cnica puede ser representada por una ecuacin implcita, como la mostrada en la
Ecuacin 2.8.
AX 2 + 2BXY + CY 2 + 2DX + 2EY + F = 0
(2.8)
De igual forma, la ecuacin implcita (Ecuacin 2.8) se puede representar de forma matricial (Ecuacin 2.9),
con el fin de tenerla en coordenadas homogneas.
X
A B D
B C E Y = [X]T [C] [X] = 0
1
D E F
X Y
(2.9)
Sobre cada elipse se determina el borde, utilizando alguna tcnica de contorno. Para cada pxel que pertenece
b i (Ecuacin 2.10). Por ltimo, se
b = TX ) y se genera el vector A
al borde, se normaliza con una matriz T (X
b
b
soluciona la matriz A, compuesta por vectores Ai , utilizando descomposicin de valores singulares (SVD).
b2 X
bi Ybi Yb 2 X
bi Ybi
X
i
i
b
A
b
B
b
C
b
D
b
E
Fb
= Ai [X] = 0
(2.10)
Al utilizar la solucin por SVD, se asegura la mejor elipse que minimiza el error cuadrtico medio. A
continuacin, se desnomarliza la solucin, utilizando la Ecuacin 2.11.
17
b B
b D
b
A
A B D
B C E = |T|T
b C
b E
b
B
|T|
b
b
b
D E F
D E F
(2.11)
PCPT = Qco
2.2.4.
El modelo presentado en la Seccin 2.1, supone que la ptica de los lentes de la cmara es perfecta. Sin
embargo, en general los lentes presentan defectos de dos tipos: cromticos y geomtricos [35]. Los defectos
geomtricos describen la divergencia entre las posiciones observadas e ideales de la imagen de un punto del
espacio y estn representados por la Ecuacin 2.12.
X d = X + X (X, Y )
Y d = Y + Y (X, Y )
(2.12)
donde,
X d , Y d : son las coordenadas correspondientes actuales, con distorsin.
X , Y : son las coordenadas ideales.
(X, Y ): es la funcin de distorsin.
En general se consideran tres tipos de distorsiones geomtricas [36]. Estas distorsiones son representadas
por series numricas, las cuales deben ser acotadas para su posible implementacin y estabilidad. La primera
distorsin es el descentrado de los lentes con relacin al eje principal, descrita por la Ecuacin 2.13.
18
1
0
0
xi
0
1
0
yi
Qi = |R|
0
0
0
zi
xi yi zi x2i + yi2 + zi2 r2
T
R
A B D
Ci = B C E
D E F
Paso 3. Calcule P tal que:
mn PCi PT Qi
Fin Para
h
i
Xd = p1 3X 2 + Y 2 + 2p2 XY + O (X, Y )4
h
i
Y d = 2p1 XY + p2 X 2 + 3Y 2 + O (X, Y )4
(2.13)
La distorsin provocada por pequeas desviaciones entre el paralelismo de los lentes, producida en la manufacturacin de la cmara, se debe tener en cuenta. Este tipo de distorsin se puede modelar adecuadamente
por la adicin de un prisma fino al sistema ptico, causando cantidades adicionales de distorsiones radiales
y tangenciales, descritas por la Ecuacin 2.14.
h
i
Xp = s1 X 2 + Y 2 + O (X, Y )4
h
i
(2.14)
Y p = s2 X 2 + Y 2 + O (X, Y )4
El tercer tipo de distorsin, es la distorsin radial (Ecuacin 2.15), causada por la propiedades pticas de
los lentes. Este tipo de distorsin es, generalmente, ms importante que las distorsiones anteriores y ms
significativa en cuanto a magnitud.
h
i
Xr = k1 X X 2 + Y 2 + O (X, Y )5
h
i
(2.15)
Y r = k2 Y X 2 + Y 2 + O (X, Y )5
2.2.5.
Aunque este mtodo no tiene en cuenta la distorsin radial de los lentes, como el mtodo de Tsai (Seccin
2.2.1), en este trabajo se presenta una etapa adicional para la correccin de dicha distorsin al inicio del
algoritmo ya presentado. La correccin se realiza sobre cada uno de los puntos de la imagen, con una
valor de determinado, utilizando el Algoritmo 4, el cual se presenta a continuacin. Adems, es necesario
19
conocer el tamao del sensor y la resolucin de la imagen a corregir, para realizar la transformacin de
coordenadas de la imagen al sensor y visceversa.
Algoritmo 4 Correccin radial.
Requiere: Nube de puntos Xd , Yd y Coeficiente de Distorsin .
Salida: Nube de puntos Xu , Yu .
Hacer D = sqrt(D), S = 3 R + D , T = 3 R D , Rd = S + T
Si Rd < 0 Entonces
Este punto est fuera del sensor
Fin Si
Si no
{Seleccin de la Raz positiva
ms pequea}
2.3.
Resultados
El patrn de calibracin (Figura 2.3) consiste en dos lminas unidas formando un ngulo de 90 entre ellas.
El fondo de la lmina es de color blanco para lograr un alto contraste entre las figuras y el fondo. El Patrn 1
(Figura 2.3(a)), contiene una serie de cuadrados negros de 2 2 cm, separados entre ellos 2cm. El Patrn 2
(Figura 2.3(b)), contiene una serie de crculos negros de dimetro 3cm, separados 4cm entre centro y centro.
El Patrn 1 se utiliz para el mtodo Tsai y The Gold Standard, mientras que el Patrn 2 se utiliz para el
mtodo basado en elipses.
Las cmaras CCD a calibrar son: Canon EOS Digital Rebel EF-S 18-55 cuyas caractersticas se observan en
la Tabla 2.1 y la cmara Web Genius VideoCam Messenger cuyas caractersticas se observan en la Tabla 2.2.
Las imgenes fueron adquiridas con la mayor resolucin disponible, en formato RAW y un nivel de calidad
muy fino para la cmara Canon, y para la cmara Genius en formato JPEG nivel de calidad estndar.
20
2.3.1.
Utilizando las caractersticas de la cmara descritas por el fabricante en la Tabla 2.1 y las condiciones de
adquisicin, se analiz el algoritmo de Tsai. Se utilizaron un total de 480 correspondencias entre el mundo
y la imagen, dando como resultado de la calibracin, los parmetros presentados en la Tabla 2.3.
El mtodo de Tsai puede ser mejorado utilizando una rutina de optimizacin. Para este algoritmo se utiliz
la librera MINPACK, la cual presenta una optimizacin por Levenberg-Marquardt. Los resultados de este
mtodo optimizado se observan en la Tabla 2.4.
Resolucin Mxima
Nmero de foto-detectores (sensor)
Pxeles efectivos (sensor)
Tamao del sensor
Formatos
Niveles de Calidad
3072 2048
8.0 millones
6.3 millones
00
2/3 (8,8 6,6mm)
RAW y JPEG (Con Compresin)
Normal - Muy Fino
Tabla 2.1: Caractersticas de la cmara Canon EOS Digital Rebel EF-S 18-55.
Resolucin Mxima
Nmero de foto-detectores (sensor)
Pxeles efectivos (sensor)
Tamao del sensor
Formatos
Niveles de Calidad
640 480
1.3 millones
1.0 millones
2/300 (8,8 6,6mm)
JPEG
Estndar
CARACTERSTICAS DE LA CMARA
PARMETROS EXTRNSICOS
Matriz de Rotacin (R)
0,999571 0,029217
0,002231
0,028906 0,995665 0,088401
0,004804 0,088299 0,996082
Traslacin (T [mm])
174,934196
0,275234
1,656420
7,935002
78,58245
915,6349
PARMETROS INTRNSECOS
f = 9,918876[mm]
Cx = 1280[pix]
1 = 1,968921e 03[1/mm2 ] Cy = 960[pix]
sx == 0,994869
Tabla 2.3: Resultados con el Mtodo Tsai.
CARACTERSTICAS DE LA CMARA
PARMETROS EXTRNSICOS
Matriz de Rotacin (R)
0,999558
0,028042 0,009846
0,028799 0,995730 0,087705
0,007345 0,087950 0,996098
Traslacin (T [mm])
4,276470
79,575691
928,092130
PARMETROS INTRNSECOS
f = 10,057403[mm]
Cx = 1240,939773[pix]
1 = 1,688628e 03[1/mm2 ] Cy = 956,550074[pix]
sx = 0,995972
Tabla 2.4: Resultados con el mtodo Tsai + Optimizacin.
2.3.2.
Como el mtodo presenta en gran parte operaciones matriciales, se utiliz la librera de matrices TNT Template Numerical Toolkit, la cual cuenta con operaciones y descomposiciones matriciales necesarias en el
algoritmo. Se utilizaron un total de 480 correspondencias entre el mundo y la imagen para el anlisis de este
mtodo. Dando como resultado de calibracin los parmetros presentados en la Tabla 2.5.
CARACTERSTICAS DE LA CMARA
PARMETROS EXTRNSICOS
Matriz de Rotacin (R)
0,999552 0,028673
0,008546
0,029285 0,996101 0,083212
0,0061267 0,083425 0,996495
168,4200
0,0177967
0,372249
Traslacin (T [mm])
2,890970
83,33699
1015,156
PARMETROS INTRNSECOS
x = 3216,894804 x0 = 1245,27061[pix]
y = 3221,684971 y0 = 945,00309[pix]
sx = 0,998513
Tabla 2.5: Resultados con el Mtodo The Gold Standard.
22
CARACTERSTICAS DE LA CMARA
PARMETROS EXTRNSICOS
Matriz de Rotacin (R)
0,999564 0,028848
0,006229
0,029304 0,995189 0,093487
0,003502 0,09362 0,995601
167,3324
0,0191509
0,788066
Traslacin (T [mm])
0,173044
73,85577
948,5940
PARMETROS INTRNSECOS
x = 2983,766180 x0 = 1254,0939[pix]
y = 2995,915592 y0 = 974,7558[pix]
sx = 0,995944
Tabla 2.6: Resultados con el Mtodo The Gold Standard + Correccin Distorsin Radial.
2.3.3.
Para el anlisis de este mtodo se utilizaron un total de 120 elipses. Para estimar las cnicas en el espacio,
se us una matriz de rotacin sobre el eje y a travs del plano xz, con un ngulo de rotacin de 45, sentido horario. Finalmente, los parmetros de calibracin de la cmara encontrados utilizando este mtodo se
muestran en la Tabla 2.7.
2.3.4.
Mtricas de desempeo
Las mtricas utilizadas son los momentos estadsticos de orden 1 y 2, de la distancia eucldea de los puntos
reales y los puntos proyectados con la matriz de cmara calculada:
23
CARACTERSTICAS DE LA CMARA
PARMETROS EXTRNSICOS
Matriz de Rotacin (R)
167,3348
0,017780
0,372249
Traslacin (T [mm])
1,287604
109,2021
951,1916
PARMETROS INTRNSECOS
x = 3219,718561 Cx = 1246,319086[pix]
y = 3008,178938 Cy = 945,458778[pix]
sx = 1,0703214
Tabla 2.7: Resultados con el Mtodo de Calibracin Basado en Elipses.
MD =
d Xi , P xi
2
(2.16)
Los resultados obtenidos con cada uno de los mtodos se presentan el la Tabla 2.8. Para esta cmara los
mejores resultados se presentaron con el mtodo de calibracin The Gold Standard, con correccin radial,
seguido del mtodo de Tsai con optimizacin.
MTRICA
ErrorImagen [pix]
ErrorImagen [pix]
M AXErrorImagen [pix]
El mejor resultado se presenta con el mtodo The Gold Standard, utilizando correccin radial de lo lentes,
con una distancia de error promedio de 1,785467.
En la Tabla 2.8, no se hace la comparacin del mtodo basado en elipses, por que la medida a minimizar
en este mtodo fue la proyeccin de la cnica en el espacio y no la distancia en pxeles utilizados por los
otros mtodos. Sin embargo, las medidas del error relativo obtenidas son: = 0,0043198, = 0,0062997,
M AX = 0,047329.
24
Captulo 3
3.1.
Deteccin facial
La deteccin del rostro es una de las tareas fundamentales en el procesamiento de imgenes faciales, puesto
que permite aislarlo, en una imagen compuesta, disminuyendo el costo computacional en la extraccin de
las diferentes caractersticas, posibilitando una mayor eficiencia en los diferentes procesos de clasificacin,
reconocimiento y dems aplicaciones de la interaccin hombre-mquina.
La deteccin de la posicin exacta del rostro en una imagen observada, o en una secuencia de imgenes, ha
sido abordada de tres maneras [4]:
25
Aproximacin de clases: la deteccin facial se toma como un problema de clasificacin de dos clases
(Existencia del rostro vs. No existencia del rostro), en una escena compuesta.
Aproximacin holstica: el rostro es determinado como una unidad completa.
Aproximacin analtica: se detectan algunas caractersticas faciales importantes (el iris, las ventanas
de la nariz, etc.). La localizacin de dichas caractersticas determina la localizacin del rostro completo.
3.1.1.
Aproximacin de clases
Asumiendo una cantidad escalar observada, una decisin debe tomarse dentro de dos hiptesis: H0 y H1 .
Por ejemplo, la hiptesis H0 podra ser No existe un rostro en la imagen, la hiptesis H1 sera entonces Si
existe un rostro en la imagen. Dado que el ruido y otros factores influencian la observacin, esta es asumida
como una variable aleatoria X. X puede ser caracterizada por su funcin de densidad de probabilidad dada
por la Ecuacin 3.1, donde k = 0, 1. Un valor x0 es definido de tal manera que la hiptesis H0 es aceptada
si X < x0 , y H1 es aceptada si X > x0 . La probabilidad Q10 de escoger la hiptesis H1 cuando H0 es
cierta (deteccin falsa), corresponde a la Ecuacin 3.2. Similarmente, la probabilidad Q01 de escoger H0
cuando H1 es cierta (fallo), est dada por la Ecuacin 3.3 [37].
Q10 =
(3.1)
p0 (x) dx
(3.2)
p1 (x) dx
(3.3)
x0
Q01 =
Zx0
3.1.2.
Esta es una aproximacin holstica y analtica. Se emplea esta tcnica debido a que las imgenes adquiridas
son en color y poseen algunas variaciones en las condiciones de iluminacin, derivadas de los dispositivos
de adquisicin. Se aplica el algoritmo propuesto en [38], el cual permite encontrar regiones de piel sobre
toda la imagen y construir la frontera del rostro, para as establecer los candidatos faciales.
El algoritmo primero estima y corrige el color basado en una tcnica de compensacin de iluminacin. Las
componentes corregidas de rojo, azul y verde son transformadas de manera no lineal al espacio de color
Y Cb Cr . Los pxeles de tono de piel son detectados usando un modelo de piel elptico en el espacio transformado. La elipse paramtrica corresponde a los contornos de la distancia constante de Mahalanobis, bajo
la presuncin de un color de tono de piel con distribucin Gaussiana. Los pxeles de tono de piel detectados
son iterativamente segmentados, usando varianza de color local sobre los componentes conectados, estos
son luego agrupados en rostros candidatos, basados en la disposicin espacial de dichos elementos y en la
similitud del color.
26
Figura 3.1: Compensacin de iluminacin empleando la tcnica blanco de referencia. (a) Imagen sin
compensacin. (b) Imagen con compensacin.
Para este trabajo las imgenes fueron adquiridas en condiciones controladas. Por ejemplo, slo existe un
individuo con su rostro en posicin frontal y un pequeo nivel de rotacin sobre su propio eje; razn por la
cual se realizaron ciertas modificaciones al algoritmo planteado en [38]. Aqu, los pxeles de tono de piel
detectados a travs del modelo elptico de la piel, son segmentados empleando un anlisis de regiones, para
establecer el rea que comprende el rostro. A partir de esta ltima, se establecen las regiones de los ojos y
de la boca.
Compensacin de iluminacin
La apariencia del tono del color de piel depende de las condiciones de iluminacin. Para compensar las diferencias en dichas condiciones, se aplica la compensacin de iluminacin empleando la tcnica de blanco
de referencia, para normalizar la apariencia del color.
El proceso de compensacin inicia con la observacin de los pxeles que poseen valores dentro del 5 % del
mximo valor de luminancia, los cuales son asumidos como el blanco de referencia, si y slo si, el nmero
de pxeles est por encima de un umbral (> 100). Las componentes R, G y B de la imagen de color son
ajustadas de tal manera que, el valor promedio de nivel de gris de dichos pxeles de referencia, sea escalado
linealmente a 255. La Figura 3.1 muestra un ejemplo de esta tcnica de compensacin de iluminacin.
Modelado del color de la piel
Modelar el color de la piel requiere escoger un espacio de color adecuado e identificar un cluster asociado
con su color en este. Se utiliz el espacio de color Y Cb Cr , ya que es un espacio de color perceptualmente
uniforme. El espacio de color Y Cb Cr , es el equivalente digital del espacio de color Y U V , donde Cb es la
componente de crominancia que corresponde con la componente U y la componente Cr es anloga a V .
El formato Y Cb Cr , concentra la mayor parte de la informacin de la imagen en la luminancia y menos en
la crominancia. El resultado es que los elementos de Y Cb Cr , estn menos correlacionados y pueden ser
codificados por separado, y el cluster del color de la piel es lo suficientemente compacto como se muestra
en la Figura 3.2.
Para realizar la transformacin del espacio de color RGB al espacio de color Y Cb Cr , se utilizan las Ecuaciones 3.4 y 3.5. El resultado de esta transformacin se presenta en la Figura 3.3.
(3.4)
Figura 3.2: Color de la piel en el espacio de color Y Cb Cr . Los puntos azules representan el color reproducible en un monitor y los rojos representan las muestras del color de piel.
(3.5)
En la prctica, el color del tono de la piel no es linealmente dependiente de la luminancia. Para evitar la
deteccin de falsos positivos o falsos negativos generados por esta condicin, se transforma de manera no
lineal el espacio de color Y Cb Cr , con el fin de hacer el cluster de la piel independiente de la luminancia.
(x ecx )2 (y ecy )2
+
=1
a2
b2
x
y
cos sin
sin cos
28
Cb0 cx
Cr0 cy
(3.6)
(3.7)
Figura 3.4: Proyeccin en Cb Cr del espacio de color transformado, en el cual el modelo elptico del color
de piel est sobrecargado en su cluster (los puntos rojos indican el cluster de la piel).
3.1.3.
Segmentacin
Figura 3.5: Deteccin facial. (a) Imagen de color. (b) Imagen en el espacio de color Y Cb Cr . (c) Imagen
segmentada en base al modelo elptico. (d) Imagen despus del anlisis de regiones.
Dentro del gran conjunto de caractersticas faciales, los ojos y la boca son fundamentales para el anlisis
antropomtrico. La localizacin de los ojos y la boca, se realiza directamente a partir de sus caractersticas
de color, de las cuales se derivan las componentes de luminancia y crominancia de la imagen. Slo se considera el rea cubierta por la cara, es decir, se descartan todas aquellas regiones de la imagen que poseen
informacin no relevante, como por ejemplo la ropa.
3.2.
Se construyen dos mapas de los ojos separados, uno a partir de la componente de crominancia, y el otro a
partir de la componente de luminancia, los cuales son finalmente combinados en un nico mapa. El mapa
29
basado en la crominancia, trabaja considerando que alrededor de los ojos se encuentran valores de Cb altos
y de Cr bajos, y est establecido por la Ecuacin 3.8.
EyeM apC =
1
3
2
Cb2 + Cr + (Cb /Cr )
(3.8)
EyeM apL =
Y (x, y) g (x, y)
Y (x, y) g (x, y) + 1
(3.9)
El mapa de crominancia es combinado con el mapa de luminancia mediante una operacin de multiplicacin
(AND), de acuerdo con la expresin 3.10. El mapa de ojos resultante es normalizado, dilatado y segmentado
para resaltar ambos ojos y eliminar otras reas faciales.
(3.10)
La normalizacin del mapa de ojos es altamente dependiente del color de la piel, por lo cual, se emplea
la imagen de la regin facial (modelo elptico) a travs del anlisis de conectividad, para establecer el rea
que contiene los ojos. Un rostro detectado en la imagen, con las regiones de los ojos identificadas, se puede
observar en la Figura 3.6.
3.3.
Puesto que las imgenes con las que se trabaja fueron adquiridas bajo condiciones controladas, para la
deteccin y extraccin de caractersticas de la boca, se utilizan tcnicas basadas en imagen-pxel, las cuales
presentan un desempeo adecuado cuando la calidad de las imgenes es buena. Dentro de estas tcnicas se
pueden destacar: el filtrado del tono [41], escala de grises [42] y bordes horizontales [43], entre otras.
30
3.3.1.
Esta tcnica se aplica en imgenes a color, las cuales son transformadas al espacio HSV (tono, saturacin y
valor) [41]. Se realiza una pequea variacin en la transformacin: la componente tonal se rota 120 grados
con el fin de desplazar los tonos rojos hacia la derecha y obtener una distribucin tonal que comienza en
azul y termina en azul (Figura 3.7(b)), en lugar de la habitual que comienza en rojo y termina en rojo
(Figura 3.7(a)).
(a) Normal.
(b) Modificada.
|h h0 | w
w2
f (h) =
(3.11)
0
en otro caso
donde h representa el valor del tono de cada pxel y w controla la distancia desde h0 hasta donde se quiera
que la respuesta del filtro sea alrededor de cero. La Figura 3.8(b) muestra un ejemplo del filtrado de la
componente de tono, como se observa el tono de los labios se ve claramente resaltado.
3.3.2.
Escala de grises
del centro la boca. Esto se hace sumando todas las filas de la imagen (Figura 3.9(b)) y examinando la fila
donde la suma tenga el menor valor (Figura 3.9(c)). A continuacin, se examinan los valores de dicha fila y
de las filas cercanas a esta. Haciendo un barrido de izquierda a derecha, se pueden descubrir las esquinas de
los labios mediante la umbralizacin de la imagen. El umbral de trabajo se defini promediando el mximo
y el mnimo de la fila cuya suma es mnima.
3.3.3.
Bordes horizontales
Este mtodo parte de la idea de que el rea de la boca posee un alto contenido de bordes, especialmente
bordes horizontales. Para su deteccin, se convoluciona la imagen en escala de grises (Figura 3.9(a)) con
una mscara de n n (por lo general n toma el valor de 3 o 5 ) [43], la cual representa un filtro pasa-alto.
La imagen resultante (Figura 3.10(a)) se binariza (Figura 3.10(b)). Para la deteccin de las esquinas de los
labios, se utiliza un mtodo de bsqueda similar al descrito anteriormente.
3.3.4.
Ajuste de curvas
Una vez que se ha identificado la regin de la boca, debemos hallar una curva paramtrica que represente
su contorno. Por lo tanto, el trabajo se centra en el problema de obtener, a partir de un conjunto de parejas
(x, f (x)) definida en un cierto intervalo [a, b], el valor de la funcin para cualquier x perteneciente a dicho
intervalo. Supongamos que disponemos de las siguientes parejas de datos:
x x0 x1 x2 xn
y y0 y1 y2 yn
32
el objetivo es encontrar una funcin continua, lo ms sencilla posible, tal que: f (xi ) = yi , 0 i n. Se
dice entonces que la funcin f (x) es una funcin de interpolacin de los datos representados en la tabla.
Existen muchas formas de definir las funciones de interpolacin, lo que da origen a un gran nmero de
mtodos. Sin embargo, aunque definiremos brevemente las funciones mencionadas a continuacin [4548],
por su sencillez, en este trabajo se utilizan las funciones polinmicas.
1. Funciones polinmicas.
2. Curvas de Bzier.
3. Funciones de interpolacin splines.
4. Funciones de interpolacin B-splines.
5. Curvas NURBS.
Funciones polinmicas.
Un polinomio es una expresin que se construye por una o ms variables, usando solamente las operaciones de adicin, sustraccin, multiplicacin y exponentes numricos positivos. Por extensin, las funciones
polinmicas son las funciones que surgen de evaluar los polinomios sobre las variables en las que estn
definidos. Son una clase importante de funciones suaves, esto es: son infinitamente diferenciables (tienen
derivadas de todos los rdenes finitos).
Para a0 , a1 , , an constantes, con an distinto P
de cero, para n > 0, entonces un polinomio de grado n, en
la variable x, es un objeto de la forma: f (x) = ni=o ai xi = a0 x0 + a1 x1 + + an1 xn1 + an xn .
Curvas de Bzier.
La idea de las curvas de Bzier es definir geomtricamente las formas. Esta idea no es demasiado compleja: un punto del plano puede definirse por coordenadas. Por ejemplo, un punto A tiene unas coordenadas
(x1 , y1 ) y a un punto B le corresponde (x2 , y2 ). Para trazar una recta entre ambos basta con conocer su posicin. Si en lugar de unir dos puntos con una recta se unen con una curva, surgen los elementos esenciales
de una curva Bzier: los puntos se denominan nodos.
Dados los puntos P0 y P1 , una curva lineal de Bzier es una lnea recta entre los dos puntos. La curva viene
dada por la expresin: B(t) = P0 + (P1 P0 )t = (1 t)P0 + tP1 , t [0, 1].
Una curva cuadrtica de Bzier es el camino trazado por la funcin B(t), dados los puntos: P0 , P1 , y P2 :
B(t) = (1 t)2 P0 + 2t(1 t)P1 + t2 P2 , t [0, 1].
Cuatro puntos del plano o del espacio tridimensional, P0 , P1 , P2 y P3 definen una curva cbica de Bzier.
La curva comienza en el punto P0 y se dirige hacia P1 y llega a P3 viniendo de la direccin del punto
P2 . Usualmente, no pasar ni por P1 ni por P2 . Estos puntos slo estn ah para proporcionar informacin
direccional. La distancia entre P0 y P1 determina qu longitud tiene la curva cuando se mueve hacia la
direccin de P2 antes de dirigirse hacia P3 . La forma paramtrica de la curva es:
B(t) = P0 (1 t)3 + 3P1 t(1 t)2 + 3P2 t2 (1 t) + P3 t3 , t [0, 1].
33
La curva de Bzier de grado n puede ser generalizada de la siguiente manera: dados los puntos P0 , P1 , ...,
Pn , la curva de Bzier es del tipo:
n
X
n
n
ni i
n
B(t) =
Pi (1 t)
t = P0 (1 t) +
P1 (1 t)n1 t + . . . + Pn tn , t [0, 1].
i
1
i=0
S(x) =
S0 (x) = c0
S1 (x) = c1
..
.
x [t0 , t1 )
x [t1 , t2 )
..
.
Los intervalos [ti1 , ti ) no se intersectan entre s, por lo que no hay ambigedad en la definicin de la
funcin en los nodos. Un spline de grado 1 se puede definir por:
S(x) =
S0 (x) = a0 x + b0
S1 (x) = a1 x + b1
..
.
x [t0 , t1 )
x [t1 , t2 )
..
.
bj,0 (t) :=
bj,n (t) :=
1 si tj t tj+a
0
en otro caso
tj+n+1 t
t tj
bj,n1 (t) +
bj+1,n1 (t).
tj+n tj
tj+n+1 tj+1
Cuando los nodos son equidistantes se dice que el B-spline es equidistante, de lo contrario se llama no
uniforme.
Curvas NURBS.
Acrnimo ingls de la expresin Non Uniform Rational B-Spline. Una curva NURBS es definida por su
orden, un sistema de puntos de control con pesos y un vector del nodos. Una curva NURBS es una generalizacin de las curvas de Bzier y B-splines, la principal diferencia son los pesos y los puntos de control. El
orden define el nmero de puntos de control cercano que influencian un punto de control dado. Los puntos
de control determinan la forma de la curva. El vector de nodos es una secuencia de los valores de parmetro
que determina dnde y cmo los puntos de control afectan la curva. El nmero de nodos es siempre igual al
nmero de los puntos de control, ms el grado de la curva, ms uno. Las curvas NURBS utilizan solamente
una direccin paramtrica, generalmente llamada s o u. Evaluando la curva NURBS en varios valores del
parmetro, la curva puede ser representada en un espacio cartesiano bi-dimensional o tri-dimensional.
La forma general de una curva NURBS es:
S(u) =
Pm
donde wi son los pesos de los puntos de control (Pi ) y Ni,n (u) son las funciones de base, n generalmente
corresponde al grado de la funcin de base.
La definicin de las funciones de base es recursiva en n. Las funciones de grado 0 (Ni,0 ) son funciones
constantes. La funcin Ni,n es calculada como: Ni,n = fi,n Ni,n1 + gi+1,n Ni+1,n1 , fi crece linealmente
de cero a uno, en el intervalo donde Ni,n1 no es cero, mientras gi+1 cae de uno a cero, en el intervalo donde
Ni+1,n1 no es cero. Si u es el parmetro y ki es el i-simo nodo, las funciones f y g son representadas por:
ki+n u
uki
fi,n (u) = ki+n
ki y gi,n (u) = ki+n ki .
3.4.
En esta Seccin presentaremos los algoritmos diseados e implementados, los cuales combinan las tcnicas
descritas precedentemente, para obtener la precisin adecuada.
3.4.1.
Ubicacin de la boca
Con las coordenadas obtenidas en las fases de deteccin facial y deteccin de los ojos, se procede a determinar la regin donde se halla la boca, mediante el procedimiento de deteccin por anlisis de regiones
predominantes (DARP), descrito en el Algoritmo 5.
35
Algoritmo 5 DARP
Requiere: Iin : imagen de anlisis en RGB. f y c corresponden a las dimensiones de la imagen.
ICF : imagen binaria, resultado de la fase de deteccin facial.
Cooreyes : vector con las coordenadas de la caja que contiene los ojos.
Salida: IB : imagen boca.
Paso 1. Restringir la regin de bsqueda a los pxeles blancos de ICF (Figura 3.11(a)).
Paso 2. Obtener Is , eliminando de la imagen del paso anterior los pxeles ubicados por encima de maxY (Cooreyes )
(Figura 3.11(b)).
Paso 3. Erosionar Is , para eliminar alguna influencia del fondo que pudo haber quedado luego de la segmentacin
(Figura 3.11(c)).
Paso 4. Obtener imagen de anlisis Ist (Figura 3.11(d)), como sigue:
Para i = maxY (Cooreyes ) hasta f maxY (Cooreyes ) Haga
Para j = 1 hasta c Haga
Si Is (i, j) == 1 Entonces
C
C
Ist
(i, j) = Iin
(i, j) para C = R, G, B.
Si no
C
Ist
(i, j) = 0.
Fin Si
Fin Para
Fin Para
H
, transformando Ist al espacio de color HSV y filtrar la componente de tono, utilizando la
Paso 5. Obtener Ist
Ecuacin 3.11 (Figura 3.11(e)).
Paso 6. Obtener IBg (Figura 3.11(f)) de la siguiente forma:
Para i = maxY (Cooreyes ) hasta f maxY (Cooreyes ) Haga
Para j = 1 hasta c Haga
H
>= 180 Entonces
Si Ist
IBg (i, j) = 1.
Si no
IBg (i, j) = 0
Fin Si
Fin Para
Fin Para
Paso 7. Mediante anlisis de conectividad, encontrar la regin ms predominante en IBg , que para este caso corresponde a la boca (Figura 3.11(g)).
Paso 8. Con las coordenadas de la caja que encierra la regin obtenida en el paso anterior, extraer IB de Iin .
3.4.2.
Los puntos donde se encuentran la frontera externa superior e inferior de los labios, son llamados vrtices.
La extraccin de estos se realiz utilizando dos procedimientos: el mtodo del gradiente vertical [44] y un
mtodo de reduccin del espacio de bsqueda a partir de la segmentacin [49].
(a) Regin (b) Imagen recorta- (c) Imagen erosio- (d) Regin de bsde bsqueda. da.
nada.
queda en color.
(b) Componente
tono filtrada.
de
Salida: VxL y VxR : vectores con la coordenadas de los vrtices izquierdo y derecho de la boca.
L
Paso 1. Calcular IG , mediante la convolucin de IB
con la matriz Mk (Ecuacin 3.12) (Figura 3.12(a)). La constante
k se utiliza para obtener una imagen de bordes en escala de grises. Se utiliza k = 0,77.
1 1 1 1 1
1 1 1 1 1
0
0
0
0
(3.12)
Mk = k
0
1
1
1
1
1
1
1
1
1
1
x2
P
x=x1
abscisas de los vrtices son definidas como los puntos ms externos donde los valores de la proyeccin cruzan la
mitad del valor de la media.
Paso 4. La coordenanda y de VxL y VxR se determina mediante una bsqueda alrededor de la coordenada x encontrada anteriormente. Se hace un rastreo en una banda vertical que se centra en la abscisa del vrtice. En esta banda
y2
P
se hace la proyeccin vertical V (x) =
IGB (x, y). La coordenada y del vrtice corresponde al centro de la
y=y1
distribucin de la proyeccin.
3.4.3.
Una vez se han encontrado los vrtices, se toman las coordenadas de stos como punto de partida para la
extraccin del contorno exterior de los labios. El siguiente paso, consiste en una segmentacin detallada del
contorno labial. No se utiliza la tcnica de filtrado de tono porque la regin resultante, a pesar de detectar correctamente la boca, no hace una adecuada descripcin del contorno. Para solucionar este problema se utiliza
una forma alternativa de segmentacin llamada realce de rojo y umbralizacin dinmica (RRUD) [51], la
cual es resumida en el Algoritmo 8.
3.4.4.
Con la segmentacin lograda en la etapa anterior, se evidencia la posibilidad de describir de manera precisa
el contorno exterior de los labios. Como una primera aproximacin a dicho contorno, se utilizan contornos
activos (ver la Figura 3.15). El modelo empleado es el presentado por Kass et al [52], donde un contorno
activo es una curva paramtrica v(u, t) = [x(u, t), y(u, t)], u [0, 1], y t determinando la posicin temporal
38
Z1
(3.14)
donde, Eint , Eimage y Eext son llamadas energa interna, energa de la imagen y energa externa, respectivamente.
Con el objeto de reducir el tiempo de cmputo, se utiliz un algoritmo para hallar contornos activos rpidos
por muestreo [53].
39
Algoritmo 8 RRUD
Requiere: IB : imagen de la boca en RGB obtenida con el Algortimo 5 con la rotacin corregida utilizando las
coordenadas de los vrtices. f y c corresponden a las dimensiones de la imagen.
Salida: IBD : imagen binaria con la region de la boca detallada.
Paso 1. Obtener It , tranformando IB (Figura 3.14(a)) al espacio de color Y Cb Cr (Figura 3.14(b)).
Paso 2. Obtener Ienh , aumentando el contraste en las zonas prevalencientemente rojas (Figura 3.14(c)), empleando
la Ecuacin 3.13.
R
G
B
Ienh = IB
+ ItCr IB
+ IB
+ ItCb
(3.13)
R
G
B
donde, IB
, IB
y IB
son las componentes RGB de la imagen de entrada. ItCr y ItCb son las componentes crominancia roja y azul de la imagen It .
Paso 3. Binarizar Ienh . Se utiliza la siguiente estrategia de seleccin dinmica del umbral:
3.1 Utilizar la imagen binaria del Algoritmo 5 para establecer que coordenadas de la imagen van a ser analizadas.
El resultado de esto es una mscara de informacion que define de manera gruesa el rea de la boca (Figura 3.14(d)).
3.2 Hallar la distribucin de los niveles de gris en Ienh que coinciden con el rea de la boca (Figura 3.14(e)).
3.3 El umbral se selecciona en el nivel de gris de los pxeles que estn por encima del 10 % de la distribucin.
3.4 La seleccin de las regiones de la imagen que corresponden a la boca se hace mediante crecimiento de regiones,
creciendo a partir del centro de masa de la regin correspondiente al rea de la boca (Figura 3.14(f)).
(d) Mscara.
Despus de minimizar la funcin de energa del contorno, se procede con la estimacin de la plantilla de la
boca mediante el ajuste de cuatro funciones paramtricas polinomiales. El grado de estas es seleccionado de
tal forma que la curva resultante ajuste la regin de la mejor manera posible.
Labio inferior
Para ajustar el labio inferior usamos slo una funcin polinmica. Como queremos considerar las asimetras,
debemos seleccionar una funcin que nos permita representarlas.
Las funciones de grado tres no pueden ajustar, de manera completa, la zona del labio (Figura 3.16(a)), por
lo que seleccionamos una funcin de grado cuatro (Figura 3.16(b)).
40
Figura 3.16: Ajuste del labio inferior por medio de una funcin polinmica.
Labio superior
Para el ajuste del labio superior, matenemos el mismo criterio utilizado para el ajuste del labio inferior.
Ahora requerimos tres funciones polinomiales: una para el lado izquierdo, otra para el lado derecho y una
tercera para el arco de cupido.
Las primeras dos funciones son utilizadas para describir Ls en los dos lados (ver la Figura 1.4). Una funcin
de grado dos no permite un ajuste adecuado (Figura 3.17(a)), por lo que se selecciona una funcin de grado
tres (Figura 3.17(b)).
La ltima funcin es utilizada para ajustar Cba (ver la Figura 1.4). Con el propsito de ajustar adecuadamente toda la zona del arco de cupido, una funcin de grado tres no es suficiente (Figura 3.17(c)), por lo
que se seleccion una funcin de grado cuatro (Figura 3.17(d)).
Figura 3.17: Ajuste del labio superior por medio de funciones polinmicas.
Las funciones son obtenidas mediante la descomposicin de valores singulares del sistema de ecuaciones
con restricciones, usando los puntos del contorno. Los vrtices son los puntos fronteras entre la funcin
cbica (regiones de los lados) y las funciones de ajuste del labio inferior. Los puntos de la frontera caen
sobre la proyeccin del punto ms bajo del arco de cupido, entre la funcin representando la regin media
y las regiones de los lados. Para preservar la continuidad entre las funciones, ellas son estimadas usando
puntos comunes de su vecindario (ver la Figura 3.18(a) y la Figura 3.18(b)).
41
3.5.
Resultados
El desempeo de los algortimos mostrados en la Seccin 3.4 se evalu sobre una parte de la base de datos
de imgenes faciales recogida para el estudio antropomtrico descrito en [54], el cual fue dirigido a la poblacin de nios y nias entre 5 y 10 aos de la ciudad de Manizales.
La muestra poblacional utilizada fue de 660 sujetos (mitad nios, mitad nias), a los cuales se les tomaron
dos fotos, resultando un total de 1320 imgenes. La geometra de adquisicin determina que en la escena,
slo aparezca un sujeto en posicin frontal. Las imgenes son a color, poseen una dimensin de 2560 x 1920
pxeles y estn almacenadas en formato JPEG.
3.5.1.
Localizacin de la boca
El mtodo DARP se prob sobre todas las imgenes de la base datos. El criterio de evaluacin de desempeo
fDM (x), donde x es la imagen resultante del proceso, se muestra en la Ecuacin 3.15.
fDM (x) =
1
0
(3.15)
La funcin fDM (x) fue evaluada por un experto para las 1320 imgenes de prueba. En la Tabla 3.1 se tiene
el resultado de la evaluacin del desempeo, adems del tiempo promedio requerido para el procesamiento
de una imagen utilizando una CPU Pentium 4 a 2.8 GHz.
Total
Imgenes
1320
Deteccin
ptima
1255
Desempeo
( %)
95.07
Tiempo
(seg)
0.73716
3.5.2.
Deteccin de vrtices
Los diferentes algoritmos de extraccin de caractersticas son probados empleando la base de datos obtenida
de la prueba del mtodo DARP.
Para el anlisis de resultados de las diferentes tcnicas, se tienen dos pruebas:
1. Localizacin de vrtices (Vx ) empleando el mtodo del gardiente vertical (GV ).
2. Localizacin de Vx empleando el mtodo REBPS.
42
En cada una de las pruebas se obtiene la localizacin de los 2 puntos caractersticos VxL y VxR , con sus
coordenadas x e y, distribuidos a lo largo de la boca. Adems, se mide el tiempo de clculo empleado para
el procesamiento de cada imagen.
Los resultados se evaluan a travs de la comparacin de los resultados obtenidos de manera automtica,
con los resultados del etiquetado manual de las imgenes de prueba. A partir del error de cada muestra
(Ecuacin 3.16), se obtiene el valor del error promedio en pxeles (Ecuacin 3.17) y el error cuadrtico
medio (Ecuacin 3.18), para cada uno de los puntos en sus respectivas coordenadas (x, y).
i = p m p a
(3.16)
(3.17)
i=1
Punto
VxL .x
VxL .y
VxR .x
VxR .y
hi(Pxeles)
11
12
14
13
0,6682
0,6152
0,7443
0,7245
Mtodo
REBPS
Punto
VxL .x
VxL .y
VxR .x
VxR .y
(3.18)
hi(Pxeles)
6
8
7
9
0,2618
0,3116
0,3886
0,3260
GV
REBPS
Tiempo (mseg)
62.45
63.06
3.5.3.
La calidad del ajuste del contorno se evala por medio de la matriz de confusin [55], tambin llamada
matriz de contingencia, la cual es una herramienta muy utilizada para la presentacin y el anlisis del resultado de una clasificacin. Es una matriz cuadrada de orden n, donde n es igual al nmero de clases.
43
En las filas se representan las clases reales mientras que en las columnas se representan las clases asignadas por el clasificador. Para un clasificador entre dos clases la matriz de confusin se observa en la Tabla 3.4.
Clase1 (Real)
Clase2 (Real)
Clase1 (Obtenida)
Verdaderos Clase1
Falsos Clase1
Clase2 (Obtenida)
Falsos Clase2
Verdaderos Clase2
Verdadero
Falso
Positivo
Verdadero Positivo (VP)
Falso Positivo (FP)
Negativo
Falso Negativo (FN)
Verdadero Negativo (VN)
Falso
Verdadero
VP
(V P + F N )
FN
(V P + F N )
Especificidad (PVN):
VN
(V N + F P )
FP
(V N + F P )
VP
(V P + F P )
Los valores obtenidos fueron: P V P = 93,259 %, P F N = 99,264 %, P R = 99,216 %, EP = 6,741 % y
EN = 0, 737 %. Aunque el error positivo es un poco elevado, la calidad del contorno extrado es adecuada
para la medicin antropomtrica, como lo muestran las Figuras 3.19(a)-3.19(e), donde se evidencia el alto
grado de ajuste alcanzado por las funciones paramtricas.
Precisin (VPP):
44
(a)
(b)
(d)
(c)
(e)
45
46
Captulo 4
Notacin.
Para la presentacin de los algoritmos de procesamiento, las cmaras reales se denotan como P1 y P2 , mientras que las realizaciones se definen como P0 1 y P0 2 . Las correspondencias son x1i = (wi1 x1i , wi1 y1i , wi1 )T y
x2i = (wi2 x2i , wi2 yi2 , wi2 )T ; y los puntos 3D X0i y Xi son las versiones distorsionadas y reales respectivamente. Si cualquier elemento D, sin importar que sea matriz o vector, est normalizado por T , este se denota
Para un vector t = (tx , ty , tz )T , su matriz simtrica oblicua viene dada por:
como D.
0 tx ty
0 tz
[t] = tx
ty tz
0
47
4.1.
En la geometra de dos vistas, es posible calcular correspondencias y triangular los puntos 3D mediante
la matriz fundamental F que relaciona las dos cmaras. En [58], se propone un algoritmo para estreo a
partir de vistas no calibradas; el algoritmo se basa en la propiedad que posee un par de cmaras P1 , P2 y
P0 1 , P0 2 con la misma matriz F, y es que ellas estn relacionadas por la matriz de transformacin H como
P1 = P0 1 H, P2 = P0 2 H. As, es posible calcular una realizacin de un par de cmaras que si bien no
son las matrices reales P1 y P2 , estn relacionabas por la misma matriz fundamental, y de ellas podemos
obtener puntos tridimensionales Xd , que son producto de la transformacin proyectiva de las posiciones
reales X, por lo que Xd = HX.
4.2.
mx 0 0
f 0 px
K = 0 my 0 0 f py
0
0 1
0 0 1
(4.1)
siendo mx , my el radio de pxeles por unidad de medida en el mundo, f la distancia focal, y px , py la distancia del centro de la imagen al origen de las coordenadas del plano imagen. El parmetro de oblicuidad s se
adiciona haciendo k12 = s. As queda conformado el conjunto de parmetros intrnsecos de la cmara. Para
determinar los parmetros extrnsecos de la cmara (posicin y orientacin), se debe comenzar definiendo
los sistemas de coordenadas de la cmara y el mundo (ver Figura 4.1).
El eje
zc define la lnea principal de la cmara, el plano {
xc , y
c } es el plano principal y el origen C =
T
(cx , cy , cz ) es el centro de cmara. Para propsitos prcticos, se restringen los parmetros de orientacin,
al definirlos automticamente. La cmara apunta inicialmente al origen del sistema mundo, y as
zc =
C/kCk, x
c =
zc
z, y x
c =
zc x
. Aqu x
c , y
c y
zc , tienen el mismo origen que el sistema mundo, lo
cual es til para definir un conjunto de ngulos de rotacin {x , y , z }, que completan la construccin de
la matriz de rotacin R = Rx Ry Rz . Estos ngulos se definen a continuacin:
x =
+ arcsin
2
q
2
2
yc1 + yc2
,
y = 0,
z =
+ arcsin (xc1 ).
2
48
Coordinate Systems
x
c
0.8
0.6
zc
0.4
0.2
0
0.2
0.4
0.5
0.6
y
c
0.8
1
0.5
0.5
0
0.5
0 cos x sin x
=
0 sin x cos x
cos y 0 sin y
0
1
0
=
sin y 0 cos y
cos z sin z 0
= sin z cos z 0
0
0
1
Rx
Ry
Rz
(4.2)
Un vez se tiene la matriz P, se puede proyectar los puntos 3D Xi sobre el plano imagen en los puntos xi .
La Figura 4.2(a) muestra la configuracin de la escena y la Figura 4.2(b) las imgenes resultantes para dos
cmaras con los mismos parmetros intrnsecos, pero en posiciones diferentes.
Se tiene as un conjunto de puntos conocidos, que son correspondencias sobre las cuales es posible iniciar
la estimacin. En [59] se muestra como es posible calcular la matriz F con un conjunto dado de correspondencias de al menos 8 pares de puntos, condicionando el problema a normalizar los valores que componen
T
el conjunto de ecuaciones. Para un par de correspondencias x1i y x2i , donde x2i Fx1i = 0, el problema se
49
Scene Configuration
Camera 1
Camera 1
4.5
Camera 2
1000
1000
500
500
Camera 2
4
3.5
500
500
3
2.5
2
1.5
1000
1000
1500
1500
1
0.5
0
0
2000
2
y
4
6
500
1000
1500
2000
2500
2000
500
500
1000
1500
2000
(4.3)
para wi1 , wi2 = 1 cuando se trata de posiciones de pxeles, se normalizan los datos a travs de transformaciones isotrpicas x
1i =T 1 x1i y x
2i = T 2 x2i , que centran los datos en el origen {0, 0}, y se escala la distancia promedio a 2 [59]. Ntese que los clculos de estas normalizaciones se hacen para los
vectores bidimensionales sin considerar el tercer elemento, los cuales permanecen iguales a 1. La Ecua-
i = x
cin (4.3) se reescribe con los trminos normalizados: A
1i x
2 , x
1 y2 , x
1 , y1 x
2 , y1 y2 , y1 , x
2 , y2 , 1
i i i i iTi i i i i i
T |A
T | |A
Tn . La solucin
y
f = f11 , f12 , f13 , f21 , f22 , f23 , f31 , f32 , f33 , as A = A
f se puede
1
2
T A.
Una
obtener fcilmente a travs de los multiplicadores de Lagrange, como el ltimo autovector de A
es reconformada, se impone la restriccin de hacer su rango igual a 2, lo que se consigue al descomvez F
y hacer el tercer elemento de la matriz diag(D) igual a
poner la matriz en valores singulares UDVT = F
0. La matriz de rango 2 se desnormaliza,
T
(4.4)
F = T 2 F T 1
Con este estimado de F , se tiene un punto de partida para optimizar sus valores utilizando el algoritmo Gold
Standard que minimiza la funcin de costo:
X
1 2
2 2
d x1i , x0 i + d x2i , x0 i
i
Escogiendo
de cmara como P0 1 = [I33 |0] y P0 2 = [M33 |t]; siendo inicialmente
2 las realizaciones
2
M = e F y t = e , es posible hacer un estimado inicial de los puntos 3D X0 i , y as x0 1i = P0 1 X0 i y
x0 2i = P0 2 X0 i son usados para la primera iteracin. El algoritmo optimiza 3n + 12 variables, 12 para P0 2
y 3n para los n puntos 3D X0 . La optimizacin corresponde a un mtodo de mnimos cuadrados no lineal,
por ejemplo Levenberg-Marquardt. Finalmente F = [t] M. Este algoritmo se considera ptimo porque
T
x0 2i Fx0 1i = 0 [32].
4.3.
El sistema de adquisicin 3D
El sistema propuesto es una combinacin de un sistema activo tipo escner de corte, pero la estimacin de
la escena se basa en algoritmos de dos vistas (estreo). Al utilizar un sistema activo es posible obtener ms
50
4.3.1.
Calibracin
Como se muestra en la Figura 4.3, las cmaras no estn fijas al sistema, por lo que cada vez que se quiere adquirir un objeto es necesario conocer sus posiciones. Dicho proceso se conoce como calibracin del
sistema y se pude hacer de diferentes maneras (ver Captulo 2). Los parmetros de cada cmara pueden
ser estimados de forma individual, y una vez conocidos, se estima la geometra epipolar de la escena. La
geometra epipolar del sistema se puede estimar directamente y de all obtener las calibraciones de cmara.
Para est aplicacin se utiliza la segunda opcin. As, la calibracin del sistema corresponde a la estimacin
de las matrices F y H, basado en un algoritmo de estreo no calibrado. Tales matrices son un compendio de
la geometra del montaje.
El estreo a partir de vistas no calibradas parte de un conjunto de puntos 3D conocidos. Para ello se utiliza
un patrn de calibracin (ver Figura 4.4), donde todas las posiciones de los puntos son bien conocidas. El
patrn est compuesto por dos planos ortogonales, cada uno con 30 cuadrados cuyos lados y separacin
miden 2 centmetros. Se tienen en total 240 esquinas, que son usadas como correspondencias.
Puesto que la calibracin debe ser realizada para cada adquisicin, es importante minimizar el tiempo que
toma este proceso. Para tal fin se dise e implement el Algoritmo 9, con el cul se encuentran automti51
Uno de los resultados obtenidos se exhibe en la Figura 4.6, donde se muestran las imgenes reales con los
puntos extraidos y su reconstruccin 3D despus de encontrar F y H. Para esta prueba el error promedio en
la reconstruccin de los puntos fue de 0,6727 mm.
4.3.2.
Las imgenes adquiridas estn en formato RGB de 24 bits. Se asume que durante la adquisicin no habr
un cambio drstico en la iluminacin y que la fuente de luz estructurada es simtrica, es decir. Se propone
el Algoritmo 10 para la segmentacin de la lnea de barrido.
4.3.3.
De la etapa anterior se tienen dos conjuntos de puntos de las imgenes segmentadas. Como las imgenes se
encuentran ordenadas de acuerdo al barrido realizado, se pueden segmentar un par de imgenes que corresponde a las 2 vistas de la lnea de barrido en el mismo instante de tiempo, utilizando la matriz F que ha sido
52
53
(a) Vista 1.
(b) Vista 2.
calculada previamente a partir de la calibracin. Lo que se desea entonces es, encontrar las intersecciones
de la lnea segmentada con la lnea epipolar en la segunda vista, utilizando cada punto que compone la
lnea segmentada de la primera imagen, para generar la correspondiente lnea epipolar en la segunda vista.
Las lneas epipolares en I2 estn dadas por l2i = Fx2i . El punto en la segunda imagen x2i , donde las lneas
epipolar (l2i ) y de barrido se intersecan, es una correspondencia de x1i . La Figura 4.7 ilustra este proceso.
La Figura 4.8(b) muestra las correspondencias estimadas de las imgenes reales para un telfono. El nmero
de puntos extrados es 39145.
4.3.4.
Reconstruccin
Se han definido dos conjuntos de puntos de dimensiones iguales, cuyos elementos se relacionan uno a uno.
Estos puntos son llamados correspondencias, y su relacin viene de la proyeccin de un nico punto 3D,
en configuraciones no degeneradas. Este punto Xi se proyecta sobre los planos de imagen (1 y 2 ) a los
puntos x1i y x2i , respectivamente.
Se puede calcular la posicin de Xi con un conjunto de ecuaciones dadas por las matrices de cmara P1 y
P2 y por los puntos {x1i , x2i }. Es posible reescribir las proyecciones x1i = P1 Xi y x2i = P2 Xi , dentro de
una ecuacin matricial dada por:
T
T
1T
2T
xi | xi
= P1 T | P2 T X i
(4.5)
Esta ecuacin es de la forma b = Ac, por lo que su solucin es c = (AT A)1 AT b. Tal solucin sera
apropiada si las correspondencias estuviesen libres de ruido, pero dado que este no es caso, es necesario
optimizar la triangulacin de los puntos. La funcin de costo es similar a la Ecuacin 4.2, la diferencia
radica en que los parmetros de cmara no cambian durante el proceso, por lo que slo se optimizan las
posiciones 3D. Los resultados obtenidos a partir de las correspondencias mostradas en la Figura 4.8(b), se
presentan en la Figura 4.9.
54
(a) Objeto.
Camera 1
Camera 2
50
50
100
100
150
200
y
150
200
350
300
350
100
250
300
250
400
200
300
400
500
600
450
100
200
300
400
x
500
600
700
55
10
9
8
7
6
5
4
3
2
10
1
4
10
12
14
y
x
10
2
10
0
x
10
14
12
(4.6)
siendo
i f1 (Xni ))
1 (xni f1 (Xni )) (xn
2 2
e
=
2
(4.7)
i f2 (Xni ))
1 (xni f2 (Xni )) (xn
2 2
e
2
(4.8)
P (xn1i |Xni )
y
2
P (xn2i |Xni ) =
56
Adems, se consideran P (Xni ), P (xn1i ) y P (xn2i ), como provenientes de distribuciones uniformes definidas por el espacio donde Xn se mueve, y las reas de sus proyecciones dadas por los puntos xn1 y xn2 . La
Figura 4.10, muestra la densidad de probabilidad condicional slo para variaciones del punto en el plano:
(x1 , x2 ) fcond (Xn|xn1 , xn2 ), para las proyecciones P1 X y P2 X, con X = (124, 170, 89, 1)0 , con varianzas exageradas en el error de proyeccin, y cmaras que apuntan cerca del eje x3 del sistema coordenado
del mundo y estn ubicadas en el cuadrante x1 , x2 >> 0.
Dens idad de probabilidad de Xi
x2
x1
180
160
140
120
x2
100
80
60
40
20
20
40
60
80
100
x1
120
140
160
180
200
4.4.
Resultados
La confirmacin del modelo de error propuesto se realiza mediante la adquisicin de un plano paralelo al eje
vertical del sistema mundo. Una buena aproximacin para estimar la varianza del error de reconstruccin
de los puntos con respecto a un plano perfecto, puede ser obtenida mediante el clculo de distancias perpendiculares de los puntos reales, a un plano obtenido por el truncamiento de la representacin en valores
singulares de la matriz O = (X1 , X2 , ..., Xn )T EX. As, la varianza para el error, corresponde al autoT
valor ms pequeo de OO
n1 . La Figura 4.11, deja ver la direccin principal del error de adquisicin de una
lnea que se considera casi vertical, para las mismas cmaras que generan la distribucin de la Figura 4.10.
Los errores obtenidos para esta configuracin estn alrededor de 1 mm, considerando errores en las correspondencias de hasta 2 pxeles.
57
180
3Dpoint after optimization
160
140
169
120
y
168
100
z
167
80
166
60
126
40
20
127
128
129
x
130
131
200
150
0
200
100
180
160
50
58
132
133
5
10
8
6
4
10
2
2
2
10
59
60
Captulo 5
Resultados
Las medidas de la boca fueron tomadas empleando cada uno de los tres mtodos mencionados en Captulos
anteriores: Antropometra directa, Fotogrametra 2D y Antropometra con imgenes tridimensionales (3D).
Los procedimientos involucrados en los diferentes mtodos de medicin fueron descritos con detalle en los
captulos anteriores. En este captulo nos concentraremos en la definicin operativa de las actividades y las
restricciones a tener en cuenta, sobre todo con repecto a las condiciones de adquisicin de las imgenes,
con el fin de que los resultados sean reproducibles. Por ltimo y como parte fundamental de este trabajo, se
presentan los resultados de la comparacin entre cada una de las medidas obtenidas con cada tcnica.
5.1.
Antropometra directa
Las medidas de referencia (Gold Standard) con las cuales se determina la precisin de los mtodos, corresponden a las obtenidas mediante antropometra directa. La Tabla 5.1 muestra cada una de las medidas y los
instrumentos utilizados para su obtencin.
Medida
Ancho de la boca
Alto de la boca
Longitud del labio superior
Longitud del labio inferior
Ancho del Filtrum
Longitud del arco de cupido
Concavidad del arco de cupido
Notacin
Ml
Mh
Ls
Li
F tml
Cbal
Cba
Intrumento de medida
Sliding Caliper
Sliding Caliper
Cinta mtrica
Cinta mtrica
Cinta mtrica
Cinta mtrica
Observacin
Tabla 5.1: Medidas utilizadas. Se toman para la izquierda y la derecha de forma separada.
Las medidas fueron tomadas a 5 personas (3 hombres y 2 mujeres), que participaron de forma voluntaria,
luego de ser informados del objeto del estudio y de que los mtodos empleados no implican ningn riesgo
para su salud. Si bien este nmero de medidas parece pequeo, cumple con el objetivo de este trabajo como
es estudiar la viabilidad de un sistema antropometra facial, utilizando imgenes tridimensionales, reconstruidas a partir de mltiples vistas 2D. Las edades de los sujetos oscilan entre 23 y 27 aos; ninguno posee
malformaciones faciales. Al momento de realizar la medicin el sujeto estaba sentado en posicin relajada.
Cada una de las medidas fue tomada cinco veces, esto con el fin de evaluar la repetitibilidad. Los resultados
de la mediciones son mostrados en la Tabla 5.2; indica la media y la desviacin estndar.
61
Captulo 5. Resultados
A
Medida
Ml
Mh
Ls Derecho
Ls Izquierdo
Li
F tml
Cbal
Cba
56,1
17,1
21,2
20,5
69,9
10,8
21,2
OK
2,457
2,145
3,478
2,965
3,684
1,951
2,581
NA
48,3
18,2
25,8
27,6
65,1
14,7
26,9
OK
2,375
2,478
3,125
3,247
3,687
2,561
2,874
NA
50,9
39,3
25,9
27,5
65,5
18,9
27,1
OK
2,759
2,489
2,987
3,145
3,926
2,145
3,981
NA
57,5
20,4
31,9
30,1
69,6
11,9
18,7
OK
2,416
2,312
3,302
3,106
3,686
2,256
2,728
NA
51,1
17,9
23,3
25,1
61,2
15,4
18,7
OK
2,517
2,426
3,138
3,166
3,766
2,321
3,194
NA
Tabla 5.2: Medidas obtenidas por antropometra directa. Valores en milmetros. NA: No Aplica.
Como se muestra en la Tabla 5.2, los valores que presentan mayor variabilidad, corresponden a las medidas
tomadas con la cinta mtrica, esto se debe en gran parte a que la escala de la cinta est en milmetros, lo que
implica que las dcimas de milmetros deben ser aproximadas por la persona que est realizando la medida.
5.2.
Fotogrametra 2D
La adquisicin de las imgenes faciales se realiza en una escena con condiciones de iluminacin controladas y ajustadas a las necesidades de la extraccin automtica de las caractersticas del rostro. Esto no es una
limitante del sistema, ya que generalmente estas medidas se realizan en consultorios o sitios cerrados, donde
efectivamente se pueden controlar estas condiciones.
Dentro de la configuracin de la geometra de la escena, el sujeto a fotografiar est sentado en un silla fija,
en posicin frontal a la cmara fotogrfica con una separacin de 2m aproximadamente (ver Figura 5.1(a)).
Al costado derecho del rostro del sujeto se coloca el patrn de medida, el cual permite la calibracin del
sistema. La Figura 5.1(b) muestra una de las imgenes adquiridas.
5.2.1.
Calibracin de la imagen
Para determinar las equivalencias entre las dimensiones de los pxeles de la imagen y el mundo real, se
emplea un patrn de calibracin compuesto de cuadros blancos sobre fondo negro, en la Figura 5.2 se puede
observar las dimensiones de los cuadrados, as como la distacia que los separa.
El factor de conversin se determina contando la cantidad de pxeles que representan 1cm en la imagen y
con este valor se estima la correspondencia en milmetros. La medida utilizada, corresponde a la distancia
entre los centros de masa de dos cuadros vecinos. El factor de escala con el que se trabaja, se obtiene al
calcular el valor medio de las distancias calculadas de todos los cuadros visibles en la imagen. Por ejemplo,
para la imagen mostrada en la Figura 5.1(b), 1mm = 3, 85 pxeles, 1 pxel = 0, 259mm.
62
Captulo 5. Resultados
5.2.2.
Resultados
La obtencin de las medidas antropomtricas por medio de la fotogrametra 2D, se realiza de forma automtica empleando los algoritmos descritos y evaluados en el Captulo 3.
Se tomaron cinco fotografas de cada uno de los individuos, y se realiz el mismo procedimiento que en la
antropometra directa. La Tabla 5.3 muestra las medidas obtenidas. No se tienen en cuenta todas las medidas
propuestas inicialmente, debido a que algunas de ellas corresponden a medidas de superficie. Por lo tanto,
no es posible obtenerlas a partir de una sola imagen en 2D.
Los resultados en la medicin muestran que la obtencin de las medidas de manera automtica posee menor
dispersin con respecto a la medicin directa. Esto se debe a la estandarizacin del mtodo y a la objetividad, producto del procesamiento digital de la imagen. Este resultado de menor dispersin era de esperarse,
evidentemente la automatizacin de estos procesos elimina la subjetividad que en este tipo de medidas introducen los operarios humanos.
63
Captulo 5. Resultados
A
Medida
Ml
Mh
F tml
55,06
16,62
11,16
1,253
1,476
0,981
49,42
16,85
14,1
1,142
1,745
1,159
50
39,3
20,76
1,651
1,457
1,258
56,75
19,72
10,81
0,945
0,867
1,121
49,88
16,47
13,64
1,324
1,874
1,593
Tabla 5.3: Medidas antropomtricas por medio de la fotogrametra 2D. Valores en milmetros.
Para evaluar la precisin de las medidas, se comparan los resultados obtenidos por esta tcnica con los resultados obtenidos con la tcnica de antropometra directa (ver Tabla 5.2). Se calcula el error promedio (hi)
y el error cuadrtico medio (), con sus magnitudes dadas en milmetros.
Los valores mostrados en la Tabla 5.4 evidencian la precisin del mtodo, con errores promedio alrededor
de 1mm y valores de dispersin menores a 1mm. Esto nos permite suguerir que esta tcnica es precisa y
consistente, medicin tras medicin.
La gran desventaja de la tcnica recae en su limitado campo de accin, al no poder realizar mediciones
de superficie. Esta limitacin no se presenta, como veremos, en la tcnica de antropometra con imgenes
tridimensionales (3D), la cual estamos proponiendo y evaluando en este trabajo.
Medida
Ml
Mh
F tml
hi
1,006
0,788
1,134
0,185
0,603
0,672
5.3.
5.3.1.
Seleccin de puntos
Sobre las nubes de puntos obtenidas mediante reconstruccin estreo (ver Figura 5.3), se debe realizar una
seleccin de los puntos ubicados lo ms cerca posible de las zonas de inters (vrtices, arco de cupido,
fronteras de la mucosa labial, etc), los cuales, en conjunto, describen las caractersticas utilizadas para la
medicin.
Cada uno de los puntos que conforman la nube, corresponde a un nico punto en las dos imgenes empleadas para la reconstruccin estreo. Posteriormente, lo que se hace es buscar las caractersiticas de manera
64
Captulo 5. Resultados
independiente en cada una de las imgenes y luego se hace un apareamiento de los puntos encontrados.
Los puntos a poner en parejas corresponden a los puntos de la imagen que conforman el contorno exterior de
los labios, extraido como se mostr en el Captulo 3. Los puntos de control del contorno coinciden con los
puntos entre los cuales se establecen las diferentes medidas antropomtricas estudiadas en este trabajo. La
Figura 5.4 muestra la extraccin del contorno en dos de las imgenes utilizadas para la reconstruccin. Los
puntos color rojo corresponden a los vrtices. El punto color azul en el labio superior, representa el punto
ms bajo del arco de cupido, determinado a partir de los puntos de inflexin de la funcin que lo representa.
El punto azul en el labio inferior se determina al igual que el de arriba con la ayuda de los puntos de inflexin; estos dos puntos se usan para la medicin del alto de la boca. Los puntos color cian corresponden
a la base de las columnas del philtrum. Los puntos de color verde, en conjunto, ayudan a que la medicin
superficial sea posible.
Captulo 5. Resultados
Una vez seleccionados los puntos del contorno de manera independiente, deben ser puestos en parejas. Con
los puntos de color rojo, azul o cian este apareamiento es sencillo, ya que ellos tienen una correspondencia
uno a uno. Para los puntos verdes, este proceso de aparejamiento es ms difcil. Debido a la perspectiva,
se tiene que la cantidad de puntos en cada uno de los contornos no es la misma en las dos imgenes, y
es difcil saber cules puntos se corresponden con cules. El problema se resuelve empleando las siluetas
segmentadas mediante el Algoritmo 10 (Captulo 4). El procedimiento de seleccin de parejas se describe
en el Algoritmo 11.
Algoritmo 11 Corresponder Contorno
Requiere: P sjk : puntos procedentes de cada una de las k siluetas segmentadas. El superndice j determina la cmara
de la cual proviene la imagen.
P cji : conjunto de puntos del contorno, resultado de la evaluacin de las funciones paramtricas.
Salida: Ccji : vector de correspondencias de los puntos del contorno.
Paso 1
Para n = 1 hasta i de Pc1i Haga
Para m = 1 hasta k Haga
1
1
Paso 1.1 Calcular las distancias (Eucldea) dm
n de Pcl a los puntos Psm .
Fin Para
Fin Para
Paso 2 A partir de las distancias, encontradas en el punto anterior, determinar los puntos Psjk cuya distancia es
mnima a cada punto Pc1i .
Paso 3 Determinar los puntos Pc2i , correspondientes con los puntos hallados en el paso anterior.
Paso 4 Repetir el paso 1, nicamente con los puntos Pc2i , encontrados en el paso anterior.
Paso 5 Los puntos Cc1i correponden a los puntos de contorno Pc1i , los puntos Cc2i corresponden a los puntos
encontrados en el paso 4.
5.3.2.
Resultados
Se hicieron las reconstrucciones de cada uno de los individuos, y se realiz el mismo procedimiento que en
la antropometra directa. La Tabla 5.5 muestra las medidas obtenidas.
Los resultados en la medicin antropomtrica con imgenes tridimensionales muestran menor dispersin
con respecto a las medidas por antoprometra directa. Esto es debido, entre otras razones, a que las medidas
son totalmente objetivas. Esta baja dispersin en las medidas al utilizar este mtodo de reconstruccin 3D,
reafirma la importancia que esta tecnologa tiene para la realizacin de medidas en este tipo de aplicaciones.
No obstante, las medidas estndar utilizadas en la antropometra facial, son las obtenidas por medio de la
antropometra directa. Por esta razn, en la Tabla 5.6 presentamos el error promedio (hi) y el error cuadrtico medio () (magnitudes dadas en milmetros), de las medidas realizadas mediante la antropometra
con imgenes tridimensionales y la antropometra directa (Gold Standard).
66
Captulo 5. Resultados
Los valores mostrados en la Tabla 5.6, evidencian la precisin de la tcnica de antropometra con imgenes tridimensionales, con errores promedio menores a 0,8mm y valores de dispersin menores a 0,4mm.
Estos valores nos permiten concluir que que esta tcnica es precisa, ya que adems de presentar un error bajo, cuando se compara con la tcnica de antropometra directa, presenta un valor de dispersin mucho menor.
67
Captulo 5. Resultados
A
Medida
Ml
Mh
Ls Derecho
Ls Izquierdo
Li
F tml
Cbal
Cba
55,9
16,8
20,6
19,8
69,1
11,1
20,9
OK
0,991
0,783
1,238
1,126
1,562
1,171
1,139
NA
49,1
19,1
26,2
28,1
65,9
15,2
27,4
OK
1,048
1,454
1,986
1,919
2,041
1,686
1,587
NA
49,8
38,7
24,7
26,9
64,8
17,6
26,5
OK
0,893
0,911
1,582
1,981
2,018
1,343
2,121
NA
58,3
21,1
32,5
31,3
70,4
12,8
19,9
OK
1,020
1,119
1,612
1,523
1,802
1,429
1,363
NA
52,2
18,7
24,3
25,9
62,1
16,3
19,2
OK
0,987
1,161
1,727
1,808
1,954
1,486
1,690
NA
Tabla 5.5: Medidas antropomtricas con imgenes tridimensionales (3D). Valores en milmetros.
Medida
Ml
Mh
Ls Derecho
Ls Izquierdo
Li
F tml
Cbal
Cba
hi
0,800
0,660
0,760
0,760
0,740
0,780
0,620
OK
0,367
0,230
0,329
0,270
0,152
0,390
0,342
NA
Finalmente, al comparar las tablas 5.4 y 5.6, se concluye que la metodologa propuesta: Antropometra con
imgenes tridimensionales (3D), presenta mejor desempeo que cuando se utiliza la tcnica de fotogrametra 2D. Lo que se evidencia no slo por los valores de error promedio y de error cuadrtico medio ms
bajos, sino tambin por el mayor nmero de medidas antropometricas que se pueden realizar. Esto debido
a la invarianza del mtodo con respecto a la rotacin de la cabeza del sujeto, y gracias a que al utilizar dos
imgenes de intensidad, no se tienen los problemas de perspectiva que se presentan en la fotogrametra 2D,
que slo utiliza una imagen de intensidad. Tambin, al utilizar varias imgenes 2D, se logra reproducir la
forma tridimensional de los rostros, lo que permite realizar medidas en superficies.
68
Conclusiones Generales
En este documento se ha presentado una propuesta metodolgica, para lo que podra ser un sistema mdico
de antropometra facial utilizando imgenes tridimensionales, reconstruidas a partir de mltiples vistas 2D.
La metodologa est compuesta por los siguientes pasos:
1. Un sistema de adquisicin estreo activo, el cual combina dos cmaras CCD y una fuente de luz
estructurada.
2. Una etapa de extraccin de caractersticas faciales, a partir de las imgenes 2D.
3. Una etapa de generacin de la imagen tridimensional, a partir de dos vistas 2D.
4. Una etapa de clculo de las medidas de antropometra facial.
El sistema se evalu en cinco sujetos. Sobre cada sujeto se realizaron las siguientes medidas: ancho de la
boca, alto de la boca, longitud del labio superior (lado izquierdo), longitud del labio superior (lado derecho), longitud del labio inferior, ancho del Philtrum, longitud del arco de cupido y concavidad del arco de
cupido. Cada medida fue tomada cinco veces, con el fin de evaluar la repetibilidad. Con el objeto de evaluar
los resultados obtenidos por la metodologa propuesta: Antropometra con imgenes tridimensionales, las
medidas se ralizaron tambin por la tcnica de antropometra directa y por la tcnica de fotogrametra 2D.
Los resultados mostraron las bondades de la metodologa propuesta, al ser comparados contra la tcnica
de fotogrametra 2D: mayor nmero de medidas antropomtricas, mayor precisin y menor dispersin. Al
compararse contra la tcnica de antropometra directa, la cual es considerada la medida estndar, arroj un
error que en general fue inferior al milmetro, con la ventaja que las medidas presentan menor dispersin por
la tcnica propuesta que por el mtodo estndar, ya que este ltimo est sujeto a la apreciacin del individuo
que realiza la medida. Se puede afirmar que la antropometra facial con imgenes tridimensionales arroja
resultados prometedores como metodologa para realizar este tipo de medidas antropomtricas.
Evidentemente, el trabajo presentado a est lejos de ser utilizado por los mdicos. Sin embargo, se demostr aqu la viabilidad de un sistema para realizar medidas antropomtricas faciales, el cual utiliza mltiples
vistas. Algunos aspectos deben ser mejorados: la precisin, mediante el desarrollo de algoritmos ms robustos y la utilizacin de cmaras con mayor resolucin. Tambin se deber incluir un mayor nmero de
medidas faciales y no slo medidas de la boca. Esto se lograr desarrollando nuevos algoritmos de extraccin de caractersticas faciales, como por ejemplo para los ojos, la nariz, las orejas y, en general, para todo
el rostro.
El sistema de adquisicin propuesto es un sistema activo compuesto por dos cmaras CCD (dos vistas), y
un patrn de luz proyectada. A partir de estas imgenes se obtiene la informacin tridimensional. Una etapa
crucial para la obtencin de medidas confiables es la calibracin de cmara. Por tal razn, se estudiaron los
algoritmos de calibracin ms comnmente utilizados. Los parmetros resultantes de la calibracin: extrnsecos e intrnsecos, resultan un poco variados segn el procedimiento, as como las condiciones de distorsin
69
Conclusiones Generales
que se utilizaron para obtenerlos. Los algoritmos que usan la distorsin del lente son los que presentan los
mejores resultados en las mtricas de evaluacin. Finalmente, se seleccion el mtodo The Gold Standard
con correccin radial de los lentes, por ser el que arroja menor valor en las medidas de error.
La regin facial de inters en este trabajo fue la regin de la boca, por lo que el proceso de extraccin de
caractersticas fue orientado hacia esta regin. Sin embargo, un gran nmero de los algoritmos y tcnicas
empleadas, pueden extenderse para la extraccin de otras caractersticas faciales. Grosso modo, el proceso
de caracterizacin de la boca est compuesta por: i) deteccin de la posicin exacta del rostro en la imagen,
ii) deteccin de la boca, iii) extraccin de los vrtices y, iv) extraccin y aproximacin del contorno exterior
de los labios.
La extraccin de las caractersticas faciales se hace sobre imgenes bidimensionales, pero como se busca
hacer un anlisis antropomtrico tridimensional, esta informacin debe ser llevada a informacin tridimensional. Para ello se realiz un apareamiento de puntos en las dos imgenes 2D, y mediante el uso de la
geometra de dos vistas, se obtuvo la imagen tridimensional. Para obtener esta informacin tridimensional
se implementaron y evaluaron, entre otros, los siguientes algoritmos: calibracin de las cmaras, procesamiento de las imgenes, estimacin de las correspondencias entre las dos vistas (imgenes) y reconstruccin
de la imagen 3D. Aunque existen dispositivos que arrojan directamente la informacin tridimensional, es
importante resaltar que se opt por un dispositivo con esta configuracin (dos cmaras CCD y un patrn de
luz proyectada), por su bajo costo econmico.
Finalmente, es de anotar que un sistema de antropometra facial como el presentado, puede tener mltiples
aplicaciones, como por ejemplo: i) estudio de las demensiones del rostro de una poblacin de acuerto a su
edad o grupo tnico, para establecer los ndices de normalidad facial, ii) estudio de anomalas faciales en
nios (labio y/o paladar hendido, etc), el cual se puede realizar comparando sus medidas con datos promedio
obtenidos dentro de la poblacin a la cual pertenece el sujeto, iii) planificacin de cirugas y seguimiento
del proceso de cicatrizacin, iv) desarrollo de modelos faciales realsticos para animacin por computador,
v) aplicaciones en seguridad, etc.
70
Bibliografa
[1] K.W. Bowyer, K. Chang, and P. Flynn. A survey of approaches and challenges in 3d and multi-modal
BIBLIOGRAFA
BIBLIOGRAFA
[31] Y.I. Abdel-Aziz and H.M. Karara. Direct linear transfomation into object space coordinates in closerange photogrammetry. Proc. Symp. Close - Range Photogrammetry, Univ.of Illinois at UrbanaChampaign, pages 1 18, 1971.
[32] R. Hartley and A. Zisserman. Multiple View Geometry in Computer Vision. The Press Syndicate of the
University of Cambridge, second edition, 2003.
[33] J.P. Tarel. Calibation de camra fonde sur les ellipses. Rapport de recherche, Unit de recherche
INRIA Rocquencourt, 1994.
[34] N. Daucher, M. Dhomr, and J. Lapreste. Camera calibration from spheres images. In Proc. Third
European Conference on Computer Vision, pages 449454, 1994.
[35] P. Puech. Cours doptique. Technical report, Universit Paul Sabatier - Laboratoire de Physique des
Solides de Toulouse, 2002.
[36] J. Weng, P. Cohen, and M. Herniou. Camera calibration with distortion models and accuracy evaluation. IEEE Transactions on PAMI, 14(10):965980, October 1992.
[37] J. Ahlberg. Model-based Coding. Extraction, Coding, and Evaluation of Face Model Parameters. PhD
thesis, Linkping University, 2002.
[38] R. Hsu, M. Abdel-Mottaleb, and A. Jain. Face detection in color images. IEEE Transactions on Pattern
Analysis and Machine Intelligence, 24, 2002.
[39] H. Bassmann and P. Besslich. ADOCULOS, Digital Image Processing. International Thompson Computer Press.
[40] P.T. Jackway and M. Deriche. Scale-space properties of the multiscale morphological dilation-erosion.
IEEE Transactions on Pattern Analysis and Machine Intelligence, 18, 1996.
[41] El color. Grupo De Ingenieria Grfica U.P.M.
[42] R. Rao and R. Mersereau. Lip modelling for visual speech recognition. 28th Annual Asimular Conference on Signals, Systems, and Computer, IEEE Computer Society, 2, 1994.
[43] R. Stiefelhagen, J. Yang, and U. Meier. Real time lip tracking for lip reading. In Proceeding of
Eurospech, 1997.
[44] T. Coianiz, L. Torresani, and B. Caprile. 2d deformable models for visual speech analysis. Istituto per
la Ricerca Scientifica e Tecnologica, 1996.
[45] L. Piegl and W. Tiller. The NURBS Book. Springer, 1997.
[46] C. Mulcahy. The basic curves and surfaces of computer aided geometric design. Technical report,
Atlantic Union College, Department Of Mathematics.
[47] G. Farin. The NURBS Book. Springer-Verlag, New York, 3 edition, 2001.
[48] Pgina web de wikipedia. http://en.wikipedia.org/wiki/, Consultada en Octubre de 2007.
[49] A. Salazar and F. Prieto. Extraccin y clasificacin de posturas labiales en nios entre 5 y 10 aos en la
ciudad de manizales. DYNA: Revista de la Facultad de Minas de la Universidad Nacionl de Colombia,
73, 2006.
73
BIBLIOGRAFA
[50] S.M. Smith and J.M. Brady. SUSAN - a new approach to low level image processing. Int. Journal of
Computer Vision, 23(1):4578, May 1997.
[51] A. Salazar, J. Hernndez, and F. Prieto. Automatic quantitative mouth shape analysis. Lecture Notes
in Computer Science, 4673, 2007.
[52] M. Kass, A. Witkin, and D. Terzopoulos. Snakes: Active contour models. Int. J. Computer Vision,
1(4):321331, 1987.
[53] J. Hernadez, F. Prieto, and T. Redarce. Fast active contour for sampling. In CERMA 06: Proceedings of
the Electronics, Robotics and Automotive Mechanics Conference, pages 913. IEEE Computer Society,
2006.
[54] I.M. Meja. Extraccin automtica de caractersticas faciales para el estudio antropomtrico en nios
entre 5 y 10 aos de la ciudad de manizales. Technical report, Universidad Nacional de Colombia Sede
Manizales, 2004.
[55] F.J. Cortijo.
Estimacin del error de clasificacin y verificacin de resultados.
etsi2.ugr.es/depar/ccia/rf/www/tema1, Oct 2001.
www-
[56] C. Ferri, J. Hernndez-Orallo, and M.A. Salido. Volume under the roc surface for multi-class problems.
exact computation and evaluation of approximations. Dep. Sistemes Informtics i Computaci, Univ.
Politcnica de Valncia (Spain), April 2003.
[57] A. Salazar, L. Snchez, and F. Prieto. Sistema de adquisicin de imgenes de rango con base en
estreo-activo. DYNA: Revista de la Facultad de Minas de la Universidad Nacionl de Colombia, EN
PRENSA, 2007.
[58] R. Hartley, R. Gupta, and T. Chang. Stereo from uncalibrated cameras. pages 761764, 1992.
[59] R.I. Hartley. In defense of the eight-point algorithm. IEEE Transactions on Pattern Analysis and
Machine Intelligence, 19(6):580593, June 1997.
74