Está en la página 1de 81

UNIVERSIDAD DE BUENOS AIRES

FACULTAD DE INGENIERIA

Reconocimiento Facial

Mediante Imágenes Estereoscópicas

Para Control de Ingreso

Tesis de Grado de Ingeniería en Informática

Autor: Pamela Alejandra Pereyra (papereyra@gmail.com)

Padrón: 78630

Tutor: Lic. José Francisco Zelasco

Cotutor: Lic. Judith Donayo


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 1


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Tabla de Contenidos
1 Introducción …………………………………………………………………... 4

1.1 Motivación …………………………………………………………... 5

1.2 Estructura de la tesis ………………………………………………… 6

2 Estado del arte ………………………………………………………………... 8

2.1 Comienzos de la estereoscopía ……………………………………… 9

2.2 Historia del reconocimiento facial …………………………………... 10

2.2.1 Clasificación de los métodos de reconocimiento facial …………. 12

2.3 Reconocimiento 3D ………………………………………………….. 13

2.3.1 Técnicas de obtención de modelos 3D …………………………… 15

2.3.2 Métodos de reconocimiento facial 3D ……………………………. 16

2.3.3 Aplicaciones comerciales desarrolladas ………………………...... 19

2.3.4 Casos de implementaciones de sistemas ………………………….. 19


de reconocimiento facial

3 Captura y armado del modelo 3D …………………………………………….. 24

3.1 Captación de imágenes estereoscópicas – Modelo pinhole ………..... 24

3.1.1 Descripción de la toma de las fotografías ………………………… 25

3.2 Modelo 3D del sistema facial ………………………………………... 27

3.2.1 Puesta en correspondencia de puntos homólogos ………………… 28

3.2.2 Triangulación de Delaunay ……………………………………… 30

4 Soluciones propuestas para el reconocimiento facial …………………………. 34

4.1 Distancias geodésicas ………………………………………………… 34

4.2 Curvaturas de superficies …………………………………………….. 39

5 Algoritmos de comparación de modelos faciales ……………………………… 44

5.1 LDA: Análisis Discriminante Lineal …………………………………. 44

5.2 Error cuadrático medio ………………………………………………… 48

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 2


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

6 Verificación experimental …………………………………………………….. 50

7 Conclusiones, limitaciones y futuras líneas de investigación ………………… 56

8 Glosario ……………………………………………………………………….. 60

9 Anexos …………………………………………………………………………. 62

9.1 Calibración de una cámara digital : método simplificado …………… 62

9.2 Configuración normal de dos cámaras: Cálculo de las coordenadas del


punto objeto ……………………………………………………………..... 65

9.3 Configuración general de dos cámaras: Cálculo de las coordenadas del


punto objeto. Caso general. …………………………………………… 67

9.4 Propiedades de la triangulación de Delaunay ………………………… 70

9.5 Desarrollo de la obtención de las curvaturas de superficie ……………. 72

10 Referencias y bibliografía …………………………………………………..... 76

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 3


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

1 Introducción
Los seres humanos se reconocen entre sí por medio de los rostros, se puede decir que
se almacenan en la memoria las imágenes de las caras de gente que se conoce. Para
ello, se tienen en cuenta los rasgos característicos que permiten identificarlas.
Generalmente se logra el reconocimiento aún con cambios importantes producto del
paso del tiempo, el uso de accesorios y maquillaje entre otros. Esta capacidad es
excelente para reconocer caras de conocidos, aunque no es tan buena cuando se trata
de caras poco familiares.

El progreso computacional de las últimas décadas, permitió automatizar el


reconocimiento facial modelizando los mecanismos de la percepción visual de los
seres humanos con el objeto de poder emplearlo en diversos campos de aplicación,
principalmente, en los casos que se requiere mejorar la seguridad a todo nivel.

En la actualidad los métodos biométricos para el reconocimiento de las personas


resultan de sumo interés, debido a que los métodos convencionales, como solicitar
algún documento de identidad, el uso de una tarjeta electrónica o contraseña personal,
no son ni suficientemente seguros, ni prácticos.

El reconocimiento facial biométrico es un método interesante dada su característica de


no invasivo, por lo cual puede ser usado incluso sin el conocimiento y colaboración
del sujeto. Además, un reciente estudio sobre el reconocimiento facial humano versus
el computacional, realizado por [Phillips et al, 2007] demostró que sobre una misma
muestra de personas, los sistemas de reconocimiento facial, desarrollados en la última
década, se han perfeccionado al punto de ser capaces de alcanzar los mismos niveles
que los mecanismos del ser humano y son mejores a la hora de detectar falsos
positivos, es decir, casos donde una cara se da por reconocida contra otra que no es la
correspondiente. Esto se debe a que en la respuesta perceptiva intervienen factores
subjetivos. Sin embargo, los sistemas automáticos no son de todos modos
suficientemente confiables debido a diversos factores que afectan su eficiencia como
por ejemplo, la iluminación de las imágenes, deformaciones gestuales, cambios
fisonómicos (barba – bigote – cirugías), uso de accesorios o adornos (anteojos – aros),
el punto de vista, oclusiones, escala de la imagen, entre otros. Por esta razón, la
mayoría de los sistemas actuales exigen ciertas restricciones para funcionar
correctamente. Pese a ello, diversos estudios realizados demuestran que aún sirven
como apoyo de la seguridad.

Actualmente se busca mejorar la calidad del reconocimiento facial a través del uso de
datos tridimensionales (3D), dado que los mismos son menos sensibles que los
bidimensionales, a los cambios de luz, variaciones de postura en la imagen,
maquillaje y expresiones faciales (a condición que se tomen ciertos puntos de la cara).
Los modelos tridimensionales faciales proveen información sobre características de la
superficie de la cara, que varios de los nuevos algoritmos están utilizando para
optimizar el reconocimiento facial.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 4


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Este trabajo se orienta al reconocimiento de las caras a partir de sus modelos


numéricos 3D, obtenidos por técnicas de estereoscopía. En este caso, los modelos
numéricos de una misma cara si bien deben ser intrínsicamente idénticos pueden
haber sido obtenidos en cada caso con la cara ubicada en posición diferente respecto
del referencial del mecanismo de toma. Es por esta dificultad que aquí se busca
comparar los modelos numéricos identificando sus propiedades intrínsecas, es decir,
propiedades independientes del referencial, y no por medio de una roto-traslación que
superponga las caras que se quieren comparar.

Este desarrollo apunta a hacer robusta la etapa de reconocimiento por medio de


modelos numéricos 3D de las superficies faciales (MNSF). Se identifica si la persona
está o no autorizada comparando las propiedades intrínsecas del MNSF elaborado a
partir de la imagen estereoscópica obtenida, con las propiedades intrínsecas de los
MNSF que se encuentran en la base o galería de conocidos, logrando así un control de
acceso automático.

1.1 Motivación
El reconocimiento facial es un método biométrico que tiene un vasto campo de
aplicación en el mundo tecnológico de la actualidad, en especial, en lo que respecta a
la seguridad.

Por ejemplo, podría ser utilizado en menor escala en sistemas de acceso para las
empresas, reconocimiento de amigos en las redes sociales, búsqueda de caras por
similitud, identificación en un celular o computadora, acceso a cajeros automáticos. Y
a gran escala, podría ser instrumentado por las autoridades para la localización de
personas buscadas, control de pasaportes, seguridad en calles, en estadios de fútbol,
en recitales o en aeropuertos.

Los mecanismos automáticos de reconocimientos de caras más conocidos en la


actualidad consisten en comparar imágenes monoculares de las mismas. Esto puede
ser insuficiente dado que el ángulo de toma y los cambios faciales por motivos como,
por ejemplo, la iluminación, postura, expresión facial, uso de maquillaje y uso de
accesorios dificultan la identificación.

En el desarrollo de este trabajo, con el objetivo de generar un método de


reconocimiento facial con un alto nivel de efectividad se utilizarán MNSF buscando
mejorar la respuesta ante los posibles problemas de cambios, particularmente pero no
exclusivamente, debido al ángulo de toma. De todas maneras, seguirán presentándose
limitaciones a la hora de realizar los reconocimientos dado que se trabaja con caras
tomadas en condiciones normales o neutrales, es decir sin expresiones particulares, y
sin oclusiones. Queda, entonces la posibilidad de realizar extensiones de este trabajo
con diferentes orientaciones.

Se utilizaron dos criterios para la obtención de propiedades intrínsecas que


permitieron comparar los MNSF. Estas características invariantes del MNSF no
dependen del sistema al que están referidos los puntos que conforman el modelo, por

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 5


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

lo que permiten comparar MNSF tomados en distintos momentos. Para ello es


necesario seleccionar puntos característicos de las caras, siempre los mismos en todas
las imágenes que serán utilizados para el cálculo de las coordenadas de los puntos
seleccionados y que determinarán el MNSF.

Los criterios adoptados son:


Por medio de distancias geodésicas:
Se miden distancias geodésicas entre los puntos que conforman los modelos MNSF.
Se comparan estas distancias con las distancias homólogas correspondientes a cada
MNSF de la base.

Por medio de curvaturas de superficie (curvaturas de Gauss):


Se calcula la curvatura de Gauss en cada punto seleccionado del MNSF y se compara
con los valores homólogos de cada MNSF que se encuentra en la base.

1.2 Estructura de la tesis

En la figura 1.2.1 se describen los pasos comunes a seguir en un proceso de


reconocimiento de rostros. En primer lugar, tenemos la adquisición de la imagen, que
en este caso será una imagen estereoscópica y se obtendrá a través de dos cámaras
calibradas y ubicadas de manera ortonormales, los ejes de toma paralelos y normales
al segmento que une los puntos de vista de las cámaras y las líneas de píxeles
paralelas a dicho segmento. Este tema se retomará en la sección 3.1.

Luego se calculan las coordenadas tridimensionales, a partir de la ubicación de puntos


homólogos, puntos en las imágenes, correspondientes al mismo punto en el espacio
objeto. La identificación de los puntos homólogos se realizará con asistencia manual
en ambas imágenes a fin de minimizar el efecto de una mala puesta en
correspondencia y asegurar de manera independiente la evaluación de los algoritmos
propuestos.

A continuación se ejecuta la triangulación bidimensional del modelo utilizando el


algoritmo de Delaunay para obtener el MNSF como una superficie discreta formada
por superficies elementales planas triangulares. Este proceso será explicado en la
sección 3.2.

Con el MNSF de cada individuo, se procederá al cálculo de los valores de las


propiedades características utilizando distancias geodésicas y curvaturas gaussianas.
En la sección 4.1 se explica de qué manera se determinan y aplican las distancias
geodésicas y en la sección 4.2 cómo se calculan las curvaturas gaussianas, en este
caso, dado que nos encontramos con una superficie faceteada en triángulos.

Por ultimo, en el capítulo 5 se detalla cómo se realiza la comparación con el resto de


los individuos incorporados previamente en la galería, es decir, la base de caras.
Como resultado de la aplicación del algoritmo de comparación, se obtiene la
identificación o no del rostro ingresado.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 6


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

En el capítulo 6 se realiza un informe de verificación experimental de los resultados


obtenidos y luego, en el capítulo 7 se detallan las conclusiones y las futuras líneas de
investigación.

Figura 1.2.1 - Pasos a seguir para el reconocimiento de rostros

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 7


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

2 Estado del arte [Pereyra, P. et al, 2013]

El progreso computacional de las últimas décadas, permitió automatizar el


reconocimiento facial modelizando los mecanismos de la percepción visual de los
seres humanos con el objeto de poder emplearlo en diversos campos de aplicación
(Tabla 2.1), siendo principalmente en los casos que se requiere mejorar la seguridad.
En la actualidad los métodos biométricos para el reconocimiento de las personas
resultan de sumo interés, debido a que los métodos convencionales, como de solicitar
algún documento de identidad, el uso de una tarjeta electrónica o contraseña personal,
no son ni suficientemente seguros, ni prácticos.
El reconocimiento facial es un método biométrico interesante dada su característica
particular de no invasivo, por lo cual puede ser usado incluso sin el conocimiento y
colaboración del sujeto.
Diversas técnicas se han implementado a fin de realizar un reconocimiento facial.
Siendo el reconocimiento mediante modelos 3D uno de los últimos caminos que se ha
abordado y con mayor expectativa de éxito.
Áreas Aplicaciones Especificas
Entretenimiento videos juegos, realidad virtual,
programas de entrenamiento,
interacción robot-humano

Tarjetas Inteligentes Licencias de conducir,


programas de ayuda social
pasaporte, documento de
identidad nacional, registración
de voto, fraudes en asistencia
social
Seguridad de la Información supervisión adulta de TV,
ingreso a sesión en dispositivo
portátil y/o PC
seguridad en aplicaciones,
seguridad en base de datos,
encriptación de archivos,
seguridad intranet, acceso a
internet, registros médicos,
seguridad en terminales
comerciales
Aplicación de la ley y vigilancia control CCVT, vigilancia
avanzada por video ,
robo en tiendas, seguimiento e
investigación de sospechoso

Tabla 2.1– Aplicaciones típicas de reconocimiento facial según [Zhao et al, 2003]

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 8


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

2.1 Comienzos de la estereoscopía


La humanidad, desde sus comienzos, ha pretendido representar las imágenes de su
alrededor en forma tridimensional [Fernández Sánchez, 2000]. Es el caso de los
primeros pintores en las famosas cuevas de Lascaux, datadas de 16.000 años. En la
cueva francesa, bajo la luz tenue de la antorcha, pueden tomar una calidad
tridimensional las representaciones de ciervos, búfalos u otras escenas de animales
como se muestra en la figura 2.1.1.

Figura 2.1.1 - Pintura de cueva de Lascaux en Francia.


Figura obtenida de «Cuevas de Lascaux – Wikipedia, the free encyclopedia»

El interés por el fenómeno de la tridimensionalidad visual se remonta a la Grecia


clásica. En el siglo III A.C. el matemático griego Euclides, estudió en su tratado
titulado "Óptica" la relación entre la visión en relieve y el hecho de que los seres
humanos dispongan de dos ojos. Ya en el siglo II de nuestra era, el médico griego
Galeno describiría también lo que supuso una profundización de una teoría razonada
de la visión de la perspectiva a través de los dos ojos. Supo, por observación, que si se
tapaba un ojo, la imagen del entorno cambiaba ligeramente [Fernández Sánchez,
2000].
Sería en 1833 cuando se descubre un dispositivo notablemente sencillo que reproduce
la tridimensionalidad: El estereoscopio de Charles Wheatstone (ver figura 2.1.2), un
físico escocés que trabajó antes de que se inventara la fotografía, fue el primer y
principal avance que conduciría a toda una larga cadena de aparatos e invenciones
para ver en relieve. Dicho estereoscopio constaba de dos espejos colocados en ángulo
con respecto al observador y una imagen situada frente a cada espejo. Wheatstone
llegó a la conclusión de que las diferencias visuales, que presentan ambos ojos eran el
origen de la percepción en relieve.
Pocos años después, David Brewster, un científico e inventor escocés, diseñó y
construyó la primera cámara fotográfica estereoscópica, con la que obtuvo las
primeras fotografías en relieve. Y construyó también un visor con lentes para
observarlas. [Fernández Sánchez, 2000].

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 9


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Figura 2.1.2 - Estereoscopio de Charles Wheatstone.


Figura obtenida de « La vida en 3D »

2.2 Historia del reconocimiento facial


El reconocimiento facial es un concepto relativamente nuevo, las primeras
investigaciones se remontan a la década de 1950 en el área de la psicología (Bruner y
Tagiuri 1954), y a la década de 1960 en la literatura ingenieril (Bledsoe 1964). Este
concepto hace referencia a la acción de reconocer a una persona mediante su rostro,
teniendo en cuenta todas las características posibles que puedan visualizarse o
medirse.
En los primeros trabajos, en los años 60, según [Duane Blackburn et al, 2006], las
técnicas desarrolladas eran un sistema semiautomático para reconocimiento facial que
requería de un “administrador” (la persona que lo utilizaba), para localizar rasgos
(ojos, orejas, nariz, boca) en las fotografías. Y se comparaban las distancias medidas
entre los puntos de referencia elegidos. Este es el caso del proyecto de Bledsoe, donde
una persona utilizando una tabla RAND tomaba coordenadas de distintos puntos en
una fotografía como por ejemplo, el centro de las pupilas, los bordes internos y
externos de los ojos, entre otros. Y se realizaban mediciones de unas 20 distancias:
ancho de la boca, ancho de los ojos, distancia entre pupilas. Esta información se
asociaba al nombre de una persona y pasaba a formar parte de la base de caras. Luego
en el proceso de identificación se comparaban las distancias de la nueva fotografía
con los datos de la base y se retornaba la más cercana.
En el trabajo de Goldstein, Harmon, & Lesk (1971), se usaron 21 marcadores
subjetivos específicos tales como el color del cabello, grosor de labios, largos de las
orejas, los cuales eran medidos por un operador en cada fotografía, y luego el sistema
se encargaba de comparar estas medidas para realizar el reconocimiento facial.
Recién en la década de 1970 comenzó la idea de implementar un reconocimiento
facial automático a diferencia del semiautomático que se venia utilizando. El trabajo
de [Kanade, 1973] se baso en analizar las imágenes mediante un programa encargado
de procesar las imágenes para obtener características faciales de manera automática,
entre ellos estaban la nariz, los borde de los ojos, boca, mentón. Luego se utilizaban
distancias euclídeas ponderadas entre estos puntos a fin de medir la similitud entre las
caras y realizar así su reconocimiento.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 10


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

En 1987 Kirby & Sirobich aplicaron una técnica del álgebra lineal llamada análisis de
componentes principales (PCA, Principal Component Analysis), al problema del
reconocimiento facial. Con lo que demuestran que cualquier cara puede ser
representada por la mezcla de un conjunto de caras que conforman una base llamadas
“eigenpictures”, con un error de hasta 3%. Lo cual fue considerado hito en la
materia al mostrar que eran requeridos menos de 100 valores para cifrar
acertadamente la imagen de una cara convenientemente alineada y normalizada.
En 1991 [Turk & Pentland, 1991] basándose en las investigaciones de Kirby &
Sirobich, utilizan el PCA, en una técnica que fue conocida como eigenfaces, y se
convirtió en un estándar de comparación de la performance de los nuevos algoritmos
para el reconocimiento de rostros.
El método se basa en tomar un conjunto de caras de entrenamiento con las cuales se
define una cara promedio, los vectores de distancia de las caras a la cara promedio
son sujetos a PCA para obtener los autovalores y autovectores ortonormales que
mejor describen la distribución de datos. Son estos autovectores los llamados
eigenface, que se utilizan luego para mediante una combinación lineal definir una
cara.
Al querer reconocer una nueva imagen de una cara, esta se proyecta en el espacio de
caras y se obtienen su combinación lineal. Para determinar a que clase pertenece se
minimiza la distancia euclídea con cada clase, y si esta debajo de cierto umbral se la
clasifica perteneciente a dicha clase y sino no se la reconoce. Además el algoritmo
puede detectar si no se identifico porque no es una cara o porque la cara es nueva, con
lo cual da la opción de agregarla a la base.
De todos los algoritmos utilizados en el campo del reconocimiento facial 2D, existen
tres algoritmos que son los más estudiados y aplicados por sus óptimos resultados
como se señala en [Zhao et al, 2003]: Análisis de componentes principales (PCA -
Principal Componen Analysis), el Análisis Lineal Discriminante (LDA – Linear
Discrimant Analysis) y Correspondencia entre Agrupaciones de Grafos Elásticos
(EBGM - Elastic Bunch Graph Matching).
El método de análisis de componentes principales (PCA), es el más conocido y como
se menciono anteriormente se ha tomado como parámetro de comparación para los
nuevos algoritmos. Y el trabajo más reconocido utilizando esta técnica es el realizado
por [Turk & Pentland, 1991] con sus reconocimiento facial mediante Eigenfaces.
De acuerdo con [H. Zhao et al, 2008] varios métodos de reducción de dimensiones
han sido aplicados en el campo de reconocimiento facial con éxito. Fisher Linear
Discriminant Analisys ( FLDA) , una versión de LDA, es uno de los más populares,
pero hay varias otros métodos basados también en LDA que se han aplicado con
buenos resultados, y que buscaron superar las falencias de FLDA como ser el
problema de singularidad conocido como Small Simple Size ( SSS ), dado cuando hay
una sola imagen por cada individuo.
Básicamente LDA, como se indica en [Duane Blackburn et al, 2006], es una técnica
de clasificación de datos que mediante una aproximación estadística busca clasificar
muestras de clases desconocidas basadas en ejemplos de entrenamiento con clases
conocidas. Esta técnica busca maximizar la varianza entre las clases (between-class),
es decir entre las caras de cada persona distinta, así como también minimizar la
varianza de cada clase (within-class), es decir entre caras de un mismo individuo.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 11


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

En el estudio realizado por [Belhumeur et al, 1997] se utilizo FLDA para implementar
el reconocimiento de rostros con FisherFaces, y se lo comparo con el método
Eigenfaces, obteniendo como resultado que el método FisherFaces es mejor a la hora
de lidiar simultáneamente con la variación de luz (incluye intensidad, dirección y
número de fuentes de luz) y expresiones faciales.
Como se detalla en [Sigari et al, 2007] en el método EBGM, se definen varios puntos
específicos de la cara (como ser esquinas de los ojos, punta de la nariz, etc) que van a
ser los mismos aun cuando varié la postura. Y mediante la aplicación de un filtro de
transformación Gabor, se procesa la imagen y se crea una arquitectura que proyecta el
rostro sobre una grilla elástica. Cada nodo de la grilla es conocido como jet gabor,
que describe el comportamiento de la imagen alrededor de un píxel. El modelo
obtenido para cada imagen de la cara con los jet gabor se denomina image graph.
Se genera con algunos de los modelos que conforman la galería de entrenamiento, que
tienen la misma postura, un gráfico genérico con la combinación de varias caras
llamado face bunch graph(FBG), el cual se utiliza para generar el image graph de
nuevas caras, ayudando de esta manera a ubicar los puntos específicos. Al inicio esto
se realiza en forma manual, pero a medida que se enriquece el modelo con caras de
entrenamiento se hace en forma automática este reconocimiento de puntos en las
imágenes de las nuevas caras.
Para realizar el reconocimiento se compara el image graph de la nueva cara a
reconocer, contra todos los modelos de la galería de entrenamiento basándose en una
función de similitud. Esta función de similitud puede formularse de distintas formas,
siempre teniendo presente que es la responsable de que se realice un buen
reconocimiento.
Por ejemplo en [Wiskott et al, 1999] se ha tomado esta función de similitud como un
promedio de la similitud entre pares de jets correspondientes.

2.2.1 Clasificación de los métodos de reconocimiento facial


En general, varios son los métodos que se han propuesto para llevar adelante un
reconocimiento facial, al ser un problema tan interesante, investigadores de varias
ramas han intervenido en el mismo, por lo cual la literatura sobre el tema es vasta y
diversa. Por este motivo, es difícil realizar una clasificación de los métodos existentes
pero entre las posibles, se adoptara la indicada en [Zhao et al, 2003] donde se pueden
identificar tres clases a un nivel alto: los holísticos, los basados en características y los
híbridos.
Según [Zhao et al, 2003] los holísticos, utilizan toda la región de la cara y han
demostrado ser efectivos en experimentaciones con grandes bases de datos (por
ejemplo: eigenface - fisher faces). Los basados en características, buscan obtener
características locales como los ojos, la boca, la nariz y utilizan un clasificador
estructural. Estos han sido exitosos y comparados con los holísticos son menos
sensibles a las variaciones de luminosidad, puntos de vista y a inexactitudes en la
localización de la cara, sin embargo las técnicas de extracción de características
necesitan ser confiables y precisas para poder obtener una buena respuesta en el
reconocimiento facial.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 12


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

En el caso de los híbridos, se utiliza un sistema de percepción más similar al humano,


ya que combinan métodos holísticos con métodos de características faciales, lo cual
potencialmente podría obtener lo mejor de ambos, pero no es un campo en el que se
haya profundizado.
En la tabla 2.2.1.1 se puede observar la clasificación indicada y los métodos más
utilizados de cada clase.
Método Trabajos
Holísticos Principal Component Análisis (PCA)
Eigenface
Probabilistic eigenface
Fisherfaces / subspace LDA
SVM
Evolution pursuit
Features lines
ICA
Otros
LDA / FLD
PDBNN
Basados en Características Pure geometry methods
Dynamic link architecture
Hidden Markov model
Convolution Neural Network
Híbridos Modular eigenface
Hybrid LFA
Shape-normalized
Component-based
Tabla 2.2.1.1 - Categorización de Métodos sobre Imágenes Estáticas según [Zhao et al, 2003]

2.3 Reconocimiento 3D
Existió un test de evaluación para los algoritmos comerciales y prototipos de técnicas
de reconocimiento facial, llamado Face Recognition Vendor Test (FRVT) realizado
por The Nacional Institute of Standarts and Technology (NIST), cuyas evaluaciones
fueron realizadas en el 2000, 2002 y 2006 por última vez. Mediante el análisis de
estas pruebas realizadas se pudo obtener información para determinar como las
técnicas de reconocimiento facial pueden ser mejoradas y recomendar futuras
direcciones de investigación.
Como resultado de la última evaluación realizada en el 2006, como señala [Phillips et
al, 2007], se obtuvo que desde 1993 al 2006 se ha mejorado en dos órdenes de
magnitud el porcentaje de error (ver figura 2.3.1). Para realizar la comparación se
utiliza el estudio realizado con eigenfaces de [Turk & Pentland, 1991]. También se
han tenido en cuenta para medir el avance de los algoritmos, los resultados de las
evaluaciones del test Face Recognition Technology (FERET), que fuera realizado
previamente en 1994, 1995 y 1996.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 13


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Figura 2.3.1 - La reducción en el promedio de error para los algoritmos de reconocimiento de rostros
en base a las evaluaciones de FERET, FRVT 2002 y FRVT 2006.
Figura obtenida de [Phillips et al, 2007]

En base al análisis, también se concluyo, como indica [Bowyer et al, 2005], que el
actual estado del arte del reconocimiento facial 2D es insuficiente para la alta
demanda biométrica de las aplicaciones, a partir de lo cual intentar usar información
3D se ha vuelto la dirección de búsqueda emergente con la esperanza de hacer que el
reconocimiento facial sea más exacto y robusto.
Por esta razón, a pesar de que históricamente es muy poco el trabajo realizado en esta
área, en los últimos años han aumentado ampliamente las investigaciones usando
información 3D.
Actualmente, la mayoría de los estudios de reconocimiento facial 3D se han orientado
hacia el uso de técnicas holísticas o de técnicas de apareo de superficies 3D. [Gupta et
al, 2007]. Entre los métodos holísticos se encuentran por ejemplo PCA, LDA, que
representan un avance de las técnicas que fueron bastante exitosas con imágenes 2D.
Incluso el algoritmo 3D PCA es, también, considerado como un referente de
evaluación de la performance de otros algoritmos de reconocimiento facial 3D.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 14


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

De acuerdo con la totalidad de la bibliografía sobre reconocimiento facial, se admite


que los factores circunstanciales de los cuales depende la apariencia facial son los que
se deben tomar en consideración para obtener resultados satisfactorios. Entre ellos
tenemos luminosidad, escena de fondo, postura de la cabeza, pelo facial, uso de
maquillaje, joyas, piercings, cirugías plásticas, proceso de envejecimiento, aumento y
disminución de peso, expresiones faciales, resolución de las imágenes, entre otros. Si
se busca la geometría tridimensional del rostro como en [Bronstein et al, 2005] se
representa la estructura anatómica interna de la cara, en vez de su apariencia externa,
que es influenciada por los nombrados factores del entorno. Por lo cual, las
superficies faciales 3D son insensitivas a la iluminación, postura de la cabeza y
cosméticos, aunque, por ejemplo, siguen teniendo problemas con las expresiones
faciales, pero mejoran el reconocimiento y, en general, se ha encontrando que tienen
mejor desempeño que algunos algoritmos de 2D.

2.3.1 Técnicas de obtención de modelos 3D


Para obtener los modelos 3D faciales se pueden utilizar distintas técnicas entre ellas:
Escáner Facial (Laser Facial Scanning): genera un modelo 3D detallado y registrando
la textura de la cara, pero requiere la cooperación del individuo por varios minutos
mientras el escáner recorre alrededor de su cabeza. Generalmente requiere un
tratamiento extra la imagen por el ruido que obtiene. No es un método muy utilizado
debido a su alto costo. Recientes investigaciones fueron realizadas sobre modelos 3D
de las caras, obtenidos mediante escáneres de láser, como sucede en las tomas
realizadas para la base de datos de caras BJUT-3D llevada a cabo por la universidad
de Beijing [Chinese Face Database, 2005]. Estos modelos, aunque son bastante
exactos, necesitan la cooperación de la persona, insumen largos tiempos en la
realización del escaneo y algunos presentan limitaciones, como por ejemplo, la
necesidad de tapar el pelo, por lo cual es necesario que la persona utilice un gorro de
natación. Esta mayor cooperación e interacción de la persona es una desventaja que
anula el principal factor por el cual el reconocimiento facial es más requerido, su uso
sin necesidad de cooperación del individuo en cuestión.
Tomografía Computada (Computed Tomography Scan) : tiene un alto costo y el sujeto
debe exponerse a radiación, por lo cual tampoco es un método con una amplia
aplicación.
Estereoscopía (Stereo-photogrammetry): es una técnica pasiva donde mediante el uso
de dos o más cámaras debidamente calibradas se obtiene la reconstrucción
tridimensional de la superficie facial. Presenta dificultades por la necesidad de una
correcta calibración.
Pero por otro lado tiene la ventaja de no ser intrusiva para el sujeto y no requiere la
cooperación del mismo.
El uso de la estereoscopía para la obtención de un modelo tridimensional facial es más
viable y sencillo, dado que se puede realizar a partir de dos imágenes normalizadas, la
toma se hace casi instantáneamente y el equipo necesario a utilizar es de muy bajo
costo comparado con un escáner tridimensional. Sin embargo, [Samani et al, 2006]
apunta como desventaja que si bien varias de las técnicas estereoscópicas utilizadas
reportaron una exactitud por encima del 90%, una precisa calibración de las cámaras
fue necesaria. Lo cual resulta difícil realizar fuera de las condiciones de laboratorio,
por lo que se degrada la reconstrucción y posterior reconocimiento.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 15


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Luz estructurada (Structure Ligth imaging system): se usa la proyección de un patrón


de luz conocido para obtener las coordenadas 3D a partir de una sola imagen. Es un
método rápido y barato, pero como debilidad de este método se tiene que las regiones
mal iluminadas pueden generar pérdidas de datos y el resplandor causado por el
proyector es molesto para los individuos.

2.3.2 Métodos de reconocimiento facial 3D


Entre los métodos de reconocimiento facial tridimensionales, podemos distinguir dos
grandes grupos en base a la información que utilizan:
3D Puro
Son las técnicas que utilizan solo información de imágenes tridimensionales. En la
tabla 2.3.2.1 se detallan algunos de los estudios realizados utilizando solo figuras 3D.

Tabla 2.3.21 - Algoritmos de reconocimiento facial utilizando 3D [Bowyer et al, 2005]


3D Multimodal
Son las técnicas que utilizan la información conjunta de imágenes tridimensionales y
bidimensionales. Como se señala, en el estudio realizado por [Bowyer et al, 2005]
sobre métodos 3D multimodales, no fue hasta el año 2000 que se empezaron a evaluar
algoritmos que combinan resultados de datos en 2D y 3D. La forma más común es
utilizar separadamente los datos 2D y 3D para luego combinar los resultados. En
general, en base a los resultados reportados dicha combinación tiene una respuesta
mucho mejor que cuando se utilizan las mismas técnicas 2D y 3D por separado. Ver
tabla 2.3.2.2 para un detalle de las investigaciones sobre los métodos multimodales.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 16


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Tabla 2.3.2.2 - Algoritmos usando combinación de datos 3D y 2D [Bowyer et al, 2005]

Otra posible clasificación de los sistemas de reconocimiento facial 3D se basa en la


forma de representación de la cara teniendo en cuenta lo descrito por [GÖkberk,
2006], que esta influenciado por lo especificado en [Akarun et al, 2005]. Se pueden
definir unos 5 grupos:
- Nube de puntos ( Point Clouds)
La superficie facial es representada mediante una nube de puntos 3D, que son
un conjunto de muestras en coordenadas (x,y,z). Es la forma más básica de
representación así como también la más difícil de trabajar.
El método más utilizado con esta forma de representación es ICP ( Iterative
Closest Point) en el cual dadas dos nubes de puntos de distintas caras, el
algoritmo busca mediante rotación y traslación en forma iterativa alinear un
modelo al otro. Una de las desventajas de este algoritmo es el alto costo
computacional que tiene comparar cada cara de prueba con la galería de caras
a fin de realizar el reconocimiento.
Koudelka [GÖkberk, 2006] primeramente localiza varios puntos específicos
de la cara como la punta de la nariz, centro de la boca y bordes de los ojos
entre otros, y luego toma 150 puntos al azar cercanos. Con estos puntos se
realiza la comparación utilizando una mezcla de los algoritmos ICP y
Hausdorff.
Medioni y Waupotitsch [Bowyer et al, 2005] utilizan ICP en imágenes
estereoscópicas para un sistema de autenticación obteniendo un error bajo
(menos del 2%) en el reconocimiento realizado sobre una base de 100
personas con 7 imágenes por cada individuo.
- Imágenes de profundidad ( Depth Images)
Se utiliza la intensidad de las imágenes en 2D para obtener la profundidad.
Cada píxel en la imagen de profundidad representa la distancia del punto 3D a
la cámara.
Con las imágenes de profundidad el problema de reconocimiento facial 3D
pueden ser tratado como un problema de 2D, por lo cual pueden utilizarse
cualquiera de los algoritmos anteriormente mencionados para el
reconocimiento 2D como han de ser PCA, LDA.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 17


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Entre los métodos de reconocimiento facial 3D multimodal con imágenes


estereoscópicas tenemos el uso de “composite image”, según Samani et al,
(2006) donde se utiliza información de intensidad y profundidad para obtener
el modelo de la cara y luego se aplica el método de reconocimiento de
eigenface.
En este método además de la imagen 2D con sus valores de intensidad, se usa
una imagen llamada 2½ D, donde la profundidad se codifica directamente en
la imagen 2D, los valores de los píxeles se corresponden con la misma. Esta
representación permite utilizar las técnicas de reconocimiento de imágenes 2D.
La técnica eigenface se aplica en la imagen 2D, 2 ½ D y en el espacio
compuesto (formado por ambas imágenes 2D y 2 ½ D), obteniéndose como
resultado que la precisión del reconocimiento es menor que la citada en otros
estudios, lo cual se aduce a que no se ha tenido extenso cuidado en el proceso
de adquisición de datos. Los resultados obtenidos también evidencian que en
el espacio compuesto, donde se combina información de intensidad y
profundidad se obtienen mejores niveles de reconocimiento que en los casos
que se utiliza la información por separado.
- Curvas Faciales ( Facial Curves)
Se extraen curvas verticales, horizontales y del contorno de la superficie facial
y se representa la misma utilizando características obtenidas de dichas curvas
2D.
Como primer trabajo en el campo tridimensional podemos ubicar el realizado
por Cartoux en 1989, según [Bowyer et al, 2005]. En el mismo se realiza una
segmentación de una imagen de rango basándose en la curvatura principal para
encontrar un plano bilateral de simetría de la cara, el cual se utilizaba para
normalizar la pose de la misma.
Luego se utilizan métodos para comparar los perfiles desde el plano de
simetría y con la superficie de la cara.
Gordon como se describe en [Bowyer et al, 2005], propuso un método basado
en curvaturas, donde se extraen un conjunto de características que describen
curvatura y mediciones de la cara. Cada cara se transforma en un punto en el
espacio de características y se realiza una comparación de vecino cercano.
- Geometría Diferencial (Differential Geometry)
Se utiliza geometría diferencial para obtener características de la superficie
que son invariantes ante transformaciones como rotación y traslación.
En el trabajo de [Gupta et al, 2007] con modelos 3D se localizan manualmente
unos 25 puntos antropométricos y se toman distancias euclídeas y geodésicas
entre los mismos. Estos puntos fueron seleccionados en base al trabajo
realizado por Farkas, donde se observa que son los que presentan mayor
variación entre los individuos con lo cual ayudan a realizar el reconocimiento
de los mismos.
Luego se clasifica el reconocimiento de una cara mediante la aplicación de
LDA entre los modelos.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 18


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Entre las conclusiones se indica por un lado, que el reconocimiento es mejor si


se utilizan estos puntos antropométricos que agregan conocimiento extra de la
cara, que si se utilizan puntos arbitrarios. Y por otro lado, que la utilización de
distancias geodésicas hace al algoritmo más robusto frente a las expresiones
faciales, ya que como las mismas pueden ser modeladas como deformaciones
isométricas de superficie facial, entonces las propiedades intrínsecas se
mantienen constantes como es el caso de la distancia geodésica.
- Geometría basada en características faciales ( Geometrical Features)
Como en los inicios del reconocimiento facial 2D, se ubican varias
características faciales como la punta de la nariz, ojos y boca y se obtienen
distintas mediciones de las mismas como ángulos, distancias, longitudes.

2.3.3 Aplicaciones comerciales desarrolladas


En la tabla 2.3.3.1 se detallan algunas empresas que ofrecen aplicaciones de
reconocimiento facial:
Empresa Aplicación
Visaje Technology Reconocimiento facial. Identificación de
http://www.l1id.com/pages/18 individuos en checkpoints: reconocimiento
de personas buscadas, entre otros objetivos.
FaceKey Corp. Reconocimiento facial para control de
http://www.facekey.com/ acceso
Cognitec Systems Reconocimiento facial en video, control de
http://www.cognitec- frontera, identificación de sospechosos
systems.de/ personas perdidas, control de acceso.
Passfaces from ID-arts Control de acceso complementario al
http://www.id-arts.com/ existente o para su reemplazo.
ImageWare Sofware Control de acceso mediante una
http://www.iwsinc.com/ combinación de varios métodos
biométricos entre ellos reconocimiento
facial
BioID sensor fusion Reconocimiento biométrico mediante cara,
http://www.bioid.com/ iris, voz o combinación de las tres para
accesos web o dispositivos móviles.
Biometric Systems, Inc. Dispone de un modulo de reconocimiento
http://www.biometrica.com/ facial para inspeccionar similitud con
sospechosos.
SpotIt for face composite Permite buscar similitudes entre caras,
http://spotit.fbk.eu/SpotIt.html crear identikit en base a las caras, entre
otras opciones.
FaceSDK La empresa de biometría Luxand tiene
disponible un SDK de reconocimiento
facial. El cual será utilizado en este trabajo.
Tabla 2.3.3.1 - empresas que ofrecen aplicaciones de reconocimiento facial

2.3.4 Casos de implementaciones de sistemas de reconocimiento facial


A continuación se enumeran algunas de las aplicaciones de reconocimiento facial
utilizadas en el mundo [«Facial Recognition - Wikipedia, the free encyclopedia»,
2008], pero hay que tener en cuenta que luego de lo sucedido en las torres gemelas,
mucha de las aplicaciones no son dadas a conocer debido a su carácter de uso secreto.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 19


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

- En el distrito de Newham en Londres, se ha utilizado un sistema de


reconocimiento facial en las cámaras de seguridad. Aunque se dice que nunca
ha reconocido ningún sospechoso y el índice de criminalidad bajo pero más
por saber que están las cámaras que porque las mismas realmente funcionaran.
- La Policía Federal Alemana aplica un sistema de reconocimiento facial para
voluntarios para pasar controles fronterizos en el aeropuerto internacional de
Frankfurt Rhein-Main.
- El sistema de aduana de Australia también tiene un sistema de reconocimiento
facial para el control de la frontera llamado SmartGate, que fue implementado
en el año 2009. El mismo compara el rostro de la persona contra la imagen de
un e-pasaporte (ya que contiene la imagen en un microchip), para verificar que
la persona es la titular del mismo. Solo esta disponible para personas de
nacionalidad australiana.

Figura 2.3.4.1 - Sistema SmartGate.


Figura obtenida de « Border crossing »

- En Pennsylvania la justicia utiliza un sistema de reconocimiento facial en


fotografías e imágenes de circuitos cerrados de televisión obtenidas de escenas
de crimen, con el fin de compararla con su base de datos de sospechosos. Se
informa que varios de los crímenes no resueltos han sido descubiertos desde la
implementación del mismo.
- El departamento de estado de US, opera un sistema de reconocimiento facial
para el otorgado de visas. El mismo es uno de los que mayor información
maneja, alrededor de 75 millones de fotografías. Se han realizado aplicaciones
en eventos multitudinarios, como el Super Bowl, para reconocer posibles
criminales y terroristas en el evento.
- Utilización en cajeros automáticos para verificar la identidad de la persona.
Interbank es el primer banco a nivel mundial en evaluar esta tecnología en la
red de Globalnet.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 20


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Figura 2.3.4.2 – Reconocimiento en una terminal ATM.


Figura obtenida de « Seguridad futurista »

- Reconocimiento facial en recién nacidos implementado en Argentina donde se


otorga un documento de identidad que contendrá una imagen del niño. Se
utiliza un sistema desarrollado por expertos argentinos y cubanos.
http://yaerahoraenlaradio.blogspot.com/2012/01/verificacion-facial-para-
recien-nacidos.html
- Next Generation Identification Programme, es un programa implementado en
USA por el FBI, para instaurar un sistema de reconocimiento facial en las
cámaras de vigilancia de todo el país, con el fin de identificar personas
pérdidas, fugitivos o cualquier otro sujeto de interés.
- Las últimas notebooks Toshiba han incorporado un sistema de reconocimiento
facial para tareas que requieren autenticación como iniciar la sesión de un
usuario. El mismo se realiza a través de la cámara integrada que trae el
portátil.
- Face Unlock es una aplicación que permite a los usuarios de móviles con
Android cambiar el desbloqueo del equipo mediante clave por el
reconocimiento de la cara. Previamente el sistema tiene una etapa de
entrenamiento por la cual almacena imágenes de la persona utilizando la
cámara frontal del dispositivo.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 21


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Figura 2.3.4.3 – Imagen del sistema Face Unlock.


Figura obtenida de « Android Ice Cream Sandwich review »

- En Picassa y Facebook existe una funcionalidad capaz de reconocer las caras a


partir de las fotos que suben los usuarios y etiquetarlas, es decir, asociar la
cara con un nombre de usuario.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 22


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 23


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

3 Captura y armado del modelo 3D

3.1 Captación de imágenes estereoscópicas – Modelo pinhole

Para la captura digital de las caras se ha implementado un mecanismo basado en


visión estéreo, con el cual se busca emular la visión humana mediante la utilización
del modelo de dos cámaras fotográficas digitales, con el objetivo de dotar al sistema
de habilidad para realizar medidas sobre el modelo 3D y asegurar cierta precisión.

La principal ventaja de la utilización de un sistema de estéreo visión es que no


requiere de equipos especiales o sofisticados. Por otro lado, su principal desventaja es
su alto requerimiento de procesamiento computacional para la reconstrucción, que en
ciertos casos puede provocar que no sea aplicable a determinados sistemas, por
ejemplo, que involucren tiempo real de manera crítica.

El modelo de cámara utilizado para la reconstrucción tridimensional, se llama pin-


hole (o también cámara oscura o de agujero), en este modelo todos los rayos pasan a
través de un centro óptico, situado a una determinada distancia del plano imagen, y
quedan proyectados sobre dicho plano imagen [Fernández Sánchez, 2000]. Las
cámaras pin-hole son el sistema más simple para captar imágenes y tienen varias
virtudes notables dado que pueden formar una imagen definida y casi sin distorsión de
objetos sobre un campo angular extremadamente ancho y sobre un gran rango de
distancias. Una de sus desventajas debido a la restricción en el acceso de la luz, es o la
necesidad de iluminación muy alta o la lentitud de la toma de las imágenes, dado que
sus tiempos de exposición son extremadamente altos, en rangos de minutos a horas
para la toma de una imagen.

Al realizar el calibrado de las cámaras se necesita tener en cuenta ciertos parámetros


de las mismas, los cuales se pueden separar en dos clases:

- Parámetros Intrínsecos: son propios de la cámara. Son parámetros de la


geometría interna.

1. Distancia Focal (o distancia principal): distancia entre el plano de la


imagen y la lente de la cámara (agujero de la cámara),
2. Punto Central (o punto principal): las coordenadas del punto principal en
píxeles (centro óptico),
3. Factores de escala: tamaño del píxel en milímetros en ambos ejes,
4. Perdida de ortogonalidad: ángulo que forman los dos ejes,
5. Coeficientes de Distorsión; radial, tangencial,…
En la matriz de calibración usada frecuentemente en aplicaciones
estereoscópicas, se consideran α y β los factores de escala, Uo,Vo las
coordenadas del punto principal y γ es el parámetro que representa la falta
de ortogonalidad (en algunos contextos se la llama distorsión). La
determinación de la distorsión se determina en calibraciones previas al uso
de la cámara.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 24


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

- Parámetros Extrínsecos: describen relación espacial entre las cámaras. Son


parámetros de la geometría externa, determinan la posición de la cámara
respecto a un sistema de coordenadas.

1. Parámetros de Rotación: la rotación de la cámara con respecto al sistema


de referencia de la escena
2. Parámetros de Translación: corrimiento de la cámara con respecto al
sistema de referencia de la escena

3.1.1 Descripción de la toma de las fotografías

Se han realizado tomas de fotografías de un conjunto de 18 personas, utilizando un


par de imágenes para incluir en la galería de conocidos y otro par de imágenes para
simular el posterior reconocimiento.

Con el fin de no agregar complejidad a la generación de los modelos tridimensionales


de los rostros, se decidió disponer de una escena estática, es decir, no se encuentran en
movimientos las personas al momento de realizarse la toma de fotografía, y las
cámaras se configuraron con ejes ópticos paralelos normales a la base (segmento que
une ambos puntos principales y líneas de píxeles paralelas a la base). De esta manera
no es necesaria una posterior rototraslación en el momento de localizar los puntos
homólogos y generación del MNSF. Esto se logra, también con dispositivos de dos
cámaras fijas, que se pueden adquirir en el mercado.

La geometría epipolar corresponde a las relaciones geométricas entre dos sensores


planos. En la figura 3.1.1.1, se representa la geometría del modelo de dos cámaras que
fue utilizado para determinar los puntos homólogos y calcular las coordenadas de los
puntos de interés de la escena, en base a las dos imágenes tomadas.

Figura 3.1.1.1 - Modelo pin-hole de las cámaras

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 25


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Con respecto a la separación en horizontal de las cámaras, llamada distancia base (ver
figura 3.1.1.2), en el momento de definirla se tuvo en cuenta que afecta a la
determinación de la profundidad. Según [Mazo Quintas, 2005] “El error de
profundidad es inversamente proporcional a la distancia base, por esta razón, a
mayor distancia base mejor es la estimación de profundidad dado que el error
disminuye. Sin embargo, el aumentar demasiado esta distancia es contraproducente
dado que ira disminuyendo la zona de visión común entre ambas cámaras,
dificultando la puesta en correspondencia de puntos homólogos en las imágenes.
Mediante una buena relación base profundidad se optimiza esta situación.”

Figura 3.1.1.2 - Zona de visión común vs. Distancia base.


Figura obtenida de [Mazo Quintas, 2005]

Teniendo en cuenta lo anteriormente expuesto, se decidió considerar una distancia de


separación de 100mm, un poco superior a la distancia promedio de separación de los
ojos, también llamada separación interpupilar, que es de 65mm, pero suficiente para
asegurar una buena estimación de la profundidad y ayudar al calibrado, sin pérdida de
zonas de visión común.

Las cámaras fueron conectadas a una computadora, donde se previsualiza la imagen


mediante un software desarrollado especialmente para la experiencia, que superpone
una cruz, a forma de mira, (ver figura 3.1.1.3), de cuatro píxeles cada línea, centrada
en el medio de la imagen, y que permite calibrar ambas cámaras con el grillado
colocado detrás de las personas, con separaciones en vertical y horizontal cada 10
centímetros. Esto simplifica los cálculos de la calibración por medio de la matriz
fundamental (ver Anexo 10.1 Calibración de cámaras).

En el eje X (ver figura 3.1.1.3) se busco que las líneas horizontales a utilizar para
centrar fuera la misma en ambas cámaras y en el eje Y se centro con líneas verticales
contiguas separadas 10 centímetros entre si.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 26


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Y
X

(a) (b)
Figura 3.1.1.3 - (a) Ejes cartesianos utilizados. (b) Software de calibrado de la
cámara.

3.2 Modelo 3D del sistema facial

Para la obtención de un modelo 3D a partir de dos imágenes de una misma escena es


necesario realizar un apareo estereoscópico. Esto consiste en la identificación de
puntos correspondientes, pares de puntos, denominados puntos homólogos como se
indica en [Zelasco et al, 1998], “un par de puntos homólogos representan la
proyección de un mismo punto de la escena en las imágenes izquierda y derecha”.
A partir de la identificación de estos puntos homólogos y del conocimiento de los
parámetros internos y externos se obtienen sus coordenadas en el espacio
tridimensional y se genera un modelo numérico de la superficie facial (MNSF).

Los puntos a tomar en las imágenes para armar el modelo numérico tridimensional
están basados en algunos de los puntos frontales utilizados por [Reyes Enciso et al,
2003], donde se tuvo en cuenta el trabajo realizado por L. Farkas, quien en
antropometría craneal, estableció una base de datos de normas antropométrica
mediante la medición y comparación de más de 100 dimensiones (lineal – angular –
contornos de superficie) y proporciones en cientos de personas en un periodo de
varios años. Estas mediciones incluyeron 47 puntos específicos para describir la cara.
Un subconjunto de 20 puntos, indicados en la figura 3.2.1, ubicados en la parte frontal
de la cara, son los que se tendrán en cuenta en este trabajo para la búsqueda de puntos
homólogos.

En el estudio de [Gupta et al, 2007] también se basaron en los puntos propuestos por
L. Farkas para tomar distancias euclídeas y geodésicas, llamadas distancias
antropométricas, a fin de implementar el reconocimiento de rostros. Y hallaron
mediante el análisis, que en sus algoritmos cuando reemplazaron estas distancias
antropométricas por distancias entre puntos faciales arbitrarios el desempeño decreció
sustancialmente, concluyendo que al incorporar conocimiento específico sobre la
estructura de los rostros se mejora la respuesta de los algoritmos de reconocimiento
facial en 3D.

Por lo tanto, es conveniente seleccionar puntos que permitan tomar distancias entre
partes características de la cara antes que puntos arbitrarios donde las distancias no
tienen un valor significativo.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 27


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Figura 3.2.1 - Puntos antropométricos seleccionados

3.2.1 Puesta en correspondencia de puntos homólogos

La puesta en correspondencia de los puntos homólogos, es decir, determinar para cada


punto de la imagen izquierda su correspondiente en la imagen derecha, es uno de los
difíciles problemas que se debe afrontar al formar el modelo tridimensional a partir de
las imágenes estereoscópicas.

Debido a la separación existente entre las cámaras hay diferencias en la ubicación de


los puntos en cada imagen, a lo que se llama disparidad. En base a [Lecumberry,
2005], “estas diferencias relativas en la posición de cada imagen, llamada
disparidad, tiene una relación directa con la distancia (o profundidad) a la que se
encuentran los objetos entre si, y al observador”.

En el caso de la visión humana, el cerebro es capaz de detectar esa diferencia y


reconstruir la estructura de la escena que ve el observador. Pero en el caso de la visión
computacional, es necesario buscar algún tipo de algoritmia que permita realizar esta
relación, conocido como estereopsis digital, siendo este un campo extenso y
actualmente en continuo desarrollo en busca de mejoras.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 28


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

En base a lo que se señala en [Zelasco et al, 1998], el problema esencial de la


estereopsis digital es la identificación automática de puntos homólogos, también
denominado apareo estereoscópico (stereo matching) o problema de la
correspondencia (correspondence problem) de imágenes estereoscópicas. Por esta
razón se ha decidido realizar la correspondencia de puntos homólogos en forma
semiautomática, asistida mediante un programa desarrollado por [Bize, 2012] en el
marco de su trabajo profesional.

En el programa de puesta en correspondencia se muestran las imágenes izquierda y


derecha para permitir la selección de los puntos homólogos. Esta selección puede
efectuarse en forma totalmente manual o en forma semiautomática mediante el uso de
la biblioteca « FaceSDK » de Luxand, la cual es un software propietario.

En este trabajo se utilizó la forma semiautomática donde se detectan los puntos


característicos necesarios en cada imagen y luego de forma manual pueden corregirse
sus ubicaciones, en caso de ser necesario, antes de obtener las coordenadas
tridimensionales. En la figura 3.2.1.1 se muestran las imágenes izquierda y derecha
con los puntos homólogos identificados en ambas.

Figura 3.2.1.1 - Imagen del programa de puesta en correspondencia

Cada punto característico que se detecte se registra con un número de marca


correspondiente (ver figura 3.2.1) y se le calculan las coordenadas tridimensionales en
base a las coordenadas de posición del punto en cada imagen bidimensional. Teniendo
en cuenta además los datos de configuración de las cámaras como son distancia base,
distancia focal y dpi, etc. que deben ser previamente configurados en el programa.

Luego en una base de datos se guarda la información de cada persona que consiste en
el nombre de cada individuo, junto con una referencia a la fotografía utilizada para
realizar los cálculos, y las coordenadas tridimensionales de los puntos marcados.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 29


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

En el anexo 10.2 se describe la geometría para realizar el cálculo de coordenadas en


base a la configuración normal de las cámaras que fue utilizada.

También en el anexo 10.3 se describe en detalle la geometría sobre la configuración


general de las cámaras teniendo en cuenta rotación y traslación de una respecto a otra.

3.2.2 Triangulación de Delaunay

Obtenido el modelo numérico de la cara como una nube de puntos tridimensionales,


se buscara conseguir un modelo digital de la cara o MNSF, mediante una
triangulación de ese conjunto de coordenadas tridimensionales.

El modelo digital de la cara (MDC) haciendo un paralelo con un modelo digital


topográfico, como se define en [Priego de los Santos et al, 2006], es una
representación numérica de las características del rostro a partir de las coordenadas
tridimensionales de los puntos que lo definen. Y con el MDC se logra aproximar una
superficie real y continua a una superficie matemática discreta formada por
superficies elementales planas triangulares.

La triangulación consiste en subdividir un área en una red de triángulos. Dado un


conjunto de puntos tridimensionales hay muchísimas triangulaciones viables, siendo
la más optima aquella en la que se consigan los triángulos más equiláteros posibles.
En el caso de la triangulación de Delaunay deben cumplir una condición: que la
circunferencia circunscripta de cada triangulo de la red no debe contener ningún
vértice de otro triángulo. Ver anexo 10.3 donde se detallan las propiedades de la
triangulación de Delaunay 2D.

En el marco de esta tesis, para realizar la triangulación de Delaunay se utilizó la


biblioteca open source de « CGAL ». Con la misma se construye una triangulación de
Delaunay bidimensional en base a un conjunto de puntos tridimensionales que son
proyectados al plano X-Y con Z = 0. Y se obtiene una malla de triángulos,
conformado por vértices y celdas que están conectadas entre si.

Cada celda resultante de la triangulación tiene la topología de un triangulo y tiene tres


vértices, que son formados por los puntos ingresados para realizar la triangulación;
bordes, formado por la línea de unión entre dos vértices de la celda; caras, formado
por tres vértices conformando cada plano del triangulo (ver figura 3.2.2.1).

Esta información es guardada en una tabla de la base de datos, dado que conforma el
MNSF que se utilizará posteriormente para tomar las mediciones intrínsecas de
distancias y curvaturas utilizadas para el proceso de reconocimiento facial.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 30


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Figura 3.2.2.1 - Celdas obtenidas con Triangulación 2D de Delaunay con « CGAL »

En la figura 3.2.2.2 se muestran dos vistas de frente y perfil de la triangulación


bidimensional de Delaunay obtenidas de un rostro. Esta triangulación representa el
MNSF a utilizar como superficie de trabajo, en la figura 3.2.2.3 se observa la misma
triangulación obtenida superpuesta sobre el rostro indicando como quedaría el modelo
digital resultante de la cara, sobre el que se trabajará.

Figura 3.2.2.2 - Imágenes obtenidas de la triangulación Delaunay 2D de una cara

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 31


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Figura 3.2.2.3 - Triangulación Delaunay 2D superpuesta sobre rostro

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 32


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 33


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

4 Soluciones propuestas para el reconocimiento facial

Obteniendo el MNSF mediante la triangulación de las coordenadas tridimensionales


del rostro, se aplicarán un par de algoritmos sobre el mismo a fin de obtener
información intrínseca representativa que permita posteriormente su comparación con
otros MNSF.

En este trabajo, se han implementado dos métodos de reconocimiento. Uno de ellos


consiste en la medición de las distancias geodésicas, que representan las distancias
más cortas entre dos puntos en una superficie.

Se ha vuelto a imitar el inicio del reconocimiento facial como en los proyectos de


Bledsoe (1964) o el estudio de [Kanade, 1973] donde se median distancias euclídeas
entre puntos característicos de la cara como ser nariz, borde de los ojos y mentón para
luego efectuar las comparaciones. Con la diferencia que al trabajar sobre superficies
podemos medir distancias geodésicas entre los puntos característicos del rostro. Lo
cual brinda ventaja en uno de los problemas que enfrenta el reconocimiento facial,
como es lidiar con expresiones faciales, dado que es un método más robusto que la
medición de distancias euclídeas, lo que puede afirmarse basándose en el análisis de
[Gupta et al, 2007] en donde se realizan mediciones entre puntos característicos de la
cara con distancias euclídeas y geodésicas llegando a la conclusión que ambos
algoritmos tienen un buen desempeño en su aplicación pero son justamente las
distancias geodésicas las que tienen mejores resultados al momento de tener en cuenta
las expresiones faciales. Aunque en el presente trabajo no sea sumamente relevante
dado que se utilizan caras neutras, es una ventaja a tener en cuenta para futuras
investigaciones.

El otro método implementado en el marco de esta tesis, se basa en las mediciones de


curvaturas de superficie como ser las curvaturas gaussianas, cuya ventaja específica
consiste en que se trata de un invariante de superficie y por lo tanto, independiente del
referencial. La curvatura de Gauss se obtiene en determinados puntos específicos
del rostro a partir de las curvaturas principales que son calculadas mediante un
paraboloide osculador tangente a la superficie facial en estos puntos. Esta forma de
proceder permite comparar caras que están en posiciones arbitrarias en el espacio
respecto del referencial. Para el cálculo de las curvaturas principales en una
superficie discreta se presenta un algoritmo que se desarrolló e implementó dentro del
marco de este trabajo basado en un desarrollo teórico de [Zelasco et al, (B)] (ver
anexo 9.5 Desarrollo de la obtención de las curvaturas de superficie).

4.1 Distancias geodésicas


De acuerdo con [Berreti et al, 2007], el uso de distancias para capturar información
facial es directamente motivado por la relevancia que la metrología tiene en la
antropometría facial, la ciencia biológica dedicada a medir el rostro humano. Este
campo ha sido altamente influenciado por el trabajo realizado por L. Farkas en 1994,
llamado Anthropometry of the Head and Face, donde se proponen un total de 47
puntos en la cara, con un total de 132 mediciones (comprendiendo distancias
euclídeas, geodésicas y angulares) en la cara y la cabeza.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 34


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Además como se señala en [Gupta et al, 2007], estudios recientes de la comunidad


científica cognitiva se centraron en la observación del movimiento de los ojos
durante la tarea de aprender y reconocer caras humanas. Y los autores sugirieron que
el movimiento de los ojos era utilizado tanto para obtener detalles acerca de
características especiales de la cara como también para juzgar distancia entre ellas. Lo
que terminaría refutando la idea previa que se tenía, sobre que el reconocimiento
facial es solo un proceso holístico basado en información relacionada entre partes de
la cara. Es decir, se cree que los ojos también realizan mediciones de distancias al
momento del reconocimiento facial.

Las distancias geodésicas son utilizadas en varias aplicaciones gráficas, como por
ejemplo, interpolación radial sobre una malla, propagación sobre una superficie,
calculo de itinerarios de rutas mediante mediciones de distancias, entre otras. En el
caso del reconocimiento facial la motivación de aplicar distancias geodésicas tienen
como justificativos, según [Gupta et al, 2007], que un gran número de proporciones
antropométricas faciales que son utilizadas para caracterizar la forma de las caras
humanas (como en el arte, cosmética facial, etc.) están basadas en las distancias sobre
la superficie facial y, además, estudios recientes en este campo sugieren que es
posible modelar cambios en expresiones faciales como deformaciones isométricas de
la superficie facial.

Definición de distancia geodésica

Se puede definir la distancia geodésica de la siguiente manera [Mpiperis et al, 2006]:


Sea S una superficie y P1 y P2 dos puntos cualesquiera en S, hay una cantidad
infinita de curvas pertenecientes a S que conectan P1 y P2 . La curva con la menor
longitud entre dos puntos es llamada camino geodésico (geodesic path) y su longitud
es la distancia geodésica (geodesic distance).

La distancia geodésica cumple los axiomas de cualquier métrica:


- d( P1 , P2 ) = d( P2 , P1 )
- d( P1 , P2 ) = 0 ⇔ P1 = P2
- d(P1,P3) ≤ d ( P1 , P2 ) + d(P2,P3)

En general, la distancia geodésica es la longitud de una curva que corresponde al


camino más corto entre dos puntos recorrido sobre una superficie que contiene ambos
puntos. En el caso del presente trabajo, al querer calcular las distancias geodésicas
sobre una malla triangular, esta curva es conformada por una secuencia de líneas
rectas a través de las caras de los triángulos, por lo cual es también llamada geodésica
discreta como se señala en [Martínez et al, 2004]. De esta manera se obtiene un
camino geodésico, el cual puede utilizarse para establecer una métrica de distancia
para superficies. En la figura 4.1.1 se grafica la diferencia entre la distancia geodésica
(curva) y la distancia euclídea (recta) entre dos puntos de la cara.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 35


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Figura 4.1.1 – distancia geodésica (azul) vs. distancia euclidea (rojo) obtenida de
[Karima Ouji et al, 2008]

Para el cálculo de las distancias geodésicas en un mallado triangular se tienen varios


algoritmos disponibles, en un estudio realizado por [Surazhsky et al, 2005] se trabajó
sobre dos algoritmos para el calculo de caminos cortos geodésicos ( shortest geodesia
paths) en una malla triangular, con el fin de explorar el problema de generar una
solución exacta y otra aproximada pero de menor orden de procesamiento. También
hay otros dos algoritmos importantes que son utilizados para resolver la distancia
geodésica: Fast Marching on Triangulates Domain (FMTD) y Fast Sleeping (FS).
Ambos algoritmos comienzan desde un punto de referencia e iterativamente
aproximan a la solución exacta con el mismo orden de exactitud. En el caso de
FMTD, este es aplicado en estructuras 3D de malla triangular de la superficie
mientras que FS es aplicado a grillas rectangulares 2D. [Mpiperis et al, 2006].

Se ha decidido utilizar el algoritmo que busca la solución exacta, llamado Algoritmo


Exacto (Exact Algoritm), que es una implementación del algoritmo geodésico exacto
realizado por Mitchell, Mount y Papadimitriou en 1987 (conocido como MMP), con
el cual se obtiene la solución exacta al problema “Un origen, Todos los Destinos”
(Single Source, All Destinations) en una malla triangular. Este algoritmo fue
implementado en el marco del desarrollo de [Surazhsky et al, 2005]. Con respecto a
su performance se puede decir que de manera pesimista corre en un tiempo de O(m2
logm) siendo m el numero de bordes de la malla, pero queda demostrado con su
aplicación que el tiempo es mucho menor en los casos prácticos medidos. El cuello de
botella del Algoritmo Exacto es el espacio de memoria disponible para manejar la
cantidad de ventanas que se crean, las cuales aumentan con la cantidad de vértices de
la malla. En el presente trabajo, al utilizarse tan solo 20 vértices, para representar la
superficie, no se considera esta limitación, porque el algoritmo se ha probado
exitosamente en mallas con más de mil nodos.
Con respecto al funcionamiento, dados una superficie S definida por una malla
triangular y un vértice vs ε S el algoritmo MMP computa una representación explicita
de la función distancia geodésica D: S → R . Para cada punto p ε S, esta función D(p)
retorna la longitud del camino geodésico desde p al origen vs. [Surazhsky et al, 2005]

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 36


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Estos caminos geodésicos son los más cortos y están gobernados por tres propiedades:
• Interior a un triangulo,
• Un camino corto debe ser una línea recta, cuando se cruza un borde,
• Un camino corto debe corresponder a una línea recta si las dos caras
adyacentes son no plegadas en un plano común.

Para realizar el cálculo computacional de la distancia geodésica, cada borde de la


malla se divide en un conjunto de intervalos llamados ventanas (windows). Las
ventanas son luego propagadas a través de la malla mediante el algoritmo de Dijsktra.

(c)
Figura 4.1.2 – Muestra de las ventanas y calculo de las distancias en el mallado.
Figura obtenida de [Surazhsky et al, 2005]

Al querer calcular la distancia desde un vértice origen s a un punto p en el borde de un


triangulo, se puede formar una ventana con todos los caminos cortos desde ese vértice
a todos los vecinos de p, que pasan por las mismas caras de triángulos, como se
muestra en la figura 4.1.2 (a). Esta distancia se codifica en una tupla ( b0 , b1 , d 0 , d1 ,
σ , τ ) que como se observa en la figura 4.1.2 (b) representan b0 y b1 los puntos
terminales de la ventana, una medición de la distancia a lo largo del borde; d 0 y d1
posicionan el vértice s en base a las distancias a los puntos terminales de la ventana;
τ indica la dirección del lado del borde donde cae el vértice origen s.

Como se puede observar en la figura 4.1.2 (c), si se quiere calcular la distancia desde
el vértice origen vs a un punto en un borde, y en el medio se puede encontrar un seudo
vértice origen como s, la distancia total estará dada por la distancia desde vs a s,
indicada por σ , y la distancia desde el seudo vértice origen s al punto del borde.

En este trabajo se han realizado dos tipos de mediciones de las distancias geodésicas,
con el Algoritmo Exacto, a fin de comparar entre los mismos y probar si es
justificable aumentar la información disponible para poder identificar a una persona
determinada.

• Un origen, todos los destinos (GeoOne): En este caso se toma el vértice


correspondiente a la punta interna del ojo derecho, que es fácilmente
distinguible en todas las personas, y se calculan las distancias geodésicas a
todo el resto de los vértices del modelo. (Figura 4.1.3)

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 37


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Figura 4.1.3 – distancia geodésica del modelo un origen, todos destinos

• Todos Origen, Todos Destinos (GeoAll): En este caso se toman todos los
vértices del modelo de a uno por vez y se calculan las distancias geodésicas a
todo el resto. (Figura 4.1.4)

Figura 4.1.4 – distancia geodésica del modelo todos origen, todos destinos

En ambos métodos los caminos geodésicos, que son una sucesión de líneas rectas
sobre los triángulos de la malla facial desde un punto a otro, se guardan como
información junto con el valor de la medición total de distancia.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 38


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Estas distancias entre todos los puntos de la cara se utilizaran luego para comparar y
verificar si se reconoce o no a la persona que desea ingresar en el punto de control de
acceso.

4.2 Curvaturas de superficies

Las curvaturas gaussianas son medidas invariantes de cada punto de las superficies, es
decir, se mantienen independientes al referencial que se utiliza al momento de tomar
las imágenes, permitiendo comparar caras que se encuentran en posiciones arbitrarias
en el espacio respecto del referencial.

La curvaturas principales en un punto p de una superficie continua y derivable Σ son


las que corresponden a los radios máximo y mínimo de los círculos osculadores de las
curvas definidas por la intersección de los planos que contienen al vector normal N a
la superficie Σ en p. La intersección de los planos π1 y π2 con Σ determinan las curvas
planas γ1 y γ2 cuyos radios de curvatura en el punto p son el mínimo y el máximo de
todos los posibles definidos en forma análoga por los planos que contienen N. ( ver
figura 4.2.1 ) [Garcia Rio, 2003].

Figura 4.2.1 – curva intersección de un plano normal con la superficie.


Figura obtenida de [Garcia Rio, 2003]

La curvatura de Gauss se obtiene como el producto de las curvaturas principales, que


es una invariante intrínseca.

Para la obtención de las curvaturas principales a partir de un modelo numérico de


superficie en forma práctica se utiliza el método que se presenta en el anexo 10.4)
[Arellano], donde se calculan curvaturas a partir de un conjunto de puntos que definen
a una superficie.

La implementación consiste en tomar un punto P00=[Xio jo, Yio jo , Zio jo] , vértice de
la superficie y sus vecinos próximos, obteniéndolos mediante un pequeño incremento
según se muestra en la ecu. 4.2.1 .

Se ha de tener en cuenta que la curvatura de Gauss solo se evalúa en ciertos puntos


específicos del rostro, evitando los puntos del contorno de la superficie porque sobre
ellos no se puede obtener la segunda derivada, dado que los vecinos próximos caerían
fuera de la superficie facial. Los puntos que fueron utilizados son 1,2, 3, 6, 9,12 y 17
según figura 3.2.1.

[Xio-1 jo-1, Yio-1 jo-1, Zio-1 jo-1] [Xio-1 jo, Yio-1 jo , Zio-1 jo] [Xio-1 jo+1, Yio-1 jo+1, Zio-1 jo+1]

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 39


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

[Xio jo-1 , Yio jo-1 , Zio jo-1 ] [Xio jo, Yio jo , Zio jo ] [Xio jo+1, Yio jo+1, Zio jo+1 ]
[Xio+1 jo-1, Yio+1 jo-1, Zio+1 jo-1] [Xio+1 jo,Yio+1 jo , Zio+1 jo ] [Xio+1 jo+1,Yio+1 jo+1, Zio+1 jo+1]

[ecu. 4.2.1]

[Xio jo, Yio jo , Zio jo ] es el vértice del modelo de la cara y los vecinos se determinan
tomando los 8 puntos alrededor al realizar la proyección de la superficie en el plano
X-Y sobre un grillado de 1mm (ver figura 4.2.2). Luego se obtiene la coordenada Z
al volver a proyectar en el plano tridimensional.

X (i, j ) = i [ecu. 4.2.2]


Y (i, j ) = j [ecu. 4.2.3]
Z (i, j ) = f (i, j ) [ecu. 4.2.4]

Figura 4.2.2 – Grillado de la superficie con el punto P00 marcado en el centro y sus vecinos

Para obtener el valor de Z, es necesario identificar en que triangulo del modelo 3D cae
el punto. Por lo tanto se debe verificar si el punto es interno a un triangulo dado,
teniendo en consideración siguiente definición.

Consideremos un triangulo ∆ ABC y un punto P del plano. P está en el interior de este


triángulo si la orientación de los triángulos ∆ ABP, ∆ BCP y ∆ CAP es la misma que
la orientación del triángulo ∆ ABC.

B
C
Figura 4.2.3 – punto p interior a un triangulo

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 40


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

En base a la figura 4.2.3, si tomamos el triángulo ∆ ABC, su orientación esta


determinada por el signo del producto vectorial de AC ⊗ BC , entonces para
identificar si el punto P es interior se debe verificar que el signo del producto
vectorial de los tres triángulos, ∆ ABP, ∆ BCP y ∆ CAP, que quedan conformados
sean iguales.

Con los tres puntos no colineales, que conforman los vértices del triangulo, se calcula
la ecuación cartesiana del plano y se despeja el valor de Z en base a X e Y, que tienen
el mismo valor que en la proyección en X-Y.

Dado P=(p1,p2,p3) , Q=(q1,q2,q3) y R=(r1,r2,r3) son no colineales si

 p1 p 2 p 3 
q q q  ≠ 0 [ecu. 4.2.5]
 1 2 3 
r1r2 r3 

La ecuación de un plano esta dada por

[( x, y, z ) − P ].(QPx RP) = 0 [ecu. 4.2.6]

Siendo N = (QPx RP ) = ( a, b, c) [ecu. 4.2.7] un vector normal al plano buscado.


Desarrollando la formula y reemplazando con el vector normal se obtiene:

ax + by + cz = N .P [ecu. 4.2.8]

Al conocer x e y se puede despejar z con la siguiente expresión

N .P − ax − by
z= [ecu. 4.2.9]
c

Luego en base a estos valores se busca una función paramétrica de la superficie que
pase por los nueve puntos

S (u, v) = [ Px(u, v), Py (u, v), Pz (u, v)] [ecu. 4.2.10]

Siendo Px(u,v) , Py(u,v) , Pz(u,v) los polinomios de menor grado.

Luego se obtienen las derivadas de las funciones mediante las siguientes ecuaciones:

∂S −1 1
(i0 , j 0 ) = Pi 0, j 0−1 + Pi 0, jo +1 [ecu. 4.2.11]
∂u 2 2
∂S 1 1
(i0 , j 0 ) = − Pi 0−1, jo + Pi 0+1, j 0 [ecu. 4.2.12]
∂v 2 2

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 41


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

∂ 2S
(i0 , j0 ) = Pi 0, j 0−1 − 2Pi 0, j 0 + Pio, jo +1 [ecu. 4.2.13]
∂u 2

∂ 2S
(i0 , j0 ) = Pi 0−1, jo − 2 Pio, jo + Pi 0+1, jo [ecu. 4.2.14]
∂v 2

Si las derivadas parciales son continuas se supone que las cruzadas son iguales y se
pueden obtener con la siguiente formula

∂2S 1 1 1 1
(i0 , j 0 ) = Pi 0−1, jo −1 − Pi 0−1, j 0+1 − Pi 0+1, j 0−1 + Pi 0+1, j 0+1 [ecu. 4.2.15]
∂u∂v 4 4 4 4

Con estos valores se calculan las curvaturas principales de la superficie buscando las
raíces de la ecuación cuadrática del paraboloide osculador con origen en el punto p.

( D.D' '− D' 2 ).R 2 − ( E.D ' '−2.F .D '+G.D).R + ( E.G − F 2 ) = 0 [ecu. 4.2.16]

Expresión canónica que permite encontrar las raíces R1 y R2 de la ecuación

2 z = R1.x 2 + R2 . y 2 [ecu. 4.2.17]

Curvatura Media se obtiene:


1 1 1 
Kmed =  +  [ecu. 4.2.18]
2  R1 R2 

Curvatura de Gauss se obtiene:


1
KGauss = [ecu. 4.2.19]
R1.R2

De esta forma se obtiene en cada uno de los puntos seleccionados la curvatura de


gauss, generando un conjunto de curvaturas por cada individuo de la base que se
utilizarán para comparar y reconocer las superficies faciales.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 42


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 43


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

5 Algoritmos de comparación de modelos faciales

Los algoritmos de comparación son los métodos que se implementaran sobre las
características obtenidas de cada MNSF a fin de poder reconocer estadísticamente a
una persona.

El análisis discriminante lineal es una técnica estadística que permite separar en


grupos a los objetos en base a sus características, que en este trabajo serían las
distancias geodésicas y las curvaturas de Gauss medidas en los puntos indicados.

Otra técnica estadística que fue utilizada es el error cuadrático medio, que se basa en
el principio más simple de buscar el objeto más cercano en base a minimizar el error
entre las características de los mismos.

En el contexto del reconocimiento facial, como se indica en [Bronstein et al, 2005],


hay dos posibles escenarios conocidos como:
- Autenticación: el individuo indica de alguna forma su identidad y será el
sistema encargado de verificar con la información guardada en la galería de
conocidos si efectivamente se reconoce a la persona. Se asume que el sujeto es
colaborativo al momento de intentar ser reconocido. Se conoce a este tipo de
problema como “One-to-one matching”, donde se compara contra un template
de la base a la persona que se quiere identificar.

- Reconocimiento: el individuo debe reconocerse entre alguno de los individuos


de la base, pudiendo darse la situación que la persona no este en la base. En
este caso se considera que el sujeto no es colaborativo, ya sea porque no lo
desea o porque se realiza el proceso sin su conocimiento, por ejemplo, en
imágenes obtenidas por una cámara de vigilancia en un aeropuerto. Se le llama
“One-to-many matching”, cuando una persona a identificar debe compararse
contra el template de todos los individuos en la base. Actualmente este
problema con la tecnología actual, según [Bronstein et al, 2005], es
prácticamente irresoluble, en realidad, si se quiere trabajar con una exactitud
del 100%, pues no hay un sistema que pueda identificar a cualquier persona de
este mundo mediante la obtención de un modelo facial.

En el presente trabajo se busca realizar la autenticación de las personas que desean


obtener acceso a un lugar restringido, por lo tanto se presupone que el sujeto será
colaborativo con el sistema y además se utilizara algún medio que permita indicar
contra que sujeto de la galería de conocidos se debe identificar a la persona, para tener
dicha información disponible en la aplicación de los métodos de comparación.

5.1 LDA: Análisis Discriminante Lineal

El análisis discriminante lineal, según [Teknomo, 2006], es una técnica estadística


para clasificar objetos en grupos basándose en un conjunto de características
mensurables del objeto. Los grupos son previamente conocidos y no tienen un orden.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 44


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

En el análisis discriminante existen dos tipos de variables, las dependientes (Y) que
representan el grupo y las variables independientes (X) que representan las
características que describen a los grupos.

El LDA solo es aplicable si los grupos son linealmente separables, es decir, que
puedan ser separados por una combinación lineal de las características que describen a
los objetos.

Lo que se va a buscar es la probabilidad de que un objeto pertenezca a un determinado


grupo, lo cual se puede expresar P(i|x) > P(j|x) ∀j ≠ i , siendo P(i|x) la probabilidad
de que el objeto pertenezca al grupo i dado el conjunto x, lo mismo para P(j|x) pero
con el grupo j.

En la práctica, es más sencillo obtener P(x|i) que representa la probabilidad de tener


cierto conjunto de características sabiendo que el objeto pertenece a la clase i.
Haciendo uso del teorema de Bayes podemos obtener la probabilidad buscada según
la formula

P (i ) P( x | i)
P(i | x) = [ecu. 5.1.1]
∑ P( x | j ) P( j )
∀j

Siendo P(i ) y P( j ) la probabilidad de pertenecer a sus respectivos grupos i o j, que


puede ser la misma a priori o variarse como umbral del método LDA.

Sin embargo, el uso directo de esta regla de Bayes no es posible por la cantidad de
datos necesarios para obtener la frecuencia relativa de cada grupo y cada característica
y poder calcular P(x|i). Por eso, se presupone una distribución normal y se aplica la
formula siguiente del análisis lineal discriminante.

1
f i = µ i C −1 x kT − µ i C −1 µ iT + ln( pi ) [ecu. 5.1.2]
2

xk , son las mediciones de cada característica de cada individuo


i, son los posibles grupos en nuestro caso serian solo dos: Reconocido – No
Reconocido
µ i , la media de cada una de las características de cada grupo
pi , la probabilidad del grupo, que puede en un principio tomarse igual para todos los
grupos. O puede tomarse un valor arbitrario, ya que funciona como un umbral al
aplicarse el método.

1 g
C= ∑ ni ci [ecu. 5.1.3] Es una matriz de agrupación entre matrices de covarianza
n i =1
por grupo que se calculan según la siguiente formula

( xiº ) t xiº
ci = [ecu. 5.1.4] matriz de covarianza del grupo i siendo xiº = xi − µ [ecu.
ni
5.5] con µ media global de cada una de las características

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 45


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

La formula [ecu. 5.1.2] se aplica por cada sujeto x k al querer reconocerlo y para todos
los grupos posibles obteniéndose un f i por cada grupo, con lo cual se termina
asignando cada sujeto al grupo que tenga el valor mayor.

En el caso práctico tenemos únicamente dos grupos para clasificar, en un grupo, que
se llamara Reconocido, se encuentra el modelo del rostro a identificar que existe
previamente en la base y en otro grupo, llamado No Reconocido, todos los restantes
modelos de caras que conforman la base. Las características según el caso serán las
mediciones de distancias geodésicas o de curvaturas gaussianas que se tomaron sobre
los MNSF.

Primeramente los MNSF se representan en una matriz M, con tantas filas como
individuos se encuentren en la base y tantas columnas como características se utilicen
para comparar como se muestra en la figura 5.1.1. Esta matriz se arma de forma de
juntar el grupo No Reconocido en la parte superior, que serían los rostros de los
individuos de la base que no son a quién quiero reconocer y el otro grupo,
Reconocido, en la parte inferior, conformado por el rostro en la base del individuo que
quiero reconocer, por lo tanto sería solo una fila dado que se ha tomado un solo
modelo en la base por cada individuo. Es posible tomar varios modelos de base por
cada individuo, sobre todo en los casos que se quieran tener en cuenta distintas
expresiones faciales a fin de mejorar el reconocimiento.

M=

Figura 5.1.1 – Matriz conformada en las filas por los individuos de la base y en las columnas por la
medición de las características. Hay dos grupos: la superior conformada por los MNSF de los
individuos de la base que no son la persona a reconocer, la inferior conformada por el MNSF que existe
en la base del individuo a identificar

Luego se calcula la media total de cada característica (figura 5.1.2), por lo tanto será
la media total por columnas de la matriz, y también se calculan la media de cada
grupo µ1 y µ 2 , es decir por columna pero solo teniendo en cuenta las pertenecientes al
mismo grupo.

µ1
M=

µ2 µ
Figura 5.1.2 – Calculo de la media global y de cada grupo por separado

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 46


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Restamos a la matriz la media total, M − µ y la dividimos en dos teniendo en cuenta


los grupos, con lo cual nos queda M 1 y M 2 como vemos en la figura 5.1.3

M1
M=
- µ

M2

Figura 5.1.3 – Matrices de cada grupo luego de restar la media global.

Obtenemos las matrices de covarianza de cada grupo como


M 1t xM 1
C1 = [ecu. 5.1.6]
nro. filasM 1

M 2t xM 2
C2 = [ecu. 5.1.7]
nro. filasM 2

Y calculamos la matriz de agrupación de matrices de covarianza según [ecu. 5.1.3]


con la siguiente ecuación

nro. filasM 1 xC1 + nro. filasM 2 xC2


C= [ecu. 5.1.8]
nro. filasTotal

Con la inversa C −1 , µ1 y µ 2 aplicamos la [ecu. 5.1.2] siendo los xk los valores de las
características del individuo a identificar, es decir los valores que se calculan en el
momento del reconocimiento.

Para cada MNSF del rostro a identificar obtenemos como resultados un valor f1 y un
f 2 representando los grupos No Reconocido y Reconocido respectivamente.

f1 : indica que pertenece al grupo No Reconocido conformado por los modelos de


rostros de la base que no son de la persona que quiero identificar
f 2 : indica que pertenece al grupo Reconocido conformado por el modelo del rostro
que esta en la base y pertenece a la persona que quiero identificar.

Si f1 <= f 2 concluimos que ese modelo de la base podría ser la persona que quiero
identificar, en caso contrario no es la persona. En la figura 5.1.4 la línea de f 2 solo
supera el valor de f1 en el individuo que se toma como reconocido, en este caso el
número 1. En el resto de los individuos se mantiene por debajo, en algunos casos
alejándose bastante y en otros más próximos, indicando que en esos casos las
características son bastante semejantes en ambas personas pero no lo suficiente para
reconocerla como la misma.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 47


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Reconocimiento LDA

1050
1000
950
Valor

f1
900
f2
850
800
750

11

13

15

17
1

9
Individuo

Figura 5.1.4 – reconocimiento por LDA

5.2 Error cuadrático medio

El error cuadrático medio es una forma de evaluar la diferencia entre un estimador y


el valor real, con el fin de seleccionar el estimador que cometa el menor error en la
estimación.

Al tener el modelo 3D de las caras como una nube de puntos, se puede aplicar el
método de error cuadrático mínimo para comparar los modelos y definir cual esta más
cercano a otro, aplicando la idea que cometa el menor error en los valores de cada
característica.

Sea T = (t1 , t2 ,.., tn ) el modelo de testeo a quien se quiere identificar y sean tn las
características sobre las que se realizarán las comparaciones. Sea B = (b1, b2 ,.., bn ) el
modelo de la base y sean bn las mismas características sobre las que se tomara el
error cuadrático medio.

Se toman las diferencias al cuadrado por cada característica del sujeto a identificar
contra cada uno de todos los sujetos de la base.

Ei = ( ti − bi ) ∀i = 1..n [ecu. 5.2.1]


2

La [ecu. 5.2.1] indica la forma de calcular el error cuadrático medio de cada


característica. De esta forma de obtiene por cada sujeto de la base un vector de n
valores, sobre estos se calcularán la media [ecu. 5.2.2] y la desviación Standard [ecu.
5.2.3] de dichas diferencias
1 n
µ j = ∑ Ei [ecu. 5.2.2]
n 1

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 48


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

1 n
σj = ∑ (Ei − µ j ) [ecu. 5.2.3]
n −1 1

En el caso ideal, que las mediciones fueran exactamente iguales, la media debería dar
cero ya que la diferencia entre el valor medido de cada característica es el mismo, con
lo cual el error cuadrático medio sería cero en todas las características.

En la práctica, en general, las mediciones difieren, por lo tanto se presupone que el


sujeto de la base que mejor se aproxima al que quiero reconocer es el que presenta
menor valor de la media general. Sin embargo, es posible que otro sujeto de la base
que no sea el que intento reconocer tenga una media similar o menor al sujeto real,
por eso se utilizó un umbral igual al desvió standard, para permitir una tolerancia en el
reconocimiento de las caras.

Como al realizar la autenticación se conoce a priori, cual es el modelo de la base


contra el que debe ser identificado, si el mismo es el que tiene el valor menor de
media o esta dentro del radio de tolerancia se lo toma como reconocido sino se
considera que no pudo ser reconocida la cara.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 49


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

6 Verificación experimental

Se dispone de 30 imágenes de prueba, algunas con su MNSF incluido en la base, o


sea, la galería de conocidos y otras que no forman parte de la misma a fin de efectuar
el reconocimiento y evaluar el desempeño de los algoritmos desarrollados.

Se aplicaron en todos los casos de prueba los tres algoritmos de reconocimiento facial
desarrollados (Curvaturas, GeoOne, GeoAll) y se experimento la variación del
desempeño de los mismos modificando la probabilidad de pertenecer a cada grupo al
aplicar el algoritmo de LDA y la variación ante la inclusión o no de un umbral de
tolerancia al implementar el algoritmo de comparación por cuadrados mínimos.

Los resultados serán analizados mediante la curva ROC (Receiver Operating


Characteristic), una herramienta que permitirá comparar y seleccionar el algoritmo
óptimo utilizando los valores de dos características operativas como son la tasa de
verdaderos positivos (TVP) contra la tasa de los falsos positivos (TFP). Como se
define en «Curva ROC – Wikipedia, the free encyclopedia». La TVP mide hasta qué
punto una prueba diagnóstica es capaz de detectar los casos positivos correctamente,
de entre todos los casos positivos disponibles durante la prueba, y la TFP define
cuántos resultados positivos son incorrectos de entre todos los casos negativos
disponibles durante la prueba. También se evaluará la precisión de cada método para
realizar su comparación de desempeño, la cual esta definida por la siguiente fórmula

VP + VN
Pr ecisión( ACC ) = [ecu. 6.1]
P+N

VP = Verdaderos positivos
VN = Verdaderos Negativos
P = total casos positivos
N = total casos negativos

Al implementar el algoritmo LDA los grupos disponibles a los cuales puede


pertenecer un individuo de prueba son dos
Grupo 1: No Reconocido, conformada por los modelos de caras del resto de las
personas de la base
Grupo 2: Reconocido, conformada por el modelo de la cara de la persona a reconocer

Se comienzan las pruebas con una probabilidad baja de pertenecer al grupo 2 de 0,05
y de 0,95 de pertenecer al grupo 1. Con respecto a la tabla 6.1, mediante las
mediciones de curvaturas se obtuvo una pésima tasa de reconocimiento de verdaderos
positivos (TVP) 6,6%. En base al análisis de los datos, se pudo observar que la
aplicación del método LDA no podía separar correctamente los patrones de los
modelos de la base, un requisito principal para poder aplicar satisfactoriamente el
método LDA, por lo tanto, con este umbral de probabilidad para el grupo 2, en
curvaturas no es un método aplicable para separar los grupos.

En cuanto a los métodos de mediciones de distancias geodésicas, los dos tienen una
tasa del 60% de reconocimiento TVP y la separación de patrones era correcta en todos
los casos de los modelos de la base. Pero al tener en cuenta la tasa TFP se observa que

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 50


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

en el método GeoOne es de 20% contra el 47% de GeoAll, indicando que la precisión


del 70% de GeoOne es mejor que GeoAll con un 57%, pues es menos propenso a
reconocer falsos positivos.

Sin embargo, GeoOne con este porcentaje de precisión de reconocimiento esta en un


nivel bajo para un algoritmo de reconocimiento, que debería al menos superar el 70%
como la mayoría de los sistemas disponibles actualmente en el mercado.

Umbral GeoOne GeoAll Curvatura


TVP 0,6 0,6 0,06
grupo 2 = 0,05 TFP 0,2 0,47 0
Precisión 0,7 0,57 0,53
TVP 0,6 0,6 0,4
grupo 2 = 0,5 TFP 0,2 0,53 0,13
Precisión 0,7 0,53 0,63
TVP 0,8 0,6 0,6
grupo 2 = 0,9 TFP 0,2 0,53 0,13
Precisión 0,8 0,53 0,73

Tabla 6.1 – comparación del desempeño de los métodos en base a la variación del umbral al utilizar
LDA.

Luego se vario la probabilidad de los grupos a 0,5 para ambos. Como se observa en la
tabla 6.1, se obtuvo que la medición de curvaturas aumento a un 40% TVP, con lo
cual el método mejoro, su precisión llega al 63% pero aún no lo suficiente para ser
confiable. Por otro lado, se verificó que el algoritmo LDA pudo realizar
correctamente la separación de grupos de los modelos de la base.

En cuanto a los otros dos métodos de aplicación de distancias geodésicas, aún cuando
se vario la probabilidad de los grupos, la precisión de ambos métodos se mantuvo, lo
mismo su tasa de reconocimiento TVP en 60% y también la TFP

Por último, se modifico el valor de la probabilidad del grupo 2 subiéndola a 0,9 y el


grupo 1 bajándola a 0,1 obteniendo los resultados indicados en la última fila de la
tabla 6.1.

En cuanto a los métodos de distancias geodésicas, GeoAll se mantuvo invariable la


tasa de reconocimiento TVP en un 60% y TFP en un 53%, prácticamente igual que en
los casos previos. Sin embargo, GeoOne mejoro su desempeño al aumentar a 80% la
tasa de reconocimiento TVP siendo el nivel más alto obtenido entre los algoritmos
desarrollados en este trabajo y mantuvo baja la TFP en 20%. La precisión de 80% de
GeoOne es de las más altas obtenidas.

En el método de curvaturas se mejoro notablemente el nivel de reconocimiento


llegando a un 60% TVP y con un bajo nivel TFP del 13%. Su precisión supero a
GeoAll llegando a un 73%, convirtiéndolo en el segundo mejor método en lo que
respecta a este trabajo.

En la figura 6.1 se graficó la variación de la precisión de cada método en base a la


variación del umbral, pudiendo observarse que GeoOne llega al valor mayor del 80%

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 51


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

cuando el grupo 2 tiene una probabilidad de 0,9, y que su incremento no es tan


significativo ante la variación del umbral. Por el contrario, esta el método de
curvaturas donde su precisión crece a medida que aumenta la probabilidad del grupo
2, llegando a un valor de precisión del 73%, superior a GeoAll que mantiene
prácticamente invariable la precisión, cercana al 60%, ante los cambios de valores del
umbral.

Comparación Precisión de los Métodos con LDA

1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
geoone geoall curvatura

grupo2 = 0.05 grupo2 = 0.5 grupo2 = 0.9

Figura 6.1 – Comparación de precisión de los métodos con LDA

CURVA ROC MEDIANTE LDA

1
0.9
0.8
0.7
0.6
TVP

0.5
0.4
0.3
0.2
0.1
0
0 0.2 0.4 0.6 0.8 1
TFP

geoone geoall curvatura

Figura 6.2 – Curva ROC de los tres métodos según la variación del umbral aplicando LDA

Se pueden observar en el gráfico de la figura 6.2 las curvas ROC para cada método
ante la variación del umbral. Con GeoOne vemos que TVP aumenta hasta un 80% en
el mejor caso mientras que TFP se mantiene constante en 20%. Esto indica que el
método es confiable, es decir, podrá reconocer satisfactoriamente a las personas y

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 52


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

además evitará los intentos de accesos fraudulentos. Por ser el que tiene el valor más
cercano al extremo superior izquierdo, donde se encontraría el método ideal, se lo
considera el más óptimo.

Por el contrario en GeoAll tenemos unos valores de curva muy próximos a la diagonal
en donde se considera que es un método azaroso. Su tasa de reconocimiento de casos
positivos verdaderos es muy próxima a la tasa de reconocimiento de casos falsos
positivos, por lo tanto no es un método útil dado que tiene alta probabilidad de no
identificar casos fraudulentos de identidad.

En contraposición, tenemos al método de curvaturas que va mejorando con el


aumento del umbral, llegando a TVP 60% como GeoAll, pero tiene una TFP
significativamente menor del 13%, gráficamente puede observarse como la curva esta
más alejada de la diagonal y es ascendente. Por esta razón este método llega a una
precisión del 73% superando a GeoAll.

Al aplicar el método de comparación por error cuadrático medio en los algoritmos


desarrollados se utilizó el mismo grupo de prueba con el fin de luego poder cotejar los
resultados con los obtenidos mediante la aplicación de LDA.

La primera corrida de reconocimiento por error cuadrático medio fue con un umbral
cero, es decir, sin tolerancia. En base a los datos de la tabla 6.2, se concluye que las
probabilidades de reconocimiento de casos positivos verdaderos son demasiado bajas.
El peor desempeño lo tiene curvaturas con TVP 13,3%, seguido por GeoOne con un
TVP 27% y GeoAll, con la tasa de reconocimiento superior de 40%, que no llega a un
valor aceptable.

Umbral GeoOne GeoAll Curvatura


TVP 0,27 0,4 0,13
sin umbral TFP 0 0,13 0,07
Precisión 0,63 0,63 0,53
TVP 0,67 0,73 0,4
con umbral TFP 0,27 0,4 0,33
Precisión 0,7 0,67 0,53

Tabla 6.2 – comparación de métodos con cuadrados mínimos sin umbral de tolerancia

Variando el umbral de modo que sea igual al desvió standart de cada individuo, es
decir, permitiendo que la cara a reconocer se encuentre dentro de un radio próximo
delimitado por el valor del desvió standard de la misma, se observa de la tabla 6.2,
que las probabilidades de reconocimiento TVP aumentan considerablemente.

En el caso de curvatura se llega a un 40%, lo cual mejora sustancialmente el caso


previo pero aún no llega a tener un nivel que lo haga un método aceptable, dado que
TFP del 33% es un valor similar. Se observa en la curva ROC de la figura 6.4 como se
aproxima a la diagonal haciendo que sea un método azaroso en sus resultados.

Con GeoOne se obtiene una tasa TVP del 67% mejorando notablemente los 27%
obtenidos al no tener un umbral de aceptación, su nivel de precisión llega a un 70%
haciendo que sea el método más confiable al aplicar error cuadrático medio.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 53


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

El mayor índice TVP de reconocimiento llega a 73,3% con GeoAll, pero a diferencia
de GeoOne tiene también un alto índice TFP del 40%, por lo cual su precisión es
menor, pues tiene mayor probabilidad de reconocer falsos positivos que en el caso de
GeoOne.

Comparación Precisión de los Métodos con Error Cudrático Medio

1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
geoone geoall curvatura

sin umbral con umbral

Figura 6.3 – Comparación de precisión de los métodos con error cuadrático medio

CURVA ROC MEDIANTE ERROR CUADRATICO MEDIO

1
0.9
0.8
0.7
0.6
TVP

0.5
0.4
0.3
0.2
0.1
0
0 0.2 0.4 0.6 0.8 1
TFP

geoone geoall curvatura

Figura 6.4 - Curva ROC de los tres métodos según la variación del umbral aplicando error cuadrático
medio

En la figura 6.3 se observa como la precisión de todos los métodos aumenta con la
aplicación de un umbral en el caso de comparación con error cuadrático medio, y
tiene el mayor valor el método GeoOne. Incluso en la curva ROC de la figura 6.4 se
puede ver como la curva de este método se encuentra por encima de las demás y más
próxima al método ideal. Por otro lado, GeoAll aumenta levemente su precisión pues

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 54


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

aunque aumenta su TVP también aumenta proporcionalmente TFP, como se observa


en la curva ROC.
Por último en el caso de Curvaturas la precisión no varia se mantiene igual con o sin
umbral, en su curva ROC se muestra como aumenta TVP y TFP en la misma
proporción y se encuentra próxima a la diagonal, haciendo que sea un método casi
azaroso al momento de realizar el reconocimiento.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 55


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

7 Conclusiones, Limitaciones y Futuras líneas de investigación


En primer lugar se concluye que la confección de los MNSF influye directamente en
la obtención de los resultados, sin un buen modelo tridimensional no es posible
conseguir un nivel de reconocimiento válido. Los principales problemas a afrontar
son: la calibración de las cámaras, resolución de las imágenes y obtención de los
puntos homólogos, pues son determinantes al momento de armar un MNSF válido
sobre el cual realizar las mediciones de las características que se usarán para comparar
en cada método.

La correcta calibración de las cámaras es uno de los primeros puntos críticos que
deben controlarse al momento de las tomas de las imágenes estereoscópicas.
Actualmente se esta progresando en la confección de cámaras estereoscópicas que
vienen armadas y calibradas de fábrica, pues hoy en día son incorporadas en los
últimos celulares (como los caso de LG Optimus 3D P920, Diamond S de Samsung) y
consolas de videojuegos (Xbox), dado que se esta avanzando mundialmente en la
utilización de imágenes en 3D permitiendo tomar fotografías, filmar o jugar en forma
interactiva con una alta resolución de imagen.

la ventaja de las imágenes estereoscópicas reside en la posibilidad de tomar muestras


rápidamente a diferencia de utilizar un scanner, que necesita un largo tiempo de
exposición o como en el caso de luz estructurada donde se necesita una iluminación
especial. En este caso se puede trabajar con una luz normal suficiente para obtener
unas imágenes nítidas.

En cuanto a la obtención de los puntos homólogos, se observan avances en este


campo permitiendo reconstrucciones automáticas con aceptables niveles de exactitud,
dependiendo de la resolución de las imágenes y de la calidad de la misma, es decir,
que no tengan demasiadas oclusiones, que sea nítida, para que los algoritmos puedan
hacer una correcta detección de los puntos en las imágenes y obtener un buen modelo
3D sobre el cual trabajar. En este trabajo se utilizó la biblioteca « FaceSDK » con la
cual se obtuvo un alto nivel de reconocimiento de los puntos homólogos en general,
aunque se uso asistencia manual en los casos de detección incorrectos de los puntos.

Sobre los métodos de comparación implementados en el presente trabajo, LDA y


error cuadrático medio, se puede concluir, como se detalla en la tabla 7.1, que la
probabilidad de reconocimiento de los algoritmos mejora al aplicar LDA, pues es un
método estadístico más rico que tiene en cuenta varias variables al momento de hacer
las separaciones de grupos, por lo tanto lo hace un método más exacto que error
cuadrático medio. En este último no hay separaciones de grupos, sino búsqueda de la
cara más cercana en base al error medio basado en las características obtenidas de los
MNSF.

Probabilidad GeoOne GeoAll Curvatura


LDA grupo2=0,9 Precisión 80% 53% 73%
Error cuadrático Precisión 70% 67% 53%
medio
con umbral
Tabla 7.1 – Métodos con mayores tasas de reconocimiento

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 56


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Con los métodos de reconocimiento del presente trabajo podemos decir que la
medición y comparación mediante curvatura de gauss, aplicando la comparación
mediante error cuadrático medio tiene un bajo nivel de precisión 53%, observando del
análisis de la curva ROC que su comportamiento es casi azaroso.

En el caso de aplicar la comparación mediante LDA se observa que la respuesta es


muy sensible a la variación de la probabilidad de cada grupo. Incluso no es aplicable
LDA cuando la probabilidad del grupo a reconocer es muy baja, debido a que no
puede realizarse una correcta separación de grupos entre los modelos de la base.
La curvatura de gauss utilizando como método de comparación LDA, no llega a un
buen nivel de reconocimiento aceptable en el mercado actual, en el mejor caso
presenta una precisión del 73%, por lo cual su utilidad podría ser orientada a buscar
similitudes en caras pero no para reconocimiento.

Por otro lado, las distancias geodésicas demostraron tener un alto nivel de
reconocimiento, incluso se puede observar que no por agregar más puntos de la cara
para comparación se obtienen mejores resultados, dado que GeoAll obtiene menores
niveles de probabilidad que GeoOne, utilizando menos puntos de comparación.

El método LDA en ambos algoritmos de distancias geodésicas es aplicable, pues aún


con los cambios en la probabilidad de grupo, se hace una correcta separación de los
modelos de la base en todos los casos.La precisión no es tan sensible a la variación
del umbral de probabilidad de grupo, para GeoAll se mantiene constante casi cercano
al 60% y en el caso de GeoOne se mantiene en 70% y llega a su máximo del 80%
cuando la probabilidad del grupo a reconocer es superior.

El método GeoAll utilizando LDA como método de comparación tiene una


probabilidad de reconocimiento TVP constante de 60% y una probabilidad TFP de
permitir accesos fraudulentos cercana al 40%, por lo tanto, no es un método confiable,
de su curva ROC puede observarse que se aproxima a un método azaroso.

En cuanto al método GeoOne utilizando comparación mediante LDA llega al más alto
nivel de reconocimiento de los algoritmos desarrollados en este trabajo, con una
precisión del 80%, teniendo una alta tasa de reconocer personas verdaderas y una tasa
baja de permitir accesos con identidad fraudulentas. De esta manera se convierte en el
método aconsejado para aplicar en el reconocimiento facial en base al análisis de este
trabajo.

En el caso de la comparación de las distancias geodésicas con el método de error


cuadrático medio tomando un umbral de tolerancia, los niveles varían de forma que
GeoAll alcanza una probabilidad de precisión del 67% y GeoOne disminuye a 70%.
Por lo tanto, la diferencia entre si no es muy distante, de la curva ROC se puede
observar que ambas están muy próximas y tienen un comportamiento similar ya que
TVP aumenta proporcionalmente con su TFP, siendo GeoOne el que tiene mejores
resultados pues la relación de incremento es menor.

En el presente trabajo solo se tuvo en cuenta el manejo de rostros con expresión


neutra, una futura mejora sería profundizar en el manejo de expresiones faciales uno
de los puntos difíciles de enfrentar para el reconocimiento tridimensional. En el
estudio de [Haar et al, 2008] se propone trabajar con la parte invariante de la cara

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 57


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

conformada por el triangulo formado por la punta de la nariz y los dos ojos, lo cual
quita información del modelo pero habría que evaluar en cuanto se modifica el
porcentaje de reconocimiento y si ayuda a superar el problema de las expresiones
faciales. De todas formas, en el estudio de [Gupta et al, 2007], se indica que las
distancias geodésicas son un método robusto para las expresiones faciales, así también
se señala en [Bronstein et al, 2005] donde ambos aseguran que las deformaciones en
la cara debido a las expresiones faciales pueden ser modeladas como isometrías, de tal
manera que las propiedades geométricas intrínsecas de la superficie facial permanecen
invariantes frente a los cambios debido a las expresiones, salvo en los casos de “boca
abierta” que generan demasiada variación en el modelo y por lo cual quedan fuera del
alcance en ambos trabajos.

Basados en la idea de la deformación isométrica de la cara, podría extenderse la base


actual de este trabajo incluyendo tomas de los sujetos con expresiones faciales para
verificar si se mantiene o varía la tasa de reconocimiento de los métodos GeoOne y
GeoAll.

Otro de los puntos importantes a tener en cuenta a futuro es la búsqueda de puntos


homólogos en forma totalmente automática, dado que es fundamental al momento del
armado del MNSF. En nuestro caso se utilizo un algoritmo automático con la
posibilidad de “acomodar” los puntos obtenidos para controlar los casos donde el
apareo no era óptimo, pero se podría profundizar en la forma de hacer uso del
conocimiento de la distribución de la cara y de la posible ubicación de los 20 puntos
que se localizan para conformar el MNSF a fin de mejorar el apareo estereoscópico y
que sea totalmente automático y fiable.

En cuanto al método de comparación LDA, se podrían utilizar varias imágenes de la


persona para conformar el modelo en la base y comprobar como influye en los
resultados de reconocimiento, dado que este método mejora con el aprendizaje. Como
así también se podrían evaluar los resultados que se obtengan con otros métodos de
comparación.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 58


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 59


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

8 Glosario

Apareo Estereoscópico: consiste en la identificación de puntos correspondientes en


un par de imágenes estereoscópicas.

Camino geodésico: La curva con la menor longitud al tomar una distancia entre dos
puntos de una superficie

Distancia Geodésica: es la longitud de una curva que representa el camino más corto
entre dos puntos de una superficie.

Dpi (dot per inch): también conocido como píxel por pulgada (ppp) es una medida
utilizada en las máquinas que indica los puntos que entran en una pulgada para
representar una imagen.

Deformaciones isométricas: una transformación de una superficie que mantiene las


medidas.

Estereoscopía: es toda técnica utilizada para generar una imagen tridimensional a


través de información visual del entorno.

Falso positivo: denominado error tipo I en estadística, dado que es el error que se
comete al identificar como positivo un caso que debería ser negativo.

Geodésica discreta: una distancia geodésica conformada por una secuencia de líneas
rectas en la superficie.

Método biométrico: métodos para el reconocimiento único de humanos basados en


uno o más rasgos conductuales o rasgos físicos intrínsecos.

Método invasivo: es un procedimiento donde se aplican técnicas que invaden el


cuerpo de una persona

Modelo digital de la cara (MDC): es una representación numérica de las


características del rostro a partir de las coordenadas tridimensionales de los puntos
que lo definen. Se aproxima una superficie real y continua, como es el rostro, a una
superficie matemática discreta formada por superficies elementales planas
triangulares

Modelo numérico 3D de superficies faciales (MNSF): es la representación


numérica del rostro mediante el conjunto de puntos obtenidos al realizar el apareo
estereoscópico.

Puntos homólogos: puntos en las imágenes, correspondientes al mismo punto en el


espacio objeto.

Proporciones antropométricas: En base a [Gupta et al, 2007] las proporciones


antropométricas cráneo-faciales son promedios de pares de líneas rectas a lo largo de
distancias sobre la superficie entre puntos específicos craneales y faciales. Estas
proporciones faciales cuantifican las relaciones entre diferentes subpartes de las caras

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 60


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

humanas, y son ampliamente utilizadas en arte y escultura como guías para crear
rostros ideales bien proporcionados, en antropometría para analizar a los humanos
prehistóricos, para cuantificar el atractivo facial, para analizar desproporciones
faciales en anomalías y como una ayuda para planear cosmética facial y cirugías
reconstructivas. Y, últimamente, para crear modelos de caras humanas en
computación grafica, como en el caso de los videojuegos.

Visión binocular: es todo tipo de visión donde se utilizan dos dispositivos para
obtener imágenes del entorno, puede ser una visión simple donde se tienen dos
imágenes por separado o más compleja con fusión binocular, como los seres
humanos, llamada visión estéreo.

Visión Estéreo : es la visión realizada a través de dos dispositivos que enfocan a un


área común y permiten la reconstrucción tridimensional de la misma. Por ejemplo, los
ojos de los seres humanos y varios animales funcionan de esta forma.

Verdadero Positivo: en estadística se le llama a los casos que se identifican como


verdaderos y se comprueban que realmente lo son.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 61


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

9 Anexos

9.1 Calibración de una cámara digital: método simplificado

Se suponen 2 cámaras digitales, sean C1 : cámara 1 y C2 : cámara 2, colocadas de


manera que ambas enfoquen en paralelo una cuadrícula de 10 cm de lado; el eje
principal, de ambas normal a la cuadrícula y sus ejes principales pasando por puntos
de la cuadrícula separados de 10 cm. La cámara 2 estará 10 cm más cerca de la
cuadrícula que la cámara 1 (ver figura 9.1.1). De esta manera la base, vector que
separa ambas cámaras, será:

B = (100, 0, 100) [ecu. 9.1.1]

La distancia de centro óptico de la cámara 1 a la cuadrícula se medirá con la mayor


precisión posible.

La rotación de la segunda cámara respecto de la primera es la identidad debido a la


manera en que se supusieron colocadas las cámaras.

1 0 0 
R = 0 1 0 [ecu. 9.1.2]
0 0 1 

Eje y
y

M Eje x
y
Eje z

S1 S2

P1 V1 V2 P2
B
C1 C2
Figura 9.1.1 – Esquema de la disposición de las cámaras

Debido a la coplanaridad de los tres vectores V1 B y V2 su producto triple es igual a 0


como se indica en la siguiente ecuación

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 62


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

V1.BΛR.V2 = 0 [ecu. 9.1.3]

La base B será expresada en la fórmula por la respectiva matriz antisimétrica:

 0 − b3 b2 
~ 
B =  b3 0 − b1  [ecu. 9.1.4]
− b2 b1 0 

Ya que:

~
BΛR.V2 = B.R.V2 [ecu. 9.1.5]

Llegando a la matriz esencial que permite calcular la rotación de la cámara 2 respecto


del referencial de la cámara 1
~
V1.B ΛRV2 = 0 [ecu. 9.1.6]

Matriz Fundamental
r
Ahora bien, el vector de la cámara 1, w1 expresado en pixeles será:

µ = xα + µ 0 [ecu. 9.1.7]
ν = yβ + ν 0 [ecu. 9.1.8]
Y en forma matricial se puede expresar como:

 µ0   µ 
α 0   αx + 0 . f 
   f x f
µ    αx + µ0 
r    ν 0    ν0  
w1 = ν  = 0 β  y  = βy + . f =  βy + ν 0  [ecu. 9.1.9]
 f   f 
 1   
1   f   1   1 
0 0   .f 
 f   f 

Donde α alfa es la relación pixeles / mm en x , β es la misma relación pero en la


dirección y , µ 0 es la coordenada del pie de la perpendicular del eje principal en
pixeles en el eje x , y ν 0 es la ordenada del pie de la perpendicular en el eje principal
pero en el eje y .

Hemos omitido en la matriz de calibración, por razones de simplicidad, el coeficiente


que permite calcular el error en la perpendicularidad de los pixeles columna respecto
a los de la línea.

Entonces recíprocamente:

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 63


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

µ − µ0
x= [ ecu. 9.1.10]
α

ν −ν 0
y= [ ecu. 9.1.11]
β

Con lo cual en forma matricial:

x
=  y  [ ecu. 9.1.12]
r
( )
w1. C −1
T

 f 

 1 
 0 0
T  α 
 µ µ0 ν ν 0  1
 − ; − ; f  = (u ν 1). 0 0  [ecu. 9.1.13]
α α β β   β 
 µ ν 
− 0 − 0 f
 α β 

Donde C es la matriz de calibración supuesta igual para ambas cámaras.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 64


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

9.2 Configuración normal de dos cámaras: Cálculo de las coordenadas


del punto objeto (caso particular)

En la figura 9.2.1 se representa una configuración normal de cámaras como la


utilizada para la toma de imágenes.

Figura 9.2.1 - Configuración ortonormal de cámaras

En base al teorema de semejanza de triángulos podemos determinar tomando como


origen a la cámara izquierda C1 .

X Y Z
= = [ecu. 9.2.1]
X 1 Y1 F1

De lo cual obtenemos

X 1Z
X = [ecu. 9.2.2]
F1

Y1 Z
Y= [ecu. 9.2.3]
F1

Tomando la cámara derecha tenemos por la semejanza de triángulos que

N Y Z
= = [ecu. 9.2.4]
X 2 Y2 F2

De lo cual obtenemos

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 65


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

X 2Z
N= [ecu. 9.2.5]
F2
y además

Y2 Z
Y= [ecu. 9.2.6]
F2

Si observamos la imagen vemos que

X = B+N [ecu. 9.2.7] Siendo B la distancia de separación horizontal entre


cámaras

Si reemplazamos en la ecuación 9.2.2 , de la cámara izquierda el valor de X tenemos

X1Z
B+N = [ecu. 9.2.8]
F1
que al reemplazar por el despeje de N (ecu. 9.2.5) obtenido nos queda

X 2 Z X 1Z
B+ = [ecu. 9.2.9]
F2 F1

La distancia focal de ambas cámaras es la misma dado que son del mismo modelo,
salvo defectos de fabricación que se consideraron despreciables. Entonces tenemos
que F = F1 = F2 por lo que al calcular la coordenada Z despejando de la ecuación
10.2.9 tenemos

BF
Z= [ecu. 9.2.10]
(X1 − X 2 )

Reemplazando en las ecuaciones 9.2.2 y 9.2.3 tenemos que

X 1Z Y1 Z
X = [ecu. 9.2.11] Y= [ecu. 9.2.12]
F F

Se debe tener en cuenta que Y1 = Y2 dado que las cámaras se localizan a la misma
distancia desde la imagen en base a una calibración.

De esta manera se obtienen las coordenadas tridimensionales (X,Y,Z) de cada uno de


los puntos homólogos seleccionados en el modelo y sobre los cuales se construye el
MNSF.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 66


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

9.3 Configuración General de Cámaras: Cálculo de las coordenadas del


punto objeto

En el caso general de configuración de dos cámaras el referencial de ambas imágenes


puede no coincidir con el referencial general desplazado a lo largo del eje X , por esta
razón se debe tener en cuenta la rotación y traslación de los referenciales de cada una
de las cámaras.

Dado dos referenciales, el general, de centro q y ejes XYZ , y el de una imagen, con
centro en S y ejes xyz , se buscaran las coordenadas de un punto M en el referencial
general, denotado como M q . Y se denomina M S el punto M en el referencial de la
imagen.

X
Problema encontrar Mq = Y
Z

q X
z
S
p u x
v

y
Mq(X,Y,Z)
Ms(x,y,z)

Figura 9.3.1 - Configuración general de cámaras

q ( X , Y , Z ) Referencial general
S ( x, y, z ) Referencial imagen

Se tiene que

SM s = R(qM q − qS ) [ecu. 9.3.1]

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 67


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Xs 
 
Siendo R una matriz de rotación y S =  Ys  un vector de traslación.
Z 
 s
De lo cual se deduce que el punto puede expresarse de la siguiente manera:

x X Xs
Ms = y = R Y − Ys [ecu. 9.3.2 ]
z Z Zs

Se conocen las coordenadas u, v en el referencial de la imagen que son de la


proyección del punto M, y también la distancia principal o focal ρ.

u x v y
= =U [ecu. 9.3.3] = = V [ecu. 9.3.4]
ρ z ρ z

Despejando u y v se obtiene
x y
u= ρ [ecu. 9.3.5] v= ρ [ecu. 9.3.6]
z z

Despejando x e y se obtiene
u v
x = z [ecu. 9.3.7] y = z [ecu. 9.3.8]
ρ ρ

Se pueden plantear las siguientes ecuaciones:

x y
x− z =0 [ecu. 9.3.9] y− z = 0 [ecu. 9.3.10]
z z

x X Xs r11r12 r13 X L1
y = R Y − R Ys = r21r22 r23 Y + L2 [ecu. 9.3.11]
z Z Zs r31r32 r33 Z L3

Desarrollando la matriz nos queda


x
r11 X + r12Y + r13 Z + L1 − [r31 X + r32Y + r33 Z + L3 ] = 0 [ecu. 9.3.12]
z
y
r21 X + r22Y + r23 Z + L2 − [r31 X + r32Y + r33 Z + L3 ] = 0 [ecu. 9.3.13]
z
Siendo
(r11 , r12 , r13 ) = iR [ecu. 9.3.14]
(r21 , r22 , r23 ) = jR [ecu. 9.3.15]
(r31 , r32 , r33 ) = k R [ecu. 9.3.16]

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 68


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Reordenando y reemplazando en [ecu. 9.3.12] y [ecu. 9.3.13] con las siguientes


ecuaciones
x y
= U [ecu. 9.3.17] y = V [ecu. 9.3.18]
z z

Podemos expresarlas como


r
[ ]
i RMq + L1 − U k RMq + L3 = 0 [ecu. 9.3.19]
[ ]
jRMq + L2 − V k RMq + L3 = 0 [ecu. 9.3.20]

Reagrupando se obtiene
r
i RMq − U k RMq + L1 − UL3 = 0 [ecu. 9.3.21]
jRMq − V k RMq + L2 − VL3 = 0 [ecu. 9.3.22]

Que en forma matricial se puede expresar como


r
i R − U kR UL3 − L1 T1
Mq = = [ecu. 9.3.23]
jR − V k R VL3 − L2 T2

u v
Son conocidos U = [ecu. 9.3.24] , V = [ecu. 9.3.25] , qS y la matriz R.
ρ ρ
Incógnitas Mq = ( X , Y , Z )
T

Cada imagen da lugar a 2 ecuaciones con 3 incógnitas, con lo cual tenemos en


definitiva 4 ecuaciones y tres incógnitas. Mediante el uso de cuadrados mínimos es
posible llegar a una solución única.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 69


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

9.4 Propiedades de la triangulación de Delaunay [Priego de los Santos


et al, 2006]

El criterio de Delaunay

Dado un conjunto de puntos P donde existe una triangulación de esos puntos tal que
la circunferencia circunscripta de cualquier triángulo no contenga ningún vértice de
otro triángulo.

Propiedad 1 (En Círculo)

Dada una triangulación T de un conjunto de puntos P, tres puntos pi , p j , pk


pertenecientes a P son vértices de la misma cara, si y solamente si, el círculo que pasa
por los puntos pi , p j , pk no contiene puntos de P en su interior. (Figura 9.4.1).

Figura 9.4.1 - La propiedad de En Círculo. Figura obtenida de [Priego de los Santos et al, 2006]

Propiedad 2 (Angulo Max.-Min.)

Dos puntos pi y p j pertenecientes al conjunto de puntos P forman un lado de la


triangulación de Delaunay de P, si y solamente si, existe un círculo que contiene a pi
y p j en su circunferencia y no contiene en su interior ningún otro punto de P. ( ver
figura 9.4.2).

Esto implica que el ángulo mínimo dentro de todos los triángulos está maximizado,
con lo cual tenemos que dadas dos triangulaciones T1 y T2 , T1 es mejor que T2
cuando el menor ángulo de los triángulos de T1 es mayor que el menor ángulo de los
triángulos de T2 .

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 70


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Figura 9.4.2 - Propiedad ángulo max. – min. Figura obtenida de [Priego de los Santos et al, 2006]

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 71


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

9.5 Desarrollo de la obtención de las curvaturas de superficie


[Arellano]

Definición de curvatura:

Si tenemos la función paramétrica


r (u , v) = ( x(u , v), y (u , v), z (u , v)) [ecu. 9.5.1]

Y se esta interesado en la evaluación de la curvatura en el punto (uo, vo)

La dirección del vector normal esta dado por


→ →
r u ∧ r v [ecu. 9.5.2]
El valor W esta dado por
→ → →
( r − r o ). n [ecu. 9.5.3]

El desarrollo de Taylor sería


1
W=
2
[ ]
D (uo , vo ).h 2 + 2.D' (uo , vo ).h.k + D' ' (uo , vo ).k 2 + O ( ρ 2 )
[ecu. 9.5.4]

1
W≈
2
[
D(uo , vo ).h 2 + 2.D' (uo , vo ).h.k + D' ' (uo , vo ).k 2 ] [ecu. 9.5.5]

A partir del cual se obtiene el paraboloide osculador de la superficie con

→ → ( ruu , ru , rv ) d
D = r 11 . n = = [ecu. 9.5.6]
∆ ∆
→ → (ruv , ru , rv ) d '
D' = r 12. n = = [ecu. 9.5.7]
∆ ∆
→ → (rvv , ru , rv ) d ' '
D' ' = r 22 . n = = [ecu. 9.5.8]
∆ ∆
Siendo

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 72


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

 ∂ 2x ∂2y ∂2z 
 
 ∂u 2 ∂u 2 ∂u 2 
∂x ∂y ∂z
d =   [ecu. 9.5.9]
 ∂u ∂u ∂u 
 ∂x ∂y ∂z 
 ∂v ∂v ∂v 
 

 ∂2x ∂2y ∂2z 


 ∂u∂v ∂u∂v ∂ u ∂ v 
 ∂x ∂y ∂z 
d '= 
 ∂u ∂u ∂ u  [ecu. 9.5.10]
 ∂x ∂y ∂z 
 ∂v ∂v ∂ v 

∂2x ∂2y ∂2z 


 ∂v 2 ∂v 2 ∂v 2 
 ∂x ∂y ∂z 
d ''=  
 ∂u ∂u ∂u  [ecu. 9.5.11]
 ∂x ∂y ∂z 
 ∂v ∂v ∂v 
 

2 2 2
2  ∂x   ∂y   ∂z 
E = r1 =   +   +   [ecu. 9.5.12]
 ∂u   ∂u   ∂u 

∂x ∂x ∂y ∂y ∂z ∂z
F = r1.r2 = . + . + . [ecu. 9.5.13]
∂u ∂v ∂u ∂v ∂u ∂v

2 2 2
2  ∂x   ∂y   ∂z 
G = r2 =   +   +   [ecu. 9.5.14]
 ∂v   ∂v   ∂v 

∆ = E.G − F 2 [ecu. 9.5.15]

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 73


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Las curvaturas principales son obtenidas transformando la cuadrática a la forma


canónica.

Los autovalores de esta matriz

D D' 
 D' D' '  [ecu. 9.5.16]

Son las raíces de la ecuación:

( D.D' '− D' 2 ).R 2 − ( E.D ' '−2.F .D '+G.D).R + ( E.G − F 2 ) = 0 [ecu. 9.5.17]

Y dan las curvaturas principales del paraboloide oscilador, donde D, D’ y D’’ son los
coeficientes de la segunda forma fundamental de la superficie

D=r11 N [ecu. 9.5.18] D’=r12.N [ecu. 9.5.19] D’’=r22.N [ecu. 9.5.20]

E=r12 [ecu. 9.5.21] F=r1.r2 [ecu. 9.5.22] G =r22 [ecu. 9.5.23]

r11, r12, r22 son las derivadas parciales de segundo orden de r respecto de los
parámetros y r1. r2 son los vectores tangente a las líneas “u” y “v” en el punto M
por donde pasa el plano tangente.

Si llamamos A y C a las curvaturas principales, se obtiene la expresión canónica

2 z = A. x 2 + C. y 2 [ecu. 9.5.24]

La curvatura Sophie GERMAIN (promedio) en el punto M es obtenida por la


expresión:

S .G. = A + C [ecu. 9.5.25]

Y la curvatura de Gauss esta dada por:

Gauss = AC [ecu. 9.5.26]

El punto puede ser clasificado en elíptico, hiperbólico o parabólico de acuerdo con los
tres siguientes casos respectivamente:

Elíptico: AC > 0

Hiperbólico: AC <0

Parabólico: AC = 0

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 74


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 75


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

10 Referencias y bibliografía

Akarun, L., G¨okberk, B., Salah, A. A. 3D Face Recognition for Biometric


Applications. Department of Computer Engineering. Bo˘gazic¸i University, Bebek,
Istanbul, Turkey

« Android Ice Cream Sandwich review » , web Slash Gear. En línea. Accedido 12 de
septiembre del 2013.
http://www.slashgear.com/android-ice-cream-sandwich-review-21196969/

Arellano, M. A., Ryckeboer H. The curvature of digital models for parametric


surfaces. (no publicado) .

Berreti, S., Del Bimbo, A., Pala, P., Silva Mata, F. J. Geodesic distances for 3D-3D
and 2D-3D face recognition. Multimedia and Expo, 2007. IEEE International
Conference on Volume, Issue , 2-5. July 2007. Page(s):1515 – 1518

Balakrishnama, S., Ganapathiraju, A. Linear Discriminant Analysis-A Brief Tutorial.


http://www.music.mcgill.ca/~ich/classes/mumt611_07/classifiers/lda_theory.pdf. En
linea. Accedido 9 septiembre del 2013.

Belhumeur, P. N., Hespanha, J. P., Kriegman, D. J. Eigenface vs Fisherface:


Recognition Using Class Specific Linear Projection. IEEE Transactions on Pattern
Analysis and Machine Intelligence. Vol. 19. NO. 7. July 1997

Bize, Ali. Trabajo profesional de Ingeniería en Informática. 2012. No publicado

Blackburn, Duane. Face Recognition. National Science Technology Council –


Committee on technology – Committee on homeland and National Security –
Subcommittee on Biometrics. 2006.

Bronstein, Alexander M. Bronstein, Michael M., Kimmel Ron. Three-Dimensional


Face Recognition . Internacional Journal of Computer Vision. Vol 64 Issue 1, August
2005 , Pages 5-30

« Border crossing » Border Crossings: morpho has developed a biometric solution


for australia . En línea. Accedido 12 de septiembre del 2013.
http://www.morpho.com/references/border-control-127/border-crossings-morpho-has-
developed-a-biometric-solution-for-australia?lang=en

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 76


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Bowyer, K. W., Chang, K., Flynn, P. A Survey of Approaches to Three –Dimensional


Face Recognition . Department of Computer Science and Engineering, University of
Notre Dame. Notre Dame. 2004. IN 46556, USA

Bowyer, K. W., Chang, K., Flynn, P. A survey of approaches and challenges in 3D


and multi-modal 3D+ 2D face recognition. Department of Computer Science and
Engineering. University of Notre Dame. Notre Dame. IN 46556, USA. 2005.

« CGAL » CGAL, Computational Geometry Algorithms Library. En línea. Accedido


20 junio del 2013.
http://www.cgal.org/Manual/last/doc_html/cgal_manual/Triangulation_2/Chapter_ma
in.html.

« Chinese Face Database» Universidad de Beijing. The BJUT-3D Large-Scale


Chinese Face Database. MISKL-TR-0-FMFR-001. 2005.

«Cuevas de Lascaux – Wikipedia, the free encyclopedia». En línea. Accedido 12 de


diciembre del 2013. http://es.wikipedia.org/wiki/Cueva_de_Lascaux

«Curva ROC – Wikipedia, the free encyclopedia».En línea. Accedido 12 de diciembre


del 2013. http://es.wikipedia.org/wiki/Curva_ROC

«Facial Recognition - Wikipedia, the free encyclopedia». En línea. Accedido


Septiembre 9 del 2013. http://en.wikipedia.org/wiki/Facial_recognition_system

« FaceSDK » Luxand FaceSDK. En línea. Accedido 3 de diciembre del 2013.


http://www.luxand.com/facesdk/index.php.

Fernández Sánchez, M. C. ÁMBITOS. Revista Andaluza de Comunicación. Número


3-4 - Año 2000 - Universidad de Sevilla

Garcia Rio, E. Una introducción a la curvatura. 2003. En línea. Accedido 20 de junio


del 2013.
http://findpdf.net/pdf-viewer/Una-introduccion-a-la-curvatura.html

G. Gordon, “Face recognition based on depth maps and surface curvature”.


SPIE, Geometric Methods in Computer Vision, vol. 1570, pp. 108-110, Julio1991

GÖkberk, B. Three dimensional face recognition – Thesis. 2006 . En línea. Accedido


15 de julio del 2013. http://www.vanderberk.com/

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 77


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Gupta, S., Aggarwal, J. K., Markey, M. K., Bovik, A. C. 3D Face recognition


founded on the structural Diversity of human faces. IEEE CVPR. 2007. Minneapolis.
MN.

Haar, F., Veltkamp, R. SHREC’08 Entry: 3D Face Recognition using Facial Contour
Curves. Shape Modeling International, page 259-260. IEEE, (2008)

Kanade, T. Picture Processing system by computer complex and recognition of


human faces. Dept. Of Information Science , Kyoto University, Nov. 1973.

Karima Ouji, Boulbaba Ben Amor, Mohsen Ardabilian,Faouzi Ghorbel, Liming Chen.
3D Face Recognition using ICP and Geodesic Computation Coupled Approach.
Multimedia Systems and Applications Series Volume 31, 2008, pp 141-151

« La vida en 3D » Museo de la ciudad. En línea. Accedido 12 de septiembre del 2013.


http://www.museodelaciudad.org.ar/?page_id=172

Lecumberry,F. Cálculo de disparidad en imágenes estéreo, una comparación.


Congreso Argentino de Ciencias de la Computación, 11. Cacic 2005. Concordia,
Argentina. - oct 2005 Research Group: gti

Martínez, D., Velho, L., Carvalho, P., Computing Geodesics on Triangular Meshes.
Computer Graphics and Image Processing. 2004. Proceedings. 17th Brazilian
Symposium on Volume , Issue. 17-20 Oct. 2004 Page(s): 210 – 217

Mazo Quintas, M. Visión por computador. 2005. En línea. Accedido 17 de julio del
2013.
http://www.profesaulosuna.com/data/files/ROBOTICA/ROBOTICA%20SENSORES
/VISION/transparencias_vision(IV).pdf

Mpiperis, I. , Malassiotis, S. , Strintzis, M. Expression Compensation for face


recognition using a polar geodesic representation. 3D Data Processing, Visualization,
and Transmission, Third International Symposium. Page 224 – 231. 2006

Pereyra, P. Zelasco, J. F. Donayo, J. Estado del arte en reconocimiento facial. II


Tomo del 2013 de los Anales de la Sociedad Científica Argentina. 2013

Pérez de la Blanca Capilla, N. Fundamentos del Tratamiento de Imágenes. Visión por


Computador. 1995. En línea. Accedido 15 de julio del 2012.
http://www6.uniovi.es/vision/intro/

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 78


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Phillips, P. J., Todd Scruggs, W., O’Toole, A. J., Flynn, P. J., Bowyer, K. W., Schott,
C. L., Sharpe, M: FRVT 2006 and ICE 2006 Large-Scale Results. Marzo 2007.

Priego de los Santos, J. E., Porres de la Haza, M. J. La triangulación de Delaunay


aplicada a los modelos digitales del terreno. Departamento de Ingeniería
Cartográfica, Geodesia y Fotogrametría. Universidad Politécnica de Valencia. En
línea. Accedido 20 de noviembre 2013
http://age.ieg.csic.es/metodos/docs/doc1_8.pdf.

Reyes Enciso, A. S., Neumannb, U., Mah, J. 3D head anthropometric analysis. SPIE
Symposium on Medical Imaging. 2003, San Diego, CA, USA.

Rios, Javier Eslava. Reconocimiento Facial En Tiempo Real. Área de Tratamiento de


Voz y Señales. Dpto. de Ingeniería Informática. Escuela Politécnica Superior
Universidad Autónoma de Madrid. Julio 2013. En línea. Accedido 5 diciembre 2013.
http://arantxa.ii.uam.es/~jms/pfcsteleco/lecturas/20130717JavierEslavaRios.pdf.

Samani, A., Winkler, J., Nirajan, M. Automatic Face Recognition Using Stereo
Images. Acoustics, Speech and Signal Processing. ICASSP 2006. Proceedings. 2006
IEEE International Conference on Volume 5, Issue , 14-19 May 2006 Page(s):V – V.
The University of Sheffield, Department of Computer Science, Sheffield S1 4DP,
UK, 2006

Sanchez Moreno, F. M. Reconstrucción 3D con iluminación láser: Aplicaciones a la


fotogrametría industrial. – Capitulo 3: Visión 3D estereoscópica. 2000

« Seguridad futurista » Seguridad futurista: cajeros Globalnet reconocerían rostro de


usuarios. En línea. Accedido 12 de septiembre del 2013.
http://elcomercio.pe/economia/peru/seguridad-futurista-cajeros-globalnet-
reconocerian-rostro-usuarios-noticia-1493707

Shu-Wei Lin, Shu-Shen Hao, Jui-Lun Chang, Sheng-Yi Li. 3D Face Recognition
Based on Curvature Feature Matching, with Expression Variation. Intelligent
Autonomous Systems 12, Volume 1 Proceedings of the 12th International Conference
IAS-12, held June 26-29, 2012, Jeju Island, Korea, pp 289-299.

Sirovich, L. Kirby, M. A Low-Dimensional Procedure for the Characterization of


Human Faces. J. Optical Soc. Am. A, 1987, Vol. 4, No.3, 519-524.

Sigari M. H., Rahmani A. T. Optimized Elastic Bunch Graph Matching using Genetic
Algorthim for Face Recognition. 2007. En línea. Accedido 20 de septiembre del 2013.
http://confbank.um.ac.ir/modules/conf_display/conferences/isfs2007/pdf/i441.pdf

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 79


Reconocimiento Facial Mediante Imágenes Estereoscópicas Para Control de Ingreso

Surazhsky, V., Surazhsky, T. Kirsanov, D., Gortler, S., Hoppe, H. Fast Exact and
Aproxímate Geodesics on Meshes. ACM. SIGGRAPH 2005, pp. 553–560 (2005)

Teknomo, Kardi. Discriminant Analysis Tutorial. 2006. En línea. Accedido 20 de


septiembre del 2013.
http://people.revoledu.com/kardi/tutorial/LDA/

Turk, M., and Pentland, A., Eigenfaces for recognition. Journal of Cognitive
Neuroscience. Vol, 3. pp. 71-86. 1991.

Welling, M. Fisher Linear Discriminant Analisys. Department of Computer Science.


University of Toronto. 2008 . En línea. Accedido 20 de septiembre del 2013.
http://www.ics.uci.edu/~welling/classnotes/papers_class/Fisher-LDA.pdf

Wiskott, L. Fellous, J. M., Krüger, N., von der Malsburg, C. Face Recognition by
Elastic Bunch Graph Matching. In Intelligent Biometric Techniques in Fingerprint
and Face Recognition, eds. L.C. Jain et al., publ. CRC Press, ISBN 0-8493-2055-0,
Chapter 11, pp. 355-396, 1999

Zelasco, J. F., Méndez, D. E., Donadío, A. V. Estereopsis automática panorama del


estado del arte. Anales de la Sociedad Científica Argentina. 1998.

Zhao, W., Chellappa, R., Rosenfeld, A, Phillips, P. J.. Face Recognition: A Literature
Survey, ACM Computing Surveys. 2003. pp. 399-458.

Zhao, H., Yuen, P. C. Incremental Linear Discriminant Analisys for Face


Recognition. IEEE TRANSACTIONS ON SYSTEMS, MAN, AND
CYBERNETICS—PART B: CYBERNETICS, VOL. 38, NO. 1, FEBRUARY 2008.

78630 - Pamela Alejandra Pereyra Universidad de Buenos Aires 80