Está en la página 1de 19

Traducido del inglés al español - www.onlinedoctranslator.

com

EPro-PnP: Perspectiva-n-puntos probabilísticos de extremo a extremo generalizados


para estimación de pose de objeto monocular

hansheng chen,1,2,*Pichao Wang,2,†ventilador wang,2Wei Tian,1,†lu xiong,1hao-li2


1Escuela de Estudios Automotrices, Universidad de Tongji 2Grupo Alibaba

hanshengchen97@gmail.com {tian wei, xiong lu}@tongji.edu.cn


{pichao.wang, fan.w, lihao.lh}@alibaba-inc.com
arXiv:2203.13254v3 [cs.CV] 17 de abril de 2022

Resumen la red EPro-PnP


ponderado 2D-3D probabilis!c
imagen RGB
correspondencias pose de objeto

La localización de objetos 3D a partir de una sola imagen RGB a Correspondencias densas (coordenadas y pesos 3D aprendibles)
través de Perspective-n-Points (PnP) es un problema de larga data en la
delantero delantero
visión artificial. Impulsados por el aprendizaje profundo de extremo a
extremo, estudios recientes sugieren interpretar PnP como una capa hacia atrás hacia atrás

diferenciable, de modo que las correspondencias de puntos 2D-3D se


puedan aprender en parte mediante la retropropagación de la pose del coordenadas y pesos 2D-3D compatibles)

objeto wrt degradado. Sin embargo, aprender todo el conjunto de


delantero

puntos 2D-3D sin restricciones desde cero no logra converger con los
enfoques existentes, ya que la pose determinista es inherentemente no hacia atrás

diferenciable. En este documento, proponemos el EPro-PnP, una capa


PnP probabilística para la estimación general de la pose de un extremo Figura 1. EPro-PnP es una solución general para 2D-3D de extremo a extremo
a otro, que genera una distribución de la pose en la variedad SE(3), aprendizaje por correspondencia. En este documento, presentamos dos redes

esencialmente trayendo el Softmax categórico al dominio continuo. Las distintas entrenadas con EPro-PnP: (a) una red de correspondencia densa lista para

coordenadas 2D-3D y los pesos correspondientes se tratan como usar cuyo potencial se libera mediante el entrenamiento de extremo a extremo, (b)
una red de correspondencia novedosa deformable que explora nuevos
variables intermedias aprendidas al minimizar la divergencia KL entre la
posibilidades de puntos 2D-3D totalmente aprendibles.
distribución de pose prevista y objetivo. El principio subyacente unifica
los enfoques existentes y se asemeja al mecanismo de atención. EPro-
PnP supera significativamente las líneas de base competitivas, cerrando
la brecha entre el método basado en PnP y los líderes de tareas puntos de referencia de detección [8,17] entran en la categoría de

específicas en los puntos de referencia de estimación de pose LineMOD predicción directa de poses 4DoF, aprovechando los avances en el

6DoF y nuScenes 3D.3 aprendizaje profundo de extremo a extremo. Por otro lado, el punto de
referencia de estimación de pose 6DoF [23] está dominado en gran
medida por métodos basados en la geometría [24,52], que explotan los
modelos de objetos 3D proporcionados y logran un rendimiento de

1. Introducción generalización estable. Sin embargo, es bastante desafiante reunir lo


mejor de ambos mundos,es decir., entrenando un modelo geométrico
Estimando la pose (es decir., posición y orientación) de objetos 3D a para aprender la pose del objeto de manera integral.
partir de una sola imagen RGB es una tarea importante en la visión Ha habido propuestas recientes para un marco de extremo a
artificial. Este campo a menudo se subdivide en tareas específicas,p.ej., extremo basado en el enfoque Perspective-n-Points (PnP) [4, 6,9,12]. El
Estimación de pose 6DoF para manipulación de robots y detección de propio algoritmo PnP resuelve la pose a partir de un conjunto de puntos
objetos 3D para conducción autónoma. Aunque comparten los mismos 3D en el espacio objeto y sus correspondientes proyecciones 2D en el
fundamentos de estimación de poses, espacio imagen, dejando el problema de construir estas
ción, la diferente naturaleza de los datos conduce a una elección correspondencias. Aprendizaje por correspondencia vainilla [11,28,29,
sesgada de los métodos. Mejor desempeño [34,48,50] en el objeto 3D 35,35–37,40,46,52] aprovecha la geometría previa para construir

* Parte del trabajo realizado durante una pasantía en Alibaba Group.


funciones de pérdida sustitutas, lo que obliga a la red a aprender un

†Autores para correspondencia: Pichao Wang, Wei Tian. conjunto de correspondencias predefinidas. Aprendizaje por
3Código:https://github.com/tjiiv-cprg/EPro-PnP correspondencia de extremo a extremo [4,6,9,12] interpreta el

1
PnP como una capa diferenciable y emplea la función de pérdida impulsada Puntos clave escasos y correspondencias densas. BB8 [37] y RTM3D [28]
por la pose, de modo que el gradiente del error de pose se puede propagar ubique las esquinas del cuadro delimitador 3D como puntos clave,
hacia atrás a las correspondencias 2D-3D. mientras que PVNet [36] define los puntos clave mediante el muestreo
Sin embargo, el trabajo existente sobre PnP diferenciable del punto más lejano y Deep MANTA [11] por plantillas hechas a mano.
aprende solo una parte de las correspondencias (coordenadas 2D [ Por otro lado, los métodos de correspondencia densa [13,29,35,46,52]
12], coordenadas 3D [4,6] o pesos correspondientes [9]), predecir coordenadas 3D en píxeles dentro de una región 2D recortada.
asumiendo que se dan otros componentesa priori. Esto plantea La mayoría de los métodos basados en geometría existentes siguen
una pregunta importante: ¿por qué no aprender todo el conjunto una estrategia de dos etapas, donde las representaciones intermedias (
de puntos y pesos de manera integral? La respuesta simple es: la es decir., correspondencias 2D-3D) se aprenden con una función de
solución del problema PnP es intrínsecamente no diferenciable en pérdida sustituta, que es subóptima en comparación con el aprendizaje
algunos puntos, lo que provoca dificultades de entrenamiento y de extremo a extremo.
problemas de convergencia. Más específicamente, un problema Aprendizaje por correspondencia de extremo a extremoPara mitigar la
PnP puede tener soluciones ambiguas [32,38], lo que hace que la limitación del aprendizaje por correspondencia sustituta, se han
retropropagación sea inestable. propuesto enfoques de extremo a extremo para retropropagar el
Para superar las limitaciones anteriores, proponemos unmind- gradiente de la pose a la representación intermedia. Al diferenciar la
to-endProbabilísticoPNP (EPro-PnP) que permite aprender las operación PnP, Brachmann y Rother [6] proponen una densa red de
correspondencias de puntos 2D-3D ponderados completamente correspondencia donde los puntos 3D se pueden aprender, BPnP [12]
desde cero (Figura1). La idea principal es sencilla: la pose predice ubicaciones de puntos clave 2D y BlindPnP [9] aprende la matriz
determinista no es diferenciable, pero la densidad de probabilidad de peso correspondiente dado un conjunto de puntos 2D/3D no
de la pose es aparentemente diferenciable, al igual que las ordenados. Más allá de la correspondencia de puntos, RePOSE [24]
puntuaciones de clasificación categórica. Por lo tanto, propone una red de correspondencia característica-métrica entrenada
interpretamos la salida de PnP como una distribución probabilística de manera similar de extremo a extremo. Todos los métodos anteriores
parametrizada por las correspondencias 2D-3D aprendibles. se combinan con la pérdida de regularización sustituta; de lo contrario,
Durante el entrenamiento, la divergencia de Kullback-Leibler (KL) no se garantiza la convergencia debido a la naturaleza no diferenciable
entre las distribuciones de pose predicha y objetivo se calcula de la pose determinista. Bajo el marco probabilístico, estos métodos
como la función de pérdida, que es numéricamente tratable pueden considerarse como un enfoque de aproximación de Laplace
mediante un muestreo eficiente de pose de Monte Carlo. (Sección3.1) o una técnica de regularización local (Sección3.4).
Como enfoque general, EPro-PnP unifica inherentemente las técnicas de
aprendizaje por correspondencia existentes (Sección3.1). Además, al igual
Aprendizaje profundo probabilísticoLos métodos probabilísticos dan
que el mecanismo de atención [44], los pesos correspondientes se pueden
cuenta de la incertidumbre en el modelo y los datos, conocidos
entrenar para enfocarse automáticamente en pares de puntos importantes,
respectivamente como incertidumbre epistémica y aleatoria.25]. Este
lo que permite que las redes se diseñen con la inspiración del trabajo
último implica interpretar la predicción como distribuciones
relacionado con la atención [10,49,54].
probabilísticas aprendibles. La distribución categórica discreta a través
En resumen, nuestras principales contribuciones son las siguientes:
de Softmax ha sido ampliamente adoptada como una aproximación
• Proponemos el EPro-PnP, una capa PnP probabilística para la estimación fluida de one-hotargumento máximopara la clasificación de extremo a
general de poses de extremo a extremo a través de correspondencias extremo. Esto inspiró obras como DSAC [4], un RANSAC suave con un
2D-3D aprendibles. conjunto finito de hipótesis. Mientras tanto, las distribuciones
• Demostramos que EPro-PnP puede alcanzar fácilmente un paramétricas manejables (p.ej., distribución normal) se utilizan a
rendimiento superior para la estimación de poses 6DoF menudo para predecir variables continuas [13,18,22,25,26,51], y las
simplemente insertándolo en el CDPN [29] estructura. distribuciones de mezcla se pueden emplear para capturar aún más la
• Demostramos la flexibilidad de EPro-PnP proponiendo ambigüedad [3,5,31],p.ej., pose ambigua 6DoF [7]. En este documento,
aprendizaje por correspondencia deformablepara la proponemos una contribución única: propagar hacia atrás una
detección precisa de objetos 3D, donde todas las distribución continua complicada derivada de una capa de optimización
correspondencias 2D-3D se aprenden desde cero. anidada (la capa PnP), convirtiéndola esencialmente en una contraparte
continua de Softmax.

2. Trabajo relacionado
3. PnP probabilístico extremo a extremo generalizado
Estimación de pose de objeto basada en geometríaEn general, los
3.1. Visión general
métodos basados en geometría explotan los puntos, bordes u
otros tipos de representación que están sujetos a las restricciones Dar{n un objeto pro∣posal, nuestro objetivo es predecir un conjunto
de proyección bajo la cámara de perspectiva. Entonces, la pose se X=X3D i,X2D i,w2D∣ii =1···nortedenortecorrespondiente
puede resolver mediante optimización. Un gran cuerpo de trabajo puntos, con coordenadas de objetos 3DXi 3D∈R3, imagen 2D
utiliza la representación de puntos, que se puede clasificar en coordenadasX2Di ∈R2y pesos 2Dw2D i ∈R2 + , de

2
en el que se puede formular un problema PnP ponderado para estimar Pérdida adecuada pérdida impropia
gt gt gt

Problema no normalizado.
la pose del objeto en relación con la cámara.
La esencia de una capa PnP es buscar una pose óptimay(
expandida como matriz de rotaciónRy vector de traducciónt)
que minimiza el error de reproyección ponderado cuadrático
acumulativo:
Clasificación discreta Postura continua Postura continua
1∑norte∥ ( )∥
mínimo de argumento ∥w2D◦ π(Rx3D+t)− X2D∥2,(1)
i︸ Figura 2.Aprendiendo un clasificador discretocontra. Aprendiendo la
y 2 i=1 ︸i ︷i︷
Fi(y)∈R2 distribución continua de poses.Una función de pérdida discriminativa
(izquierda) fomentará la probabilidad no normalizada para la predicción
dóndeπ(·)es la función de proyección con los elementos intrínsecos de la
correcta y penalizará la incorrecta. Una pérdida unilateral (derecha)
cámara involucrados,◦significa producto por elementos, yFi(y)denota de
degradará la distribución si el modelo no está bien regularizado.
forma compacta el error de reproyección ponderado.
ecuación (1) formula un problema de mínimos cuadrados no lineal
que puede tener soluciones no únicas,es decir., ambigüedad de la pose Comparación con el método basado en reproyecciónLos dos términos en la
[32,38]. Trabajo previo [6,9,12] solo retropropaga a través de una Ec. (5) se ocupan de los errores de reproyección en el objetivo y la pose
solución localy∗, que es inherentemente inestable y no diferenciable. predicha, respectivamente. El primero se usa a menudo como pérdida
Para construir una alternativa diferenciable para el aprendizaje de sustituta en trabajos anteriores [6,12,13]. Sin embargo, el primer término por
extremo a extremo, modelamos la salida PnP como una distribución de sí solo no puede manejar el aprendizaje de todos los puntos 2D-3D sin
pose, lo que garantiza una densidad de probabilidad diferenciable. imponer una regularización estricta, ya que la minimización podría
Considere el error acumulativo como el logaritmo negativo de la simplemente llevar todos los puntos a una ubicación concentrada sin
función de verosimilitudpags(X|y)definido como: discriminación de poses. El segundo término se origina a partir del factor de
normalización en la ecuación. (3), y es fundamental
1∑ norte

pags(X|y) = exp.− ‖Fi(y)‖2. (2) a una función de pérdida discriminativa, como se muestra en la Figura2.
2 i=1
Comparación con el método de diferenciación implícitaTrabajo
Con una distribución de pose previa adicionalpags(y), podemos derivar existente sobre PnP de extremo a extremo [9,12] deriva una
la pose posteriorpags(y|X)a través del teorema de Bayes. Usando un solución única de un solver particulary∗=PNP(X)a través del teorema
previo poco informativo, la densidad posterior es simplemente de la función implícita [19]. En el marco probabilístico, este es
ficado a la probabilidad normalizada: esencialmente el método de Laplace que aproxima el posterior por
∑ 2 norte(y∗,Σy∗), donde ambosy∗y Σy∗puede ser estimado por la
Exp−1 2 i=1‖Fi(y)‖
norte

pags(y|X) =∫ ∑norte . (3) Solver PnP con derivadas analíticas [13]. Un caso especial es
Exp−1 2 i=1‖Fi(y)‖2dy que, con Σy∗simplificado para que sea isotrópico, la divergencia
ecuación (3) puede interpretarse como una contraparte continua
KL aproximada se puede simplificar a la pérdida L2‖y∗−y2 gt‖
utilizado en [9]. Sin embargo, la aproximación de Laplace es
de Softmax categórico.
inexacta para posteriores no normales con ambigüedad, por lo que
Función de pérdida KLDurante el entrenamiento, dada una distribución
no garantiza la convergencia global.
de pose objetivo con densidad de probabilidadt(y), la divergencia KLDKL(
t(y)‖pags(y|X))se minimiza como pérdida de entrenamiento. 3.2. Pérdida de pose de Monte Carlo
Intuitivamente, la ambigüedad de la pose puede ser capturada por los
En esta sección, presentamos un enfoque de Monte Carlo
múltiples modos depags(y|X), y se asegura la convergencia de modo
eficiente compatible con GPU para la integración en la función de
que la función de pérdida suprime los modos erróneos. Soltar-
pérdida propuesta, basado en el algoritmo Muestreo adaptativo de
Haciendo ping a la constante, la pérdida por divergencia KL se puede escribir como:
∫ ∫ importancia múltiple (AMIS) [14].
Considerandoq(y)ser la función de densidad de probabilidad de una
LKL=− t(y) Iniciar sesiónpags(X|y) dy+Iniciar sesión pags(X|y) dy.(4)
distribución propuesta∑ butión que se aproxima a la forma de la
2
integrandoExp−1 2 i=1‖Fi(y)‖,yyjser uno de losk
norte

Encontramos empíricamente efectivo establecer una distribución


objetivo estrecha (similar a Dirac) centrada en la realidad del terrenoygt, muestras extraídas deq(y), la estimación del segundo término Lpresaen la

dando la pérdida simplificada (después de sustituir la Ec. (2)): ecuación (5) es así:

1∑ ∫ 1∑ 1∑ kExp−1
∑norte 2
i=1‖Fi(yj)‖
norte norte

2 2 2
LKL= ‖Fi(ygt)‖ + registro Exp− ‖Fi(y)‖ dy. Lpresa≈Iniciar sesión , (6)
2 i=1
︸ 2︷i︷ k j=1︸
q(y
︷︷ ︸ ︸
=1
︸ ︷︷j) ︸
vj(peso de importancia)
Ltgt(reproj. en la pose del objetivo) Lpresa(reproj. en la pose predicha) (5)
El único problema que queda es la integración en el segundo dóndevjdenota de forma compacta el peso de importancia enyj.
término, que se elabora en la Sección3.2. ecuación (6) da importancia al muestreo de vainilla, donde el

3
elección de propuestaq(y)Afecta fuertemente a la estabilidad Algoritmo 1:Pérdida de pose de Monte Carlo con sede en AMIS
numérica. El algoritmo AMIS es una mejor alternativa ya que
Aporte :X={X3D i,X2D i,w2D i }
iterativamente adapta la propuesta al integrando.
Producción:Lpresa
En resumen, AMIS utiliza los pesos de importancia muestreados de
1y∗,Σy∗←PNP(X) 2 // Aproximación de Laplace
iteraciones anteriores para estimar la nueva propuesta. Luego, todas las
Adaptarq1(y)ay∗,Σy∗ // propuesta inicial
muestras anteriores se vuelven a ponderar como muestras
3 para1≤t≤Thacer 4
homogéneas de una mezcla de la suma total de propuestas. La
Generark′muestrasyt j=1···k′deqt(y)
propuesta inicial se puede determinar por el modo y la covarianza de la
5 por1≤j≤k′hacer
distribución de la pose prevista (consulte el suplemento para obtener ∑ ∥ ∥
6 j←X−episodio2
norte
∥Fi(yj) t∥2 // evaluar integrando
más detalles). Se da un pseudocódigo en Algorithm1. PAGSt 1
i=1

Elección de la distribución de la propuestaLas distribuciones 7 por1≤ τ ≤ty1≤j≤k′hacer



propuestas de posición y orientación deben elegirse por separado 8 qτj←1 t tmetro=1qmetro(yτj) // mezcla de propuesta de

de forma desacoplada, ya que el espacio de orientación no es 9 vjτ←PAGSτj/qτ j evaluación // peso de importancia

euclidiano. Para la posición, adoptamos la distribución t


10 sit < Tdespués
multivariante 3DoF. Para la orientación 1D solo de guiñada,
11 Estimarqt+1(y)de todas las muestras ponderadas
usamos una mezcla de von Mises y distribución uniforme. Para la
{yτj,vτ j|1≤ τ ≤yo,1≤j≤k′}
orientación 3D representada por el cuaternión unitario, la
distribución gaussiana central angular [43] es adoptado. 1
∑T ∑ k′ t
12Lpresa←Iniciar sesión
t=1
conocimientos tradicionales′ j=1vj
3.3. retropropagación
componentes subyacentes

En general, las derivadas parciales de la función de pérdida definida


en la Ec. (5) es:

∂LKL ∂1∑
norte
∂1∑ norte

= ‖Fi(y)‖gt2 − mi ‖Fi(y)‖2,
∂(·) ∂(·) 2 i=1
∂(·) 2
y∼pags(y| X)
i=1
aporte correspondiente inverso discriminación
(7) peso incertidumbre (pose sensibilidad)

donde el primer término es el gradiente de errores de reproyección en Figura 3.El peso correspondiente aprendidose puede factorizar en
la pose de destino, y el segundo término es el gradiente esperado de incertidumbre inversa y discriminación. Por lo general, la incertidumbre
errores de reproyección sobre la distribución de pose predicha, que se inversa se asemeja más o menos a la máscara de primer plano, mientras que

aproxima retropropagando cada muestra ponderada en la pérdida de la discriminación enfatiza los extremos 3D del objeto.

pose de Monte Carlo.

Equilibrar la incertidumbre y la discriminaciónConsidere el calcular la pose exactay∗resolviendo el problema PnP en la


gradiente negativo con los pesos correspondientesw2D i: ecuación. (1). La opción común de alta precisión es utilizar el
( ) solucionador iterativo PnP basado en el algoritmo Levenberg-
∂L r ◦2
− KL=w2D◦
i −r◦2(y)i + gt mi i ( y ) , (8) Marquardt (LM), una variante robusta del algoritmo Gauss-Newton
∂wi2D y∼pags(y|X)
(GN), que resuelve los mínimos cuadrados no lineales por el
primero y aproximado. derivadas de segundo orden. Para ayudar a
dónderi(y) =π(Rx3D i + t)−X2D i (reproyección no ponderada)
la optimización basada en derivadas, regularizamos las derivadas
error de ción), y (·)◦2significa cuadrado de elementos. los
de la densidad logarítmicaIniciar sesiónpags(y|X)escribe la posey,
primer término entre paréntesis−r◦2i (ygt)con signo negativo indica
fomentando el paso LM∆ypara encontrar la verdadera poseygt.
que las correspondencias con un gran error de reproyección (por lo tanto,
Emplear la regularización durante el entrenamiento, una
una gran incertidumbre) se ponderarán menos. el segundo termino
solución separaday∗se obtiene primero. Entonces, eny∗, otro paso
miy∼pags(y|X)r◦i2(y)es relevante para la varianza de la reproyección
de iteración se evalúa a través del algoritmo GN (que idealmente es
error sobre la pose predicha. El signo positivo indica que las
igual a 0 siy∗ha convergido al óptimo local):
correspondencias sensibles deben ponderarse más, porque
proporcionan una mayor discriminación de poses. El gradiente final es, ∆y=−(jTj+εI)−1jTF(y∗), (9)
por lo tanto, un equilibrio entre la incertidumbre y la discriminación,
[ ]
como se muestra en la Figura3. trabajo existente [13,36] sobre el dóndeF(y∗) =FT 1(y∗), fT 2(y∗),··· ,FT norte(y∗)Tes la con-
aprendizaje de correspondencias conscientes de la incertidumbre solo nosotros∣errores de reproyección detectados de todos los puntos,j=
considera la primera, por lo que carece de la capacidad discriminativa. ∂F(y)/∂yT∣ y=y∗es la matriz jacobiana, yεes una pequeña
valor de la estabilidad numérica. Tenga en cuenta que∆yes analíticamente
3.4. Regularización Local de Derivados
diferenciable. Por lo tanto, diseñamos la pérdida de regularización de la
Si bien la divergencia KL es una buena métrica para la distribución siguiente manera:
probabilística, para la inferencia aún se requiere estimar Lregistro=yo(y∗+∆s, sgt), (10)

4
lineal, exp
dóndeyo(·, ·)es una métrica de distancia para pose. Adoptamos L1 suave para escala global
la posición y la similitud del coseno para la orientación (consulte los
mapa crd de píxeles 256x1x1 2x1x1
2x64x64
materiales complementarios para obtener más detalles). Tenga en cuenta espacial
que el gradiente solo se propaga hacia atrás a través de∆y, fomentando que softmax

el paso sea distinto de cero siy∗6=ygt.


Cabe señalar que esta pérdida de regularización es muy similar 2x64x64 mapa de peso
2x64x64
a la función de pérdida derivada de la diferenciación implícita [9,12
], y puede usarse para entrenar redes de refinamiento de poses
dentro de un alcance limitado [24].
recortado CNN
imagen (columna vertebral CDPN Mapa 3D crd
4. Redes de correspondencia inspiradas en la + cabeza podrida) 3x64x64

atención Figura 4. La red de estimación de pose 6DoFmodificado de


CDPN [29]. con Softmax espacial y escala de peso global.
Como se discutió en la Sección3.3, el equilibrio entre
incertidumbre y discriminación permite localizar correspondencias
importantes de forma atencional. Esto nos inspira a tomar puede elevarse imponiendo la pérdida de regularizaciónLregistroen la ecuación
elementos del trabajo relacionado con la atención,es decir., la capa (10).
Softmax y el muestreo deformable [54].
En esta sección, presentamos dos redes con capa EPro-PnP para 4.2. Red de Correspondencia Deformable
estimación de pose 6DoF y detección de objetos 3D,
Inspirado en DETR deformable [54], proponemos una red de
respectivamente. Para el primero, EPro-PnP se incorpora a la
correspondencia deformable novedosa para la detección de
arquitectura de correspondencia densa existente [29]. Para este
objetos 3D, en la que se aprenden desde cero las coordenadas y
último, proponemos una red de correspondencia deformable
pesos completos 2D-3D.
radical para explorar la flexibilidad de EPro-PnP.
Como se muestra en la figura5, la red de correspondencia
deformable es una extensión del FCOS3D [47] estructura. El FCOS3D
4.1. Red de correspondencia densa
original es un detector de una etapa que realiza una regresión directa
Para una comparación estricta con los estimadores de pose basados en del desplazamiento central, la profundidad y la orientación de guiñada
PnP existentes, este documento toma la red de CDPN [29] como referencia, de múltiples objetos para la estimación de pose 4DoF. En nuestra
agregando modificaciones menores para adaptarse al EPro-PnP. adaptación, las salidas del cabezal FCOS multinivel [41] se modifican
El CDPN original alimenta regiones de imágenes recortadas dentro de los para generar consultas de objetos en lugar de predecir directamente la
cuadros 2D detectados en la red de estimación de pose, a la que se adjuntan pose. También inspirado en Deformable DETR [54], la apariencia y la
dos cabezales desacoplados para rotación y traducción, respectivamente. El posición de una consulta se separan en el vector de incrustación y el
cabezal de rotación se basa en PnP, mientras que el cabezal de traducción punto de referencia. Una capa de atención deformable de múltiples
utiliza regresión directa. Este documento descarta el encabezado de cabezales [54] se adopta para muestrear los pares clave-valor de las
traducción para enfocarse completamente en PnP. características densas, con el valor proyectado encaracterísticas
Las modificaciones solo se realizan en las capas de salida. Como puntuales, y mientras tanto agregados en elcaracterísticas a nivel de
se muestra en la figura4, el mapa de confianza original se expande objeto.
a ponderaciones XY de dos canales con Softmax espacial y escala Las características de los puntos se pasan a una subred que predice
de ponderación global dinámica. Inspirado en el mecanismo de los puntos 3D y los pesos correspondientes (normalizados por Softmax).
atención [44], la capa Softmax es un elemento vital para un Siguiendo a MonoRUn [13], los puntos 3D se establecen en el espacio de
entrenamiento estable, ya que traduce los pesos correspondientes coordenadas de objeto normalizado (NOC) para manejar objetos
absolutos en una medida relativa. Por otro lado, los factores de categóricos de varios tamaños.
escala de peso global representan la concentración global de la Las características del objeto son responsables de predecir las
distribución de pose predicha, asegurando una mejor convergencia propiedades a nivel del objeto: (a) la puntuación 3D (es decir., confianza
de la pérdida de divergencia KL. de localización 3D), (b) el factor de escala de peso (igual que en la
La red de correspondencia densa se puede entrenar únicamente Sección4.1), (c) el tamaño del cuadro 3D para recuperar la escala
con la pérdida de divergencia KLLKLpara lograr un desempeño decente. absoluta de los puntos 3D, y (d) otras propiedades opcionales
Para un rendimiento de primer nivel, sigue siendo beneficioso utilizar (velocidad, atributo) requeridas por el benchmark nuScenes [8].
una regresión de coordenadas adicional como supervisión intermedia, Las correspondencias 2D-3D deformables se pueden aprender
no para estabilizar la convergencia, sino para introducir el conocimiento únicamente con la pérdida de divergencia KLLKL, preferentemente en
geométrico de los modelos 3D. Por lo tanto, mantenemos la pérdida de conjunción con la pérdida de regularizaciónLregistro. Se pueden imponer
regresión de coordenadas enmascarada de CDPN [29] pero dejar de otras pérdidas auxiliares a las características densas para mejorar la
lado su pérdida de confianza. Además, el rendimiento precisión. Los detalles se dan en los materiales complementarios.

5
FPN P3~P7
objeto punto de referencia centralidad clasificación
P7 s128 conversión incrustación (centro de objetos)

P6 s64
p5 s32 consulta obj

p4 s16 puntos 3D (NOC)


(modo de entrenamiento)
punto hazaña
p3 s8
P2~P5 pesos
autoatención
(modo de inferencia)
conversión,
muestreo puntos 2D EPro‐PnP
P2 s4
sobremuestrear,
concat
hazaña obj Puntuación 3D, escala de peso, tamaño 3D, (velocidad, atributo)
densa hazaña s4

Figura 5.La red de correspondencia deformablebasado en el FCOS3D [47] detector. Tenga en cuenta que las características puntuales muestreadas son
compartidas por la subred de nivel de punto y la capa de atención deformable que agrega las características para las predicciones a nivel de objeto.

5. Experimentos El kernel de Huber con umbraldSe define como:


{
5.1. Conjuntos de datos y métricas s, s≤ d2,
ρ(s) = √ (12)
Conjunto de datos y métricas de LineMODEl conjunto de datos LineMOD d(2 s - δ), s > d2.
[23] consta de 13 secuencias, cada una de las cuales contiene alrededor
Usamos un umbral adaptativo como se describe en los materiales
de 1,200 imágenes anotadas con poses de 6DoF de un solo objeto.
complementarios. Para la pérdida de pose de Monte Carlo, establecemos el
Siguiendo [5], las imágenes se dividen en conjuntos de entrenamiento y
recuento de iteraciones de AMISTa 4 y el número de muestras por iteraciónk′
prueba, con alrededor de 200 imágenes por objeto para entrenamiento.
a 128. Los pesos de pérdida se ajustan de tal manera queLKL
Para el aumento de datos, usamos los mismos datos sintéticos que en
produce aproximadamente la misma magnitud de gradiente que la
CDPN [29]. Usamos dos métricas comunes para la evaluación: ADD(-S) y
regresión de coordenadas típica, mientras que el gradiente deLregistrose
norte°, nortecm. El ADD mide si la desviación promedio de los puntos
mantienen muy bajos. La técnica de normalización del peso en [13] se
del modelo transformado es menor que una cierta fracción del
adopta para calcular la pérdida de peso dinámica paraLKL.
diámetro del objeto (p.ej., AÑADIR-0.1d). Para objetos simétricos, ADD-S
Entrenamiento de la Red de Correspondencia DensaLa configuración
calcula la distancia promedio al punto de modelo más cercano.norte°,
general se mantiene igual que en CDPN [29] (con ResNet-34 [21] como
nortecm mide la precisión de la pose en función de los umbrales de
columna vertebral) para una comparación estricta, excepto que
error angular/posicional. Todas las métricas se presentan como
aumentamos el tamaño del lote a 32 para reducir el tiempo de
porcentajes.
entrenamiento. La red está entrenada para 160 épocas por RMSprop en
Conjunto de datos y métricas de nuScenesEl punto de referencia de
el conjunto de datos LineMOD [23]. Para reducir la sobrecarga de Monte
detección de objetos 3D de nuScenes [8] proporciona una gran escala
Carlo, se muestrean aleatoriamente 512 puntos de los 64 × 64 puntos
de datos recopilados en 1000 escenas. Cada escena contiene 40
densos para calcularLKL.
fotogramas clave, anotados con un total de 1,4 millones de cuadros
Entrenamiento de la Red de Correspondencia Deformable
delimitadores 3D de 10 categorías. Cada fotograma clave incluye 6
Adoptamos la misma arquitectura de detector que en FCOS3D [47],
imágenes RGB recopiladas de las cámaras circundantes. Los datos se
con ResNet-101-DCN [15] como columna vertebral. La red está
dividen en 700/150/150 escenas para entrenamiento/validación/prueba.
entrenada durante 12 épocas por AdamW [30], con un tamaño de
El punto de referencia oficial evalúa la precisión promedio con
lote de 12 imágenes en 4 GPU en el conjunto de datos nuScenes [8
verdaderos positivos juzgados por error de centro 2D en el plano de
].
tierra. La métrica mAp se calcula promediando los umbrales de 0,5, 1, 2,
4 metros. Además, hay 5 métricas positivas verdaderas: error de 5.3. Resultados en LineMOD Benchmark
traducción promedio (ATE), error de escala promedio (ASE), error de
orientación promedio (AOE), error de velocidad promedio (AVE) y error Comparación con la línea de base CDPN con ablacionesLas
de atributo promedio (AAE). Finalmente, hay un puntaje de detección de contribuciones de cada modificación a CDPN [29] se revelan en
nuScenes (NDS) calculado como un promedio ponderado de las la Tabla1. De los resultados se puede observar que:
métricas anteriores. • El CDPN original se basa en gran medida en la regresión de
posición directa y el rendimiento cae considerablemente (-17,46)
5.2. Detalles de implementacion
cuando se reduce a un estimador PnP puro, aunque el
Configuración EPro-PnPPara la formulación de PnP en la ecuación. ( solucionador LM recupera parcialmente la métrica media (+6,29).
1), en la práctica, los costos reales de reproyección son reforzados • El empleo de EPro-PnP con la pérdida de divergencia KL
por el núcleo de Huberρ(·): mejora significativamente la métrica (+13,84), superando a
CDPN-Full por un margen claro (65,88contra. 63.21).
1∑ ( )
2.
norte

• La pérdida de regularización propuesta en la Eq. (10) eleva aún


mínimo de argumento ρ‖Fi(y‖ ) (11)
y 2 i=1 más el rendimiento (+1,88).

6
• Se observa una gran mejora (+5,46) cuando se inicializa desde AÑADIR(-S)
Método
IDENTIFICACIÓN Significar
A1, porque CDPN se entrenó con la verdad de tierra adicional 0.02d 0.05d 0.1d
de las máscaras de objetos, lo que brinda un buen estado A0 CDPN-Completo [29] CDPN 29,10 69,50 91.03 63.21
inicial que resalta el primer plano. A1 sin trans. cabeza 15,93 46,79 74.54 45,75 (−17,46)
• Finalmente, el rendimiento se beneficia (+0,97) de más épocas A2 + Lote=32, solucionador LM 21,17 55,00 79,96 52,04 (+6,29)
de entrenamiento (160 ep. de A1 + 320 ep.) como equivalente B0 Básico EPro-PnP 32,14 72,83 92,66 65,88 (+13,84)
a CDPN-Full [29] (3 etapas × 160 ep.). B1 + Regularizar derivados 35,44 74,41 93,43 67,76 (+ 1,88) B2
+ Inicializar desde A1 42,92 80,98 95,76 73,22 (+ 5,46)
Los resultados demuestran claramente que EPro-PnP puede liberar B3 + Horario largo. (320 ep.) 44,81 81,96 95,80 74,19 (+0,97)
el enorme potencial del enfoque PnP clásico, sin ningún diseño de C0 B0→Separar coordenadas. 29,57 68,61 90.23 62,80 (−3,08)
red sofisticado ni trucos de desacoplamiento. C1 B0→Separar pesos 22,99 61,31 87.27 57,19 (−8,69)

Comparación con el estado del arteComo se muestra en la Tabla2, a D0 B0→Sin denominación Softmax. divergencia

pesar de modificarse desde la línea de base inferior, EPro-PnP alcanza Tabla 1. Comparación con la línea base de CDPN con ablación
fácilmente un rendimiento comparable al del refinador de pose superior Estudios.Los resultados de CDPN se reproducen con el código oficial.4
RePOSE [24], que agrega una sobrecarga adicional al estimador inicial En C0/C1, cualquiera de los componentes se separa individualmente de la pérdida KL,

basado en PnP PVNet [36]. Entre todas estas entradas, EPro-PnP es la mientras se agrega una pérdida de regresión de máscara sustituta [29] en C1.

más sencilla, ya que simplemente resuelve el problema de PnP en sí


mismo, sin una red de refinamiento [24,52], traducción desenredada [29 AÑADIR(-S)
Método 2°, 2cm 5°, 5 cm
,45], o múltiples representaciones [40]. 0.02d 0.05d 0.1d

Comparación con diferenciación implícita y aprendizaje de reproyección CDPN [29] - 94.31 - - 89.86
Pose híbrida [40] - - - - 91,3
Como se muestra en la Tabla3, cuando se elimina la pérdida de
RDANet* [45] 67.1 - 35,6 76,0 93.6
regresión de coordenadas, tanto la diferenciación implícita como la DPOD [52] - - - - 95.15
pérdida de reproyección no logran aprender la pose correctamente. Sin PVNet-RePOSE [24] - - - - 96,1
embargo, EPro-PnP logra aprender las coordenadas desde cero, incluso EPro-PnP 80.99 98,54 44,81 81,96 95.80
superando a CDPN sin cabezal de traducción (79,46contra. 74.54). Esto
Tabla 2.Comparación con los métodos geométricos del estado del arte.BPnP [
valida que EPro-PnP se puede usar como un estimador de pose general
12] no está incluido ya que adopta una división de tren/prueba diferente.
sin depender de la geometría previa.
*Aunque GDRNet [45] solo informa el rendimiento en su sección de ablación,
Incertidumbre y DiscriminaciónEn mesa3,Reproyección vs.Monte Carlo sigue siendo una comparación justa con nuestro método, ya que ambos usan
la pérdida puede interpretarse únicamente como incertidumbrecontra. la misma línea de base (CDPN).
equilibrio incertidumbre-discriminación. Los resultados revelan que la
incertidumbre por sí sola muestra un gran rendimiento cuando se Coord. AÑADIR(-S)
Pérdida principal 2° 2cm 2°, 2cm
dispone de supervisión de coordenadas intermedias, mientras que la registro 0.1d
discriminación es el elemento clave para aprender las correspondencias Diferencia implícita. [12] divergencia
Reproyección [13] 0.32 42.30 0.16 14.56
desde cero.
Montecarlo (nuestro) 44,18 81,55 40.96 79.46
Contribución del peso de extremo a extremo/aprendizaje coordinadoComo Diferencia implícita. [12] X 56,13 91,13 53.33 88.74
se muestra en la Tabla1, separar los pesos de la pérdida de extremo a Reproyección [13] X 62,79 92,91 60.65 92.04
extremo tiene un mayor impacto en el rendimiento que separar las Montecarlo (nuestro) X 65,75 93,90 63.80 92.66

coordenadas (−8.69contra. −3.08), enfatizando la importancia del aprendizaje


Tabla 3.Comparación entre funciones de pérdidapor experimentos realizados
de peso de extremo a extremo similar a la atención. en la misma red de correspondencia densa. Para la diferenciación implícita,
minimizamos la métrica de distancia de la pose en la ecuación. (10) en lugar
Sobre la importancia de la capa SoftmaxAprendiendo los pesos
de la pérdida de pose métrica de reproyección en BPnP [12].
correspondientes sin el denominador de normalización de Softmax
espacial (por lo que se convierte en una activación exponencial
como en [13]) no converge, como se indica en la Tabla1.
presentado en la Tabla4en comparación con otros enfoques.
De los resultados de la validación se puede observar que:
5.4. Resultados de nuScenes Benchmark
• El EPro-PnP básico supera significativamente al FCOS3D [47] línea
Evaluamos 3 variantes de EPro-PnP: (a) el enfoque básico que
base (NDS 0.425contra. 0,372). Aunque se beneficia parcialmente
aprende las correspondencias deformables sin un previo geométrico
de más parámetros del encabezado de correspondencia, todavía
(mejorado con la regularización), (b) agregando la pérdida de regresión
hay buena evidencia de que: con una canalización de extremo a
de coordenadas con la verdad del terreno escasa extraída de los puntos
extremo adecuada, PnP puede superar la predicción de pose
LiDAR disponibles como en [13], (c) agregando además el aumento de
directa en una gran escala de datos.
tiempo de prueba (TTA) para una comparación justa con [47,48]. Todos
los resultados de los conjuntos de validación/prueba son 4https://git.io/JXZv6

7
derecho al revés le" delantero Correcto

Métricas positivas verdaderas (más bajo es mejor)


Método Datos NDS mapa

Barrera
MATE MASE MAOE MAVE MAAE
2

Densidad
1

CenterNet [53] valle 0.328 0.306 0,716 0,264 0,609 1,426 0,658 0,806 0

0,268 0,511 1,315 0,170 0,725 0,263


0 π/2 π 3π/2 2π

FCOS3D [47] valle 0.372 0.295 Y oh

FCOS3D§† [47] valle 0.415 0.343 0,422 1,2920.153

Cono
0.2

DGP§ [48] valle 0.422 0.361 0,694 0,265 0,442 1,255 0,185 0.1

Densidad
EPro-PnP básico valle 0.425 0.349 0,676 0,263 0,363 1,035 0,196 0,667 0.0

0,258 0,337 1,031 0,193 0,653 0,255


0 π/2 π 3π/2 2π

+ coord. reg. valle 0.430 0.352 Y oh

+ TTA§ 0.439 0.361 0,319 1,0080.193

Peatonal
valle 2

MonoDIS [39] Prueba 0,384 0,304 0,738 0.263 0.546 1.553 0.134
1

CenterNet [53] Prueba 0,400 0,338 0,658 0.255 0.629 1,629 0,142 0

0 π/2 π 3π/2 2π

FCOS3D§† [47] Prueba 0,428 0,358 0,690 0.249 0.452 1.434 0.124
(vista panorámica)
Y oh

orientación distribución distribución de posiciones


DGP§ [48] Prueba 0.4480.3860.626 0.245 0.451 1.509 0.127
Figura 6.Visualización de la distribución de pose prevista.
EPro-PnP§ Prueba0.4530.3730.605 0.243 0.359 1.067 0.124
La densidad de orientación es claramente multimodal,
Tabla 4.Resultados de detección de objetos 3Den el punto de referencia nuScenes. Los métodos con capturando la ambigüedad de la pose de los objetos
entrenamiento previo adicional que no sean la red troncal de ImageNet no se incluyen para la simétricos (Barrera,Cono) y observaciones inciertas (
comparación. § indica aumento de volteo en tiempo de prueba (TTA). † indica conjunto modelo. Peatonal).
EPro-PnP
Aporte CDPN implícito sin básico + iniciar desde

• Con respecto a las métricas mATE y mAOE que reflejan la (solo registro) diferencia registro crd CDPN
precisión de la pose, el EPro-PnP básico ya supera a todos los
métodos anteriores, lo que nuevamente demuestra que EPro-
PnP es un mejor estimador de la pose. La pérdida de
regresión de coordenadas ayuda a reducir aún más el error
de orientación (mAOE 0.337contra. 0,363).
• Con TTA, EPro-PnP supera el estado del arte por un claro
margen (NDS 0.439contra. 0.422) en el conjunto de
validación.
AGREGAR(-S) 0.1d 79.96 88.74 79,46 92,66 93,43 95,76
En los datos de prueba, con la ventaja de la precisión de la pose
(mATE y mAOE), EPro-PnP logra la puntuación NDS más alta entre Figura 7.Visualización del peso inferido y mapas de coordenadasen los
datos de prueba de LineMOD.
otros competidores de tareas específicas.

5.5. Analisis cualitativo


6. Conclusión
Como se ilustra en la figura7, los mapas densos de peso y
Este documento propone el EPro-PnP, que traduce la operación
coordenadas aprendidos con EPro-PnP generalmente capturan menos
PnP determinista no diferenciable en una capa probabilística
detalles en comparación con CDPN [29], como resultado de una mayor
diferenciable, lo que permite el aprendizaje por correspondencia
incertidumbre alrededor de los bordes afilados. Sorprendentemente, a
2D-3D de extremo a extremo con una flexibilidad sin precedentes.
pesar de que los mapas de coordenadas aprendidos desde cero
Las conexiones con trabajos anteriores [6,9,12,13] han sido
parecen ser un desastre, la tubería de extremo a extremo gana una
ampliamente discutidos con pruebas teóricas y experimentales.
precisión de pose comparable a la línea de base CDPN (79.46contra.
Para su aplicación, EPro-PnP puede inspirar soluciones novedosas
79.96). Cuando se inicializa con CDPN preentrenado, EPro-PnP hereda el
como la correspondencia deformable, o simplemente puede
perfil geométrico detallado, por lo tanto, limita los pesos activos dentro
integrarse en redes basadas en PnP existentes. Más allá del PnP
de la región de primer plano y logra el mejor rendimiento general.
problema, los principios subyacentes se generan teóricamente
formancia También tenga en cuenta e mapas de peso de la diferenciación de
que la regularización tiva e implícita ambas derivaciones [12] son más rds
alizable a otros modelos de aprendizaje con optimización anidada
concentrada, sesgando hacia la discriminación sobre incertidumbre
capa ahora como redes declarativas [19].

corrupción. Reconocer compromisosEsta investigación fue apoyada por


Figura6muestra que el la flexibilidad de EPro-PnP permite alibaba Group a través de Alibaba Research Intern
pags
rediCtintineo múltiple imodal distr ibuciones con fuerte expresividad la gramo, Prothe National Natural Science Foundation of
pags
deber r, su CCSs capturar ambigüedad de orientación
completamente Porcelana (No. 52002285), Shanghai Pujiang Program

wito ut di secreto miMulti-bin c lasificación [33,47] o cumplir (No. 2 020PJD075), Natural Science Foundation of ai (No.
Cmodelo de mezcla combinada [7]. Deber ing a la capacidad de modelar Shangh 21ZR1467400) y Perspective Study g of Nanchang
natien un mu idad, EPro-P orinP supera a otros competidores
grande FinanciamientoAutomotive Institute of Intelligence Energy,

tos bguiñada idea argin en término s de la métrica AOE en la tabla4.


metro & Nuevo Tongji Universidad (TPD-TC202110-03).

8
Referencias [17] Andreas Geiger, Philip Lenz y Raquel Urtasun. ¿Estamos
preparados para la conducción autónoma? la suite kitti vision
[1] Sameer Agarwal, Keir Mierle y otros. Solucionador de Ceres.
benchmark. EnCVPR, 2012.1
http://ceres-solver.org.11
[18] Igor Gilitschenski, Roshni Sahoo, Wilko Schwarting, Alexander
[2] Eli Bingham, Jonathan P. Chen, Martin Jankowiak, Fritz
Amini, Sertac Karaman y Daniela Rus. Aprendizaje de
Obermeyer, Neeraj Pradhan, Theofanis Karaletsos, Rohit
incertidumbre de orientación profunda basado en una pérdida de
Singh, Paul Szerlip, Paul Horsfall y Noah D. Goodman. Pyro:
Bingham. En ICLR, 2020.2
Programación Probabilística Universal Profunda.Revista de
[19] Stephen Gould, Richard Hartley y Dylan John Campbell.
investigación de aprendizaje automático, 2018.12
Redes declarativas profundas.IEEE TPAMI, 2021.3,8
[3] Christopher M. Obispo. Redes de densidad de mezcla, 1994.2, 14
[20] Kaiming He, Georgia Gkioxari, Piotr Dollár y Ross Girshick.
Máscara r-cnn. EnICCV, 2017.14
[4] Eric Brachmann, Alexander Krull, Sebastian Nowozin, Jamie
Shotton, Frank Michel, Stefan Gumhold y Carsten Rother. [21] Kaiming He, Xiangyu Zhang, Shaoqing Ren y Jian Sun. Aprendizaje
Dsac: ransac diferenciable para la localización de cámaras. residual profundo para el reconocimiento de imágenes. EnCVPR,
EnCVPR, 2017.1,2 2016.6
[5] Eric Brachmann, Frank Michel, Alexander Krull, Michael Ying [22] Yihui He, Chenchen Zhu, Jianren Wang, Marios Savvides y Xiangyu
Yang, Stefan Gumhold y carsten Rother. Estimación de pose Zhang. Regresión de cuadro delimitador con incertidumbre para
6d impulsada por la incertidumbre de objetos y escenas a la detección precisa de objetos. EnCVPR, 2019.2
partir de una sola imagen rgb. EnCVPR, 2016.2,6 [23] Stefan Hinterstoisser, Stefan Holzer, Cedric Cagniart, Slobodan Ilic,
[6] Eric Brachmann y Carsten Rother. Aprender menos es más: Kurt Konolige, Nassir Navab y Vincent Lepetit. Plantillas
localización de cámara 6d a través de regresión de superficie 3d. multimodales para la detección en tiempo real de objetos sin
EnCVPR, 2018.1,2,3,8 textura en escenas muy desordenadas. EnICCV, 2011.1,6,11
[7] Mai Bui, Tolga Birdal, Haowen Deng, Shadi Albarqouni, [24] Shun Iwase, Xingyu Liu, Rawal Khirodkar, Rio Yokota y Kris M. Kitani.
Leonidas Guibas, Slobodan Ilic y Nassir Navab. Relocalización Reposo: refinamiento rápido de la pose del objeto 6d a través de la
de cámara 6d en escenas ambiguas mediante inferencia representación de textura profunda. EnICCV, 2021.1,2,5,7,15
multimodal continua. EnECCV, 2020.2,8 [25] Alex Kendall y Yarin Gal. ¿Qué incertidumbres necesitamos en el
[8] Holger Caesar, Varun Bankiti, Alex H. Lang, Sourabh Vora, Venice aprendizaje profundo bayesiano para la visión artificial? EnPINZAS
Erin Liong, Qiang Xu, Anush Krishnan, Yu Pan, Giancarlo Baldan y , 2017.2
Oscar Beijbom. nuscenes: un conjunto de datos multimodal para [26] Diederik P. Kingma y Max Welling. Bayes variacional de codificación
la conducción autónoma. EnCVPR, 2020.1,5, 6,11,15,dieciséis automática. EnICLR, 2014.2
[27] Vincent Lepetit, Francesc Moreno-Noguer y Pascal Fua. Epnp:
[9] Dylan Campbell, Liu Liu y Stephen Gould. Resolviendo el problema de la
Una solución o(n) precisa al problema pnp.Revista
perspectiva ciega de n puntos de extremo a extremo con una robusta
internacional de visión por computadora, 81:155–166, 2009.
optimización geométrica diferenciable. EnECCV, 2020.1,2, 3,5,8
11, 15
[28] Peixuan Li, Huaici Zhao, Pengfei Liu y Feidao Cao. Rtm3d:
[10] Nicolás Carion, Francisco Massa, Gabriel Synnaeve, Nicolás Usunier,
Detección 3d monocular en tiempo real desde puntos clave
Alexander Kirillov y Sergey Zagoruyko. Detección de objetos de
de objetos para conducción autónoma. EnECCV, 2020.1,2
extremo a extremo con transformadores. EnECCV, 2020.2
[29] Zhigang Li, Gu Wang y Xiangyang Ji. Cdpn: red de poses desenredadas
[11] Florian Chabot, Mohamed Chaouch, Jaonary Rabarisoa, Céline
basada en coordenadas para la estimación de poses de objetos de 6
Teulière y Thierry Chateau. Manta profunda: una red de muchas
grados de libertad basada en rgb en tiempo real. EnICCV, 2019.1,2, 5,6,
tareas de grueso a fino para el análisis conjunto de vehículos en
7,8,14,15
2D y 3D a partir de una imagen monocular. EnCVPR, 2017.1,2
[30] Ilya Loshchilov y Frank Hutter. Regularización de decaimiento de
[12] Bo Chen, Álvaro Parra, Jiewei Cao, Nan Li y Tat-Jun Chin. Visión
peso desacoplada. EnICLR, 2019.6
geométrica aprendible de extremo a extremo mediante la optimización
de pnp de retropropagación. EnCVPR, 2020.1,2,3,5,7,8 [31] Osama Makansi, Eddy Ilg, Ozgun Cicek y Thomas Brox. Superar las
[13] Hansheng Chen, Yuyao Huang, Wei Tian, Zhong Gao y Lu limitaciones de las redes de densidad de mezcla: un marco de
Xiong. Monorun: Detección monocular de objetos 3d por muestreo y ajuste para la predicción futura multimodal.
reconstrucción y propagación de incertidumbre. EnCVPR, EnCVPR, 2019.2
2021.2, 3,4,5,6,7,8,14,15 [32] Fabian Manhardt, Diego Martín Arroyo, Christian Rupprecht,
[14] Jean-Marie Cornuet, Jean-Michel Marin, Antonietta Mira y Benjamin Busam, Nassir Navab y Federico Tombari. Explicar
Christian P. Robert. Muestreo adaptativo de importancia la ambigüedad de la detección de objetos y la pose 6d a partir
múltiple.Revista escandinava de estadística, 39(4):798–812, de datos visuales. EnICCV, 2019.2,3
2012.3,12 [33] Arsalan Mousavian, Dragomir Anguelov, John Flynn y Jana Kosecka.
[15] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Estimación de cuadro delimitador 3d usando aprendizaje
Han Hu y Yichen Wei. Redes convolucionales profundo y geometría. EnCVPR, 2017.8
deformables. EnCVPR, 2017.6 [34] Dennis Park, Rares Ambrus, Vitor Guizilini, Jie Li y Adrien
[16] Inderjit S. Dhillon y Suvrit Sra. Modelado de datos utilizando Gaidon. ¿Se necesita pseudo-lidar para la detección
distribuciones direccionales, 2003.12 monocular de objetos 3d? EnICCV, 2021.1

9
[35] Kiru Park, Timothy Patten y Markus Vincze. Pix2pose: regresión de [52] Sergey Zakharov, Ivan Shugurov y Slobodan Ilic. Dpod: detector y
coordenadas por píxeles de objetos para la estimación de la pose refinador de objetos de pose 6d. EnICCV, 2019.1,2,7
6d. EnICCV, 2019.1,2 [53] Xingyi Zhou, Dequan Wang y Philipp Krähenbühl. Objetos
[36] Sida Peng, Yuan Liu, Qixing Huang, Xiaowei Zhou y Hujun Bao. como puntos, 2019.8
Pvnet: red de votación por píxeles para la estimación de [54] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang y Jifeng Dai.
poses de 6dof. EnCVPR, 2019.1,2,4,7,15 Deformable detr: Transformadores deformables para la detección
[37] Mahdi Rad y Vincent Lepetit. BB8: un método escalable, de objetos de extremo a extremo. EnICLR, 2021.2,5,13
preciso, robusto a oclusión parcial para predecir las poses 3D
de objetos desafiantes sin usar la profundidad. EnICCV, 2017.
1,2
[38] Gerald Schweighofer y Axel Pinz. Estimación robusta de la pose a
partir de un objetivo plano.IEEE TPAMI, 28(12):2024–2030, 2006. 2,
3
[39] Andrea Simonelli, Samuel Rota Bulò, Lorenzo Porzi,
Manuel López-Antequera y Peter Kontschieder. Detección
de objetos 3d monocular desenredante. EnICCV, 2019.8
[40] Chen Song, Jiaru Song y Qixing Huang. Hybridpose: estimación
de pose de objeto 6d bajo representaciones híbridas. En CVPR
, 2020.1,7
[41] Zhi Tian, Chunhua Shen, Hao Chen y Tong He. Fcos: Detección de
objetos de una etapa completamente convolucional. EnCVPR,
2019.5
[42] Bill Triggs, Philip F. McLauchlan, Richard I. Hartley y
Andrew W. Fitzgibbon. Ajuste de paquete: una síntesis
moderna. EnTaller Internacional de Algoritmos de Visión:
Teoría y Práctica, 2000.11
[43] David E. Tyler. Análisis estadístico de la distribución
gaussiana central angular en la esfera.Biometrika,
74(3):579–589, 1987.4,13
[44] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit,
Llion Jones, Aidan N. Gomez, Lukasz Kaiser e Illia Polosukhin.
La atención es todo lo que necesitas. EnPINZAS, 2017.2,5
[45] Gu Wang, Fabian Manhardt, Federico Tombari y Xiangyang Ji.
Gdr-net: red de regresión directa guiada por geometría para
la estimación de poses de objetos monoculares 6d. EnCVPR,
2021.7
[46] He Wang, Srinath Sridhar, Jingwei Huang, Julien Valentin, Shuran
Song y Leonidas J. Guibas. Espacio de coordenadas de objeto
normalizado para estimación de posición y tamaño de objeto 6d
de nivel de categoría. EnCVPR, 2019.1,2
[47] Tai Wang, Xinge Zhu, Jiangmiao Pang y Dahua Lin. FCOS3D:
detección de objetos 3D monocular de una etapa
completamente convolucional. EnTalleres ICCV, 2021.5,6,7,8,
13, 14
[48] Tai Wang, Xinge Zhu, Jiangmiao Pang y Dahua Lin. Profundidad
probabilística y geométrica: Detección de objetos en perspectiva.
EnConferencia sobre aprendizaje de robots (CoRL), 2021.1, 7,8

[49] Xiaolong Wang, Ross Girshick, Abhinav Gupta y Kaiming


He. Redes neuronales no locales. EnCVPR, 2018.2
[50] Yue Wang, Vitor Guizilini, Tianyuan Zhang, Yilun Wang, Hang Zhao y
Justin Solomon. Detr3d: Detección de objetos en 3D a partir de
imágenes multivista a través de consultas de 3D a 2D. EnConferencia
sobre aprendizaje de robots (CoRL), 2021.1
[51] Shangzhe Wu, Christian Rupprecht y Andrea Vedaldi. Aprendizaje no
supervisado de objetos 3D deformables probablemente simétricos a
partir de imágenes en la naturaleza. EnCVPR, 2020.2

10
A. Solucionador PnP de Levenberg-Marquardt Des la raíz cuadrada de la diagonal de la matrizJ̃TJ̃, y λes el
recíproco del radio de la región de confianza de LM [1].
Para la escalabilidad, hemos implementado un solucionador PnP por
Nótese que el residual reescalado y el jacobiano afectan la
lotes Levenberg-Marquardt (LM) basado en PyTorch. La implementación
regularización derivada (Ec. (10)), así como la estimación de la
generalmente sigue el solucionador de Ceres [1]. Aquí, discutimos
covarianza en el apartado siguiente.
algunos detalles importantes que están relacionados con el muestreo
de pose Monte Carlo propuesto y la regularización derivada. Modo de inferencia rápidaEncontramos empíricamente que en un
modelo bien entrenado, el radio de la región de confianza de LM se
puede inicializar con un valor muy grande, lo que hace que el algoritmo
A.1. Núcleo de Huber adaptativo de LM sea redundante. Por lo tanto, usamos la implementación simple
de Gauss-Newton para una inferencia rápida:
Para fortalecer los errores de reproyección ponderados de
varias escalas, adoptamos un kernel de Huber adaptativo con un ( ) −1
umbral dinámicodpara cada objeto, definido en función de los ∆y=− J̃TJ̃+εI J̃TF, (20)
pesosw2D i y coordenadas 2DX2Di :
dóndeεes un valor pequeño para la estabilidad numérica.
∥ ∥( ) 1
∥w̄2D∥ 1 ∑norte∥ ∥ 2

d=dreal 1
∥X 2D
i − x̄2D
∥2 , (13) A.3. Estimación de covarianza
2 norte -1
i=1
Durante el entrenamiento, la concentración de la propuesta AMIS
con el umbral relativo∑viejodrealcomo hi permanente ∑éter, un el está determinada por la estimación local de la matriz de covarianza
, X 2D=norte1
norte
2D 2D
i=1X i .
Vectores de mediaw̄2D=1 norte
norte
pose Σy∗, definido como:
i=1wi
( ) − 1∣
A.2. Paso LM con Huber Kernel ∣
Σy∗=J̃T J̃+εI ∣ , (21)
y=y∗
Agregar el kernel de Huber influye en todos los elementos
relacionados, desde la función de probabilidad hasta el paso de dóndey∗es la solución LM que determina la ubicación de la
iteración de LM y la pérdida de regularización derivada. Gracias a la distribución de la propuesta.
diferenciación automática de PyTorch, la pérdida de divergencia de
Monte Carlo KL reforzada no requiere un manejo especial. Sin A.4. Inicialización
embargo, para el solver LM, el valor residualF(y) (errores de
Dado que el solucionador LM solo encuentra una solución local,
reproyección ponderados concatenados) y la matriz jacobianaj
la inicialización juega un papel determinante en el tratamiento de
tienen que ser reescalados antes de calcular el paso LM reforzado [
la ambigüedad. EPnP estándar [27] La inicialización puede manejar
42].
la densa red de correspondencia entrenada en LineMOD [23]
El bloque residual reescaladoFi(y)y bloque jacobiano J̃i(y)deli
conjunto de datos, donde la ambigüedad no es perceptible. Para la
-ésimo par de puntos se definen como:
red de correspondencia deformable entrenada en nuScenes [8]
√ dataset y casos más generales, implementamos un algoritmo de
Fi(y) = ρ′iFi(y), (14)
muestreo aleatorio análogo a RANSAC, para buscar el óptimo

J̃i(y) = ρi′ji(y), (15) global de manera eficiente.
{Dado que∣norte-punto c}conjunto de correspondenciaX =
dónde - Xi3D
,X2D ∣
‖Fi(y)‖ ≤ δ, i , w2D
i i=1···norte,generamosMETROsubconjuntos
-1, que consiste ennortepuntos correspondientes cada uno (3≤norte <
ρi′= d (dieciséis)
norte), submuestreando repetidamentenorteíndices sin reemplazo
- , ‖Fi( y)‖ > d,
‖fyi()‖ de una distribución multinomial, cuya función de masa de
∂fyi() probabilidadpags(i)se define por los pesos correspondientes:
ji(y) = . (17) ∥ ∥
∂yT ∥w2D∥
Tras la implementación del solucionador Ceres [1], el paso de pags(i) =∑norte i∥ 1∥. (22)
2D∥
iteración de LM reforzado es: i=1 ∥wi 1

( ) −1 De cada subconjunto, se puede resolver una hipótesis de pose a través de la


∆y=− J̃TJ̃+λD2 J̃TF, (18) Algoritmo LM con muy pocas iteraciones (usamos 3 iteraciones). Esto se
implementa como una operación por lotes en GPU y es bastante
dónde - - - - eficiente para pequeños subconjuntos. Tomamos la hipótesis de
J̃1(y) F1(y)
máxima verosimilitud logarítmicaIniciar sesiónpags(X|y)como el punto
-- ... - - . . . --,
J̃= -, F̃= - (19) inicial, a partir del cual se calculan las iteraciones LM subsiguientes en el
J̃norte(y) Fnorte(y) conjunto completoX.

11
Modo de entrenamientoDurante el entrenamiento, el solucionador orden cero. La mezcla PDF es así:
LM PnP se utiliza para estimar la ubicación y la concentración de la
distribución propuesta inicial en el algoritmo AMIS. La ubicación es
qmezcla(θ) = (1−α)qmáquina virtual(θ) +αquniforme(θ), (25)
muy importante para la estabilidad del entrenamiento Monte con el peso uniforme de la mezclaα. El componente uniforme se
Carlo. Si el solucionador de LM no logra encontrar el óptimo global agrega para capturar otros modos potenciales bajo la ambigüedad
y la ubicación del óptimo local está lejos de la verdadera poseygt, el de orientación. Establecimosαa un valor fijo de1/4.
equilibrio entre los dos términos opuestos con signo en la PyTorch ya ha implementado la distribución de von Mises, pero
ecuación. (5) puede romperse, lo que lleva a un gradiente explosivo su generación de muestras aleatorias es bastante lenta. Como
en el peor de los casos. Para evitar tal problema, adoptamos un alternativa, usamos la implementación de NumPy para el muestreo
truco de inicialización simple: comparamos el log-verosimilitud aleatorio.
Iniciar sesiónpags(X|y)de la verdad del sueloygty la hipótesis
Parámetros inicialesCon el ángulo de guiñadaθ∗y su variedad
seleccionada, y luego mantenga la de mayor probabilidad como el
anceσ2θ∗del solucionador PnP, los parámetros del von
estado inicial del solucionador LM.
La propuesta de Mises es inicializada porµ← θ∗, k←1.
3σ2 θ∗

B. Detalles sobre el muestreo de pose de Monte Carlo Estimación de parámetros a partir de muestras ponderadaspor la
ubicaciónµ, simplemente adoptamos su estimación de máxima
B.1. Distribución de propuestas para el puesto
verosimilitud,es decir., la media circular de las muestras ponderadas.
Para la distribución propuesta del vector de traslación t∈R3, por la concentracionk, primero calculamos una estimación aproximada [
adoptamos la distribución t multivariada, con la siguiente dieciséis] por:
función de densidad de probabilidad (PDF): r̄(2− r̄2)
κ̂=
, (26)
()( )− 1− r̄2
Γ v+3 1
v+3
∥∥∑ ∑ ∥
2

qT(t) = ( ) √2 1 + ‖t-µ‖2 Σ , (23) dónder̄=∥jvj[pecadoθj,porqueθTj]/ jvj∥es la norma de
Γv 2 v3π |3Σ| v
el vector de orientación medio, con el peso de importanciavj
T Para elj-ésima muestraθj. Finalmente, la concentración se reduce
dónde‖t-µ‖2 Σ= (t-µ) Σ−1(t-µ ), con la ubicación
para un muestreo robusto, de modo quek← κ̂/3.
µ, la matriz de escala definida positiva de 3×3 Σ, y los grados de libertad
v. Siguiendo [14], establecimosva 3. En comparación con la distribución B.3. Distribución de propuestas para Orientación 3D
normal multivariante, la distribución t tiene una cola más gruesa, lo que
es ideal para un muestreo robusto. Con respecto a la parametrización basada en cuaterniones de la

La distribución t multivariada se ha implementado en orientación 3D, que puede representarse mediante un vector

Pyro [2] paquete. unitario 4Dyo, adoptamos como propuesta la distribución


gaussiana central angular (ACG). El soporte de la distribución ACG
Parámetros inicialesLa ubicación inicial y la escala están
de 4 dimensiones es la unidad hiperesfera, y la PDF se da
determinadas por la solución PnP y la matriz de covarianza,es decir
por:
., µ←t∗,Σ←Σt∗, donde Σt∗es la submatriz 3×3 de la covarianza de pose (yoTΛ−1yo)−2
completa Σpags∗. Tenga en cuenta que la covarianza real qACG(yo) = 1 , (27)
S4|Λ| 2
de la distribución t es por lo tantovν−1Σt∗, que es intencionalmente
escalado para un muestreo robusto en un rango más amplio. dóndeS4=2π2es el área de superficie 3D de la esfera 4D, y Λ es
una matriz definida positiva de 4×4.
Estimación de parámetros a partir de muestras ponderadasPara
La densidad de ACG se puede derivar integrando la distribución
actualizar la propuesta, dejamos la ubicaciónµy escala Σ el primer y
normal multivariada de media ceronorte(0,Λ)a lo largo de la
segundo momento de las muestras ponderadas (es decir., media
dirección radial de0ainf.Por lo tanto, tomar muestras de la
ponderada y covarianza), respectivamente.
distribución ACG es equivalente a tomar muestras de norte(0,Λ)y
B.2. Distribución de propuestas para Orientación 1D luego normalizando las muestras a la unidad de radio.

Para la distribución propuesta de la orientación 1D solo de guiñadaθ Parámetros inicialesConsideraryo∗ser la solución PnP
, adoptamos una mezcla de von Mises y distribución uniforme. La y Σ−1 yo∗ ser la matriz de covarianza inversa estimada de 4 × 4.

distribución de von Mises también se conoce como distribución normal Tenga en cuenta que Σyo
−1 ∗ sólo es válido en el espacio tangente local con

circular, y su PDF viene dada por: rango 3, satisfactorioyo∗TΣyo


−1∗yo∗=0.Los parámetros iniciales son

determinado por:
1
Exp (kporque (θ −µ)) Λ←Λ +α|Λ̂| YO, (28)
qmáquina virtual(θ) = , (24) 4

2yo0(k) ( )
donde Λ̂ = Σ−1 yo∗ + yo−1, yαes un hiperparámetro que
dóndeµes el parámetro de ubicación,kes el parámetro de controla la dispersión de la propuesta de muestreo robusto.
concentración, yyo0(·)es la función de Bessel modificada con Establecimosαa 0.001 en los experimentos.

12
Estimación de parámetros a partir de muestras ponderadas puntos 3D pesos
norteobjeto×3×N norteobjeto×2×N
Basado en las muestrasyojy pesosvj, la máxima probabilidad
estimación Λ̂ es la solución de la siguiente ecuación:
Agregar y norma

4 ∑ vll .
jjjT predicciones a nivel de obj
Λ̂ =∑ T−j1Λ̂yoj
(29) FFN
jvj j yo
Agregar y norma
FFN y norma

La solución a la Ec. (29) se puede calcular mediante una iteración de punto fijo
[43]. Los parámetros finales de la propuesta actualizada se determinan de la Auto atención
Agregar y norma
misma manera que en la ecuación. (28). q k V
Atención multicabezal
C. Detalles sobre la Pérdida de Regularización de Derivados
puntos 2D punto hazaña
norteobjeto×32×N
V k q
Como se indica en el documento principal, la pérdida de regularización norteobjeto×2×N

derivadaLregistroconsiste en la pérdida de posiciónLposicióny la pérdida de posicional


Muestreo Deformable codificación
orientaciónLorientar.
ParaLposición, adoptamos la pérdida suave L1 basada en
densa hazaña incrustación de objetos
la distancia euclidianadt=‖t∗+∆t - tgt‖, dada por:
punto de referencia

256×alto/4×ancho/4 norteobjeto×2 norteobjeto×256

- consulta obj
-d2 t , d≤
t β,
Lposición=2β (30) Figura 8. Arquitectura detallada de la correspondencia deformable
- la red.
dt−0.5β, dt> β,

con el hiperparámetroβ.
La rama de nivel de punto en el lado izquierdo de la figura8es re-
ParaLorientar, adoptamos la pérdida de similitud del coseno
responsable de predecir los puntos 3DX3D iy corresponde-
en función de la distancia angulardθ. Para orientación 1D
pesasw2D i.Las características de los puntos muestreados se
parametrizada por el ánguloθ,dθ=θ∗+∆θ - θgt. Para orientación
Mejorado por el contexto a nivel de objeto, agregando la
3D parametrizada por el vector cuaterniónyo,dθ= 2 arccos (yo∗+
incrustación de objeto de cabeza reformada a las características de
∆yo)Tyogt. Por lo tanto, la función de pérdida se define como:
punto. Entonces, las características de lanortelos puntos son
procesados por la capa de atención propia, para lo cual los puntos
Lorientar=1−porquedθ. (31)
2D se transforman en codificación posicional. La capa de atención
Para la orientación 3D, después de la sustitución, la función de pérdida es seguida por capas estándar de normalización, conexión de salto
se puede simplificar a: y red de avance (FFN).
Con respecto a la rama de nivel de objeto en el lado derecho de
( )
Lorientar=2−2 (yo∗+∆yo)Tyo2gt . (32) Figura8, se emplea una capa de atención de varios cabezales para
agregar las entidades de puntos muestreados. A diferencia de la capa
Para la configuración específica del hiperparámetroβy pérdida de atención deformable original [54] que predice los pesos de atención
de peso, consulte el código de configuración del experimento. por proyección lineal de la incrustación del objeto, adoptamos la
atención completa del producto punto QK con codificación posicional.
D. Detalles sobre la Red de Correspondencia Después de ser procesadas por las capas posteriores, las características
Deformable a nivel de objeto finalmente se transforman en predicciones a nivel de
objeto, que consisten en la puntuación de localización 3D, la escala de
D.1. Red de arquitectura peso, el tamaño del cuadro delimitador 3D y otras propiedades

el mid arquitectura de red detallada de la cor- opcionales (velocidad y atributo). Tenga en cuenta que la capa de

la red de respuesta se muestra en la Figura8. Siguiendo de- atención en realidad no es un componente necesario para las

formas ble DETR [54], este artículo adopta el diseño multicabezal predicciones a nivel de objeto, sino un subproducto de las muestras de

muestreo conformable. DejarnortecabezaSea el número de cabezas y puntos deformables cuyas características se pueden aprovechar con

nortehptsb e el nu número de puntos pe r cabeza, un número total de poca sobrecarga de cálculo.

norte=nortecabezanortehptslos puntos son sam suplicó por cada objeto. los


D.2. Funciones de pérdida para predicciones a nivel de objeto
muestra ng ubicación ons relativas a la punto de referencia son gene-
ados desde el objeto incrustado por una sola capa de lineal Como en FCOS3D [47], adoptamos la pérdida de regresión suave L1 para
transformación. Establecimosnortecabezaa las 8, cuyos rendimientos256/nortecabeza= el tamaño y la velocidad del cuadro 3D, y la pérdida de clasificación de
32canales para las entidades de puntos. entropía cruzada para el atributo. Además, una entropía cruzada binaria

13
la pérdida se impone sobre la puntuación de localización 3D, con el
objetivoCtgtdefinido como una función del error de posición:
pesas de atencion
Ctgt=Puntaje(‖t∗XZ−tXZgt‖) norteobjeto×ncabeza×1×hretorno de la inversión×wretorno de la inversión

= máx(0,min(1,−aIniciar sesión‖t∗ XZ−tXZgt‖+b)),(33)


tarjeta 3D
norteobjeto×ncabeza×3×hretorno de la inversión×wretorno de la inversión

k q
dóndet∗XZson los componentes XZ de la solución PnP,tXZgt pesos norteobjeto×ncabeza×32×hretorno de la inversión×wretorno de la inversión norteobjeto×ncabeza×32
norteobjeto×ncabeza×2×hretorno de la inversión×wretorno de la inversión

son los componentes XZ de la verdadera pose, yun, bson los


coeficientes lineales. La puntuación de localización 3D predichaCpresa posicional
Muestreo de ROI denso
reflejará la incertidumbre posicional de un objeto, como una alternativa codificación

más rápida a la evaluación de la incertidumbre a través del método de


densa hazaña caja gt 2D incrustación de objetos
Monte Carlo durante la inferencia (SecciónF.2). La puntuación de
256×alto/4×ancho/4 norteobjeto×4 norteobjeto×256
detección final se define como el producto de la puntuación 3D predicha
y la puntuación de clasificación del detector base. consulta obj

Figura 9. Arquitectura del ramal auxiliar. Esta rama comparte los


D.3. Funciones de pérdida auxiliar mismos pesos de proyección Q, K con la capa de atención deformable
en la parte inferior derecha de la Figura8.
Para regularizar las características densas, agregamos una rama auxiliar
que predice las coordenadas 3D densas de varios cabezales y los pesos
100
correspondientes, como se muestra en la Figura9. Aprovechando la realidad 90
básica de las cajas 2D de objetos, las características dentro de las regiones de 80

AGREGAR(-S) 0.1d (%)


la caja se muestrean densamente a través de RoI Align [20], y transformado
70
60 CDPN sin trans.
en las coordenadas 3DX3Dy pesos w2Da través de una capa lineal
50 CDPN-Completo

independiente. Además, la atención pesaφse obtienen a través del producto 40 EPro-PnP + Reg.
escalar QK y se normalizan a lo largo de lanortecabezadimensión y en la región 30 + Inicial. de CDPN

superpuesta de múltiples RoI a través de Softmax.


20 + Horario largo.
10
0
Durante el entrenamiento, imponemos la pérdida auxiliar basada en la 0 160 320 480
Época
reproyección para las predicciones densas de cabezales múltiples, formulada
Figura 10. Exactitud de la pruebacontra. Progreso del entrenamiento en LineMOD.
como la verosimilitud logarítmica negativa (NLL) del modelo de mezcla
gaussiana [3]. La función de pérdida para cada punto muestreado se define
como:
dóndeρ(·)es el núcleo de Huber.Lregulares esencialmente una

∑nortecabeza 1 pérdida suave L1 ponderada (aunque escribimos el kernel de
2,
Lproyecto=−Iniciar sesión φk|diagnósticowk2D |Exp− ‖F(ygtk)‖ Huber por conveniencia en la notación).
2
retorno de la inversiónk=1 (34)
dóndekes el índice de la cabeza,Fk(ygt)es el error de reproyección ponderado
D.4. Estrategia de formación

de lak-ésima cabeza en la pose de la verdadygt. en lo anterior Durante el entrenamiento, muestreamos aleatoriamente 48


kse interpreta como el
ecuación, la matriz diagonaldiagnósticow2D consultas de objetos positivos del FCOS3D [47] detector para cada
raíz cuadrada inversa de la matriz de covarianza de la normal imagen, que limita el tamaño del lote de la red de correspondencia
distribución,es decir.,diagnósticowk2D= Σ−1 2,y la atención de la cabeza deformable para controlar la sobrecarga de cálculo de la pérdida
pesoφkse interpreta como el peso de los componentes de la mezcla.
∑ de pose de Monte Carlo.
retorno de la inversiónes una operación especial que tiene en cuenta la región
superpuesta de múltiples RoI, formulando una mezcla de múltiples cabezales E. Resultados adicionales de la red de
y múltiples RoI (consulte el código para obtener más detalles).
correspondencia densa
Otra pérdida auxiliar es la pérdida de regresión de coordenadas
que introduce el conocimiento geométrico. Siguiendo a MonoRUn [ E.1. Comportamiento de convergencia

13], extraemos la verdad del terreno disperso de 3D co-


Los comportamientos de convergencia de EPro-PnP y CDPN [29]
gt de
ordenadasX 3D la nube de puntos 3D LiDAR. el multi- se comparan en la figura10. El CDPN-Full original está entrenado
coordinación de la cabeza la regresión los s para cada muestra ed punto con en 3 etapas (cabeza de rotación – cabeza de traducción – ambas
grupo disponible y la verdad es definida mi
como:
juntas) con un total de 480 épocas. Por el contrario, EPro-PnP con
regularización derivada claramente supera a CDPN-Full dentro de
∑ (∥ ∥)
φkρ ∥X3D
nortecabeza

3D∥2 una etapa, y va más allá cuando se inicializa desde la primera etapa
L regular = k − x gt , (35)
preentrenada de CDPN.
k=1

14
Métricas positivas verdaderas (más bajo es mejor)
Método
IDENTIFICACIÓN Datos NDS mapa
MATE MASE MAOE MAVE MAAE
A0 EPro-PnP básico valle 0.425 0.349 0,676 0,263 0,363 1,035 0,196 0,667
A1 A0 + coord. reg. valle 0.430 0.352 0,258 0,337 1,031 0,193
B0 A0→Sin reproyecciónLproyecto valle 0.408 0.337 0,721 0,267 0,452 1,113 0,166
C0 A0→50% puntuación de Montecarlo A0→valle 0.424 0.350 0,673 0,264 0,373 1,042 0,198 0,675
C1 100% puntuación de Montecarlo Val 0.424 0.350 0,264 0,367 1,048 0,199
D0 A1→Red compacta D0 valle 0.434 0.358 0,672 0,264 0,351 0,983 0,181 0,664
D1 + TTA valle 0.446 0.367 0,260 0,320 0,951 0,179

Tabla 5. Resultados adicionales de la red de correspondencia deformable probada en nuScenes [8] punto de referencia.

E.2. Tiempo de inferencia certeza en términos de medir la confianza de localización, un


enfoque sencillo es calcular la puntuación de localización 3DC
En comparación con la tubería de inferencia de CDPN-Full [
MCa través del muestreo de pose de Monte Carlo y compare el
29], EPro-PnP does not use the RANSAC algorithm or extra
mAP resultante con la implementación estándar con puntaje
translation head, so the overall inference speed is more than
3DCpresapredicho a partir de la rama de nivel de objeto. Con la
twice as fast as CDPN-Full (at a batch size of 32), even though
solución PnPt∗, el vector de traducción muestreadotj, y su peso
we introduces the iterative LM solver.
de importanciavj, la puntuación de Monte Carlo se calcula
Regarding the LM solver itself, inference takes 7.3 ms for a
mediante:
batch of one object, measured on RTX 2080 Ti GPU, excluding
EPnP [27] initialization. As a reference, the stateof-the-art pose 1 ∑ ( )
cMC = ∑ vjScore ‖t∗ X Z − tX Z j‖ , (36)
refiner RePOSE [24] (also based on the LM algorithm) adds 10.9
j vj j
ms overhead to the base pose estimator PVNet [36] at the
same batch size, measured on RTX 2080 Super GPU, which is where the subscript (·)XZ denotes taking the XZ components,
slower than ours. Nevertheless, faster inference is possible if and the function Score(·) is the same as in Eq. 33. Además, la
the number of points N = 64 × 64 is reduced to an optimal level. puntuación final también puede ser una mezcla de las dos
fuentes, definidas como:

F. Experimentos Adicionales en la Red de Cmezcla=CαMCCpresa


1−α , (37)
Correspondencia Deformable dóndeαes el peso de la mezcla.
F.1. Sobre la pérdida de reproyección auxiliar Los resultados de la evaluación bajo diferentes pesos de mezcla se
presentan en la Tabla5. Con respecto a la métrica mAP, la puntuación de
Como se muestra en la Tabla5, eliminando la pérdida de reproyección Monte Carlo está a la par con la implementación estándar (0.350contra.
auxiliar en la ecuación.34reduce la precisión de detección de objetos 3D (NDS 0.350contra. 0,349), lo que indica que la incertidumbre de pose es una
0.408contra. 0,425). Entre las métricas positivas verdaderas, la métrica de medida fiable de la confianza de detección. Sin embargo, debido al
orientación mAOE es la más afectada. Los resultados indican que, aunque las tiempo de ejecución mucho más largo de inferir con el muestreo de
correspondencias deformables se pueden aprender únicamente con la poses de Monte Carlo, entrenar una rama de puntuación estándar sigue
pérdida de extremo a extremo, aún es beneficioso agregar una tarea auxiliar siendo una opción más práctica.
para una mayor regularización, incluso si la tarea en sí no implica una
anotación adicional. F.3. Sobre la redundancia de la red y el potencial
de mejora futura
F.2. Sobre la incertidumbre de la pose del objeto
Dado que la principal preocupación de este artículo es
La dispersión de la distribución de la pose inferida refleja la proponer una nueva capa PnP diferenciable, no teníamos
incertidumbre aleatoria de la pose predicha. Trabajo previo [13] suficiente tiempo ni recursos para ajustar la arquitectura y los
razona la incertidumbre de la pose al propagar la incertidumbre de parámetros de la red de correspondencia deformable en el
reproyección aprendida de una pérdida sustituta a través de la momento de enviar el manuscrito. Por lo tanto, la red descrita en
operación PnP, pero esa incertidumbre requiere calibración y no es las Secciones4.2yD.1se diseñó teniendo en cuenta cierta
lo suficientemente confiable. En nuestro trabajo, la incertidumbre redundancia, ya que no es muy eficiente en términos de recuento
de pose se aprende con la pérdida de pose basada en la de FLOP, huella de memoria y tiempo de inferencia, lo que deja un
divergencia KL de un extremo a otro, lo que es mucho más fiable gran potencial de mejora.
en teoría. Para demostrar el potencial de mejora, entrenamos una
Evaluar cuantitativamente la confiabilidad de la pose un- red más compacta con menor resolución (zancada = 8)

15
para el mapa de características densas y el número de puntos por H. Visualización adicional
cabezanortehptsreducido de 32 a 16, y comprima el lote de 12
imágenes en 2 GPU RTX 3090. Como se muestra en la Tabla5, el aporte orientación
rendimiento general es en realidad ligeramente mejor que la
versión original (NDS 0.434contra. 0,430). Aún así, aún no se ha
determinado una arquitectura más eficiente en el trabajo futuro.

Tiempo de inferenciaCon respecto a la red compacta, el tiempo


de inferencia promedio por cuadro (que comprende un lote de
6 que rodean 1600 × 6725imágenes, sin TTA) se muestra en la
Tabla6, medido en GPU RTX 3090 y CPU Core i9-10920X. En
promedio, el solucionador PnP por lotes procesa 625,97
objetos por cuadro antes de la supresión no máxima (NMS).

cabezas
PNP
Columna vertebral
PyTorch Total
& FPN Deformación FCOS

v1.8.1+cu111 0.195 0.074 0.028 0.026 0.327


v1.10.1+cu113 0.172 0.056 0.025 0.045 0.301

Tabla 6. Tiempo de inferencia (seg) de la red de correspondencia deformable en el


conjunto de datos de detección de objetos nuScenes [8]. El solucionador PnP
(incluida la inicialización de muestreo aleatorio en la SecciónA.4) funciona más
rápido (26 ms) con PyTorch v1.8.1, para el cual se desarrolló originalmente el
código, mientras que el modelo completo funciona más rápido (301 ms) con
PyTorch v1.10.1.

G. Limitación
EPro-PnP es un estimador de pose versátil para problemas
generales, sin embargo, debe reconocerse que entrenar la red con la
pérdida de pose de Monte Carlo es inevitable.Más lento que la línea
base. En el tamaño de lote de 32, entrenar el CDPN (sin cabezal de
traducción) lleva 143 segundos por época con la pérdida de regresión
de coordenadas original y 241 segundos por época con la pérdida de
pose de Monte Carlo, que es aproximadamente un 70 % más de tiempo,
según lo medido en GPU GTX 1080 Ti. Sin embargo, el tiempo de
entrenamiento se puede controlar ajustando el número de muestras
Monte Carlo o el número de puntos correspondientes 2D-3D. En este
artículo, la elección de estos hiperparámetros generalmente se inclina
hacia la redundancia.

Figura 11. Resultados inferidos en el conjunto de pruebas LineMOD por EPro-


PnP con regularización derivada y pesos CDPN preentrenados, Parte I.

5El tamaño original es 1600×900. Recortamos las imágenes para mayor eficiencia.

dieciséis
aporte orientación
derecha hacia atrás le" adelante a la derecha

10

Coche

Densidad
5

0 π/2 π 3π/2 2π

Y oh

Camión
2

Densidad
0

0 π/2 π 3π/2 2π

Y oh

Autobús
4

Densidad
2

0 π/2 π 3π/2 2π

Y oh

Remolque
4

Densidad
2

0 π/2 π 3π/2 2π

Veh.
Y oh

1.5
Construcción
1.0

Densidad
0.5

0.0

0 π/2 π 3π/2 2π

Y oh
norte
peatonal

0.4

Densidad
0.2

0.0

0 π/2 π 3π/2 2π

Y oh
motocicleta mi

0. 75

0. 50
Densidad

0.25

0.00

0 π/2 π 3π/2 2π

Y oh

1.5
Bicicleta

1.0
Densidad

0.5

0.0

0 π/2 π 3π/2 2π

Y oh
Cono

0.2
Densidad

0.1

0.0

0 π/2 π 3π/2 2π

Y oh

6
Barrera

4
Densidad

0 π/2 π 3π/2 2π

Y oh

Figura 12. Resultados inferidos en el conjunto de pruebas LineMOD o-PnP con Figura 13. Información orientación errada norte en nuScenes v alidación establecida por el
por regularización derivada de EPr y pesos de CDPN preentrenados , Parte II. EPro-Pn básico PAGS.

17
Puntos 2D coloreados por instancia Puntos 2D coloreados por componente XY Cuadros delimitadores 3D inferidos Cuadros de límite inferidos (rojo), densidad de
densidad de (X: rojo, Y: verde) posición (azul) y límite de verdad del terreno.
recuadros (verde) a vista de pájaro

Figura 14. Resultados inferidos en la validación de nuScenes establecida por Basic EPro-PnP.

18
I. Notación

Notación Descripción
X3D ∈ R3 Vector de coordenadas deli-ésimo punto de objeto 3D
i
X2D ∈ R2 Vector de coordenadas deli-ésimo punto de imagen 2D
i
w2D ∈R2+ Vector de peso deli-ésimo par de puntos 2D-3D El conjunto
i
X de correspondencias 2D-3D ponderadas Pose del objeto
y
ygt Verdad fundamental de la pose del objeto

y∗ Pose de objeto estimada por el solucionador PnP


R Representación de la matriz de rotación 3×3 de la orientación del objeto
θ Representación del ángulo de guiñada 1D de la orientación del objeto
yo Representación del cuaternión unitario de la orientación del objeto
t ∈ R3 Representación del vector de traducción de la posición del objeto Covarianza
Σy∗ de pose estimada por el solucionador PnP
j matriz jacobiana
J̃ Matriz jacobiana reescalada
F Vector concatenado de errores de reproyección ponderados de todos los puntos Vector
F concatenado de errores de reproyección ponderados reescalados de todos los puntos Función
π(·) :R3→R2 de proyección de cámara
Fi(y) ∈ R2 Error de reproyección ponderado de lai-ésima correspondencia en posey Error de
ri(y) ∈ R2 reproyección no ponderado de lai-ésima correspondencia en posey Función del
ρ(·) núcleo de Huber
ρi′ La derivada de la función kernel de Huber de lai-ésima correspondencia El
d umbral de Huber
pags(X|y) Función de probabilidad de la pose del objeto
pags(y) PDF de la distribución de la pose anterior PDF de
pags(y|X) la distribución de la pose posterior PDF de la
t(y) distribución de la pose objetivo
q(y), qt(y) PDF de la propuesta de distribución de poses (de lat-ésima iteración AMIS) Elj
yj, ytj -ésima muestra de pose aleatoria (de lat-ésima iteración AMIS) Peso de
vj, vtj importancia delj-th pose muestra (de lat-ésima iteración AMIS) Índice de par de
i puntos 2D-3D
j Índice de muestra de pose aleatoria Índice de
t iteración de AMIS Número de pares de
norte puntos 2D-3D en total Número de muestras
k de pose en total Número de iteraciones de
T AMIS
k′ Número de muestras de poses por iteración de AMIS
nortecabeza Número de cabezas en la red de correspondencia deformable Número de puntos por
nortehpts cabeza en la red de correspondencia deformable KL pérdida de divergencia para la
LKL pose del objeto
Ltgt el componente deLKLsobre los errores de reproyección en la pose del objetivo El
Lpresa componente deLKLsobre los errores de reproyección sobre la pose predicha Pérdida de
Lregistro regularización derivada

Tabla 7. Un resumen de notaciones de uso frecuente.

19

También podría gustarte