Documentos de Académico
Documentos de Profesional
Documentos de Cultura
com
La localización de objetos 3D a partir de una sola imagen RGB a Correspondencias densas (coordenadas y pesos 3D aprendibles)
través de Perspective-n-Points (PnP) es un problema de larga data en la
delantero delantero
visión artificial. Impulsados por el aprendizaje profundo de extremo a
extremo, estudios recientes sugieren interpretar PnP como una capa hacia atrás hacia atrás
puntos 2D-3D sin restricciones desde cero no logra converger con los
enfoques existentes, ya que la pose determinista es inherentemente no hacia atrás
esencialmente trayendo el Softmax categórico al dominio continuo. Las distintas entrenadas con EPro-PnP: (a) una red de correspondencia densa lista para
coordenadas 2D-3D y los pesos correspondientes se tratan como usar cuyo potencial se libera mediante el entrenamiento de extremo a extremo, (b)
una red de correspondencia novedosa deformable que explora nuevos
variables intermedias aprendidas al minimizar la divergencia KL entre la
posibilidades de puntos 2D-3D totalmente aprendibles.
distribución de pose prevista y objetivo. El principio subyacente unifica
los enfoques existentes y se asemeja al mecanismo de atención. EPro-
PnP supera significativamente las líneas de base competitivas, cerrando
la brecha entre el método basado en PnP y los líderes de tareas puntos de referencia de detección [8,17] entran en la categoría de
específicas en los puntos de referencia de estimación de pose LineMOD predicción directa de poses 4DoF, aprovechando los avances en el
6DoF y nuScenes 3D.3 aprendizaje profundo de extremo a extremo. Por otro lado, el punto de
referencia de estimación de pose 6DoF [23] está dominado en gran
medida por métodos basados en la geometría [24,52], que explotan los
modelos de objetos 3D proporcionados y logran un rendimiento de
†Autores para correspondencia: Pichao Wang, Wei Tian. conjunto de correspondencias predefinidas. Aprendizaje por
3Código:https://github.com/tjiiv-cprg/EPro-PnP correspondencia de extremo a extremo [4,6,9,12] interpreta el
1
PnP como una capa diferenciable y emplea la función de pérdida impulsada Puntos clave escasos y correspondencias densas. BB8 [37] y RTM3D [28]
por la pose, de modo que el gradiente del error de pose se puede propagar ubique las esquinas del cuadro delimitador 3D como puntos clave,
hacia atrás a las correspondencias 2D-3D. mientras que PVNet [36] define los puntos clave mediante el muestreo
Sin embargo, el trabajo existente sobre PnP diferenciable del punto más lejano y Deep MANTA [11] por plantillas hechas a mano.
aprende solo una parte de las correspondencias (coordenadas 2D [ Por otro lado, los métodos de correspondencia densa [13,29,35,46,52]
12], coordenadas 3D [4,6] o pesos correspondientes [9]), predecir coordenadas 3D en píxeles dentro de una región 2D recortada.
asumiendo que se dan otros componentesa priori. Esto plantea La mayoría de los métodos basados en geometría existentes siguen
una pregunta importante: ¿por qué no aprender todo el conjunto una estrategia de dos etapas, donde las representaciones intermedias (
de puntos y pesos de manera integral? La respuesta simple es: la es decir., correspondencias 2D-3D) se aprenden con una función de
solución del problema PnP es intrínsecamente no diferenciable en pérdida sustituta, que es subóptima en comparación con el aprendizaje
algunos puntos, lo que provoca dificultades de entrenamiento y de extremo a extremo.
problemas de convergencia. Más específicamente, un problema Aprendizaje por correspondencia de extremo a extremoPara mitigar la
PnP puede tener soluciones ambiguas [32,38], lo que hace que la limitación del aprendizaje por correspondencia sustituta, se han
retropropagación sea inestable. propuesto enfoques de extremo a extremo para retropropagar el
Para superar las limitaciones anteriores, proponemos unmind- gradiente de la pose a la representación intermedia. Al diferenciar la
to-endProbabilísticoPNP (EPro-PnP) que permite aprender las operación PnP, Brachmann y Rother [6] proponen una densa red de
correspondencias de puntos 2D-3D ponderados completamente correspondencia donde los puntos 3D se pueden aprender, BPnP [12]
desde cero (Figura1). La idea principal es sencilla: la pose predice ubicaciones de puntos clave 2D y BlindPnP [9] aprende la matriz
determinista no es diferenciable, pero la densidad de probabilidad de peso correspondiente dado un conjunto de puntos 2D/3D no
de la pose es aparentemente diferenciable, al igual que las ordenados. Más allá de la correspondencia de puntos, RePOSE [24]
puntuaciones de clasificación categórica. Por lo tanto, propone una red de correspondencia característica-métrica entrenada
interpretamos la salida de PnP como una distribución probabilística de manera similar de extremo a extremo. Todos los métodos anteriores
parametrizada por las correspondencias 2D-3D aprendibles. se combinan con la pérdida de regularización sustituta; de lo contrario,
Durante el entrenamiento, la divergencia de Kullback-Leibler (KL) no se garantiza la convergencia debido a la naturaleza no diferenciable
entre las distribuciones de pose predicha y objetivo se calcula de la pose determinista. Bajo el marco probabilístico, estos métodos
como la función de pérdida, que es numéricamente tratable pueden considerarse como un enfoque de aproximación de Laplace
mediante un muestreo eficiente de pose de Monte Carlo. (Sección3.1) o una técnica de regularización local (Sección3.4).
Como enfoque general, EPro-PnP unifica inherentemente las técnicas de
aprendizaje por correspondencia existentes (Sección3.1). Además, al igual
Aprendizaje profundo probabilísticoLos métodos probabilísticos dan
que el mecanismo de atención [44], los pesos correspondientes se pueden
cuenta de la incertidumbre en el modelo y los datos, conocidos
entrenar para enfocarse automáticamente en pares de puntos importantes,
respectivamente como incertidumbre epistémica y aleatoria.25]. Este
lo que permite que las redes se diseñen con la inspiración del trabajo
último implica interpretar la predicción como distribuciones
relacionado con la atención [10,49,54].
probabilísticas aprendibles. La distribución categórica discreta a través
En resumen, nuestras principales contribuciones son las siguientes:
de Softmax ha sido ampliamente adoptada como una aproximación
• Proponemos el EPro-PnP, una capa PnP probabilística para la estimación fluida de one-hotargumento máximopara la clasificación de extremo a
general de poses de extremo a extremo a través de correspondencias extremo. Esto inspiró obras como DSAC [4], un RANSAC suave con un
2D-3D aprendibles. conjunto finito de hipótesis. Mientras tanto, las distribuciones
• Demostramos que EPro-PnP puede alcanzar fácilmente un paramétricas manejables (p.ej., distribución normal) se utilizan a
rendimiento superior para la estimación de poses 6DoF menudo para predecir variables continuas [13,18,22,25,26,51], y las
simplemente insertándolo en el CDPN [29] estructura. distribuciones de mezcla se pueden emplear para capturar aún más la
• Demostramos la flexibilidad de EPro-PnP proponiendo ambigüedad [3,5,31],p.ej., pose ambigua 6DoF [7]. En este documento,
aprendizaje por correspondencia deformablepara la proponemos una contribución única: propagar hacia atrás una
detección precisa de objetos 3D, donde todas las distribución continua complicada derivada de una capa de optimización
correspondencias 2D-3D se aprenden desde cero. anidada (la capa PnP), convirtiéndola esencialmente en una contraparte
continua de Softmax.
2. Trabajo relacionado
3. PnP probabilístico extremo a extremo generalizado
Estimación de pose de objeto basada en geometríaEn general, los
3.1. Visión general
métodos basados en geometría explotan los puntos, bordes u
otros tipos de representación que están sujetos a las restricciones Dar{n un objeto pro∣posal, nuestro objetivo es predecir un conjunto
de proyección bajo la cámara de perspectiva. Entonces, la pose se X=X3D i,X2D i,w2D∣ii =1···nortedenortecorrespondiente
puede resolver mediante optimización. Un gran cuerpo de trabajo puntos, con coordenadas de objetos 3DXi 3D∈R3, imagen 2D
utiliza la representación de puntos, que se puede clasificar en coordenadasX2Di ∈R2y pesos 2Dw2D i ∈R2 + , de
2
en el que se puede formular un problema PnP ponderado para estimar Pérdida adecuada pérdida impropia
gt gt gt
Problema no normalizado.
la pose del objeto en relación con la cámara.
La esencia de una capa PnP es buscar una pose óptimay(
expandida como matriz de rotaciónRy vector de traducciónt)
que minimiza el error de reproyección ponderado cuadrático
acumulativo:
Clasificación discreta Postura continua Postura continua
1∑norte∥ ( )∥
mínimo de argumento ∥w2D◦ π(Rx3D+t)− X2D∥2,(1)
i︸ Figura 2.Aprendiendo un clasificador discretocontra. Aprendiendo la
y 2 i=1 ︸i ︷i︷
Fi(y)∈R2 distribución continua de poses.Una función de pérdida discriminativa
(izquierda) fomentará la probabilidad no normalizada para la predicción
dóndeπ(·)es la función de proyección con los elementos intrínsecos de la
correcta y penalizará la incorrecta. Una pérdida unilateral (derecha)
cámara involucrados,◦significa producto por elementos, yFi(y)denota de
degradará la distribución si el modelo no está bien regularizado.
forma compacta el error de reproyección ponderado.
ecuación (1) formula un problema de mínimos cuadrados no lineal
que puede tener soluciones no únicas,es decir., ambigüedad de la pose Comparación con el método basado en reproyecciónLos dos términos en la
[32,38]. Trabajo previo [6,9,12] solo retropropaga a través de una Ec. (5) se ocupan de los errores de reproyección en el objetivo y la pose
solución localy∗, que es inherentemente inestable y no diferenciable. predicha, respectivamente. El primero se usa a menudo como pérdida
Para construir una alternativa diferenciable para el aprendizaje de sustituta en trabajos anteriores [6,12,13]. Sin embargo, el primer término por
extremo a extremo, modelamos la salida PnP como una distribución de sí solo no puede manejar el aprendizaje de todos los puntos 2D-3D sin
pose, lo que garantiza una densidad de probabilidad diferenciable. imponer una regularización estricta, ya que la minimización podría
Considere el error acumulativo como el logaritmo negativo de la simplemente llevar todos los puntos a una ubicación concentrada sin
función de verosimilitudpags(X|y)definido como: discriminación de poses. El segundo término se origina a partir del factor de
normalización en la ecuación. (3), y es fundamental
1∑ norte
pags(X|y) = exp.− ‖Fi(y)‖2. (2) a una función de pérdida discriminativa, como se muestra en la Figura2.
2 i=1
Comparación con el método de diferenciación implícitaTrabajo
Con una distribución de pose previa adicionalpags(y), podemos derivar existente sobre PnP de extremo a extremo [9,12] deriva una
la pose posteriorpags(y|X)a través del teorema de Bayes. Usando un solución única de un solver particulary∗=PNP(X)a través del teorema
previo poco informativo, la densidad posterior es simplemente de la función implícita [19]. En el marco probabilístico, este es
ficado a la probabilidad normalizada: esencialmente el método de Laplace que aproxima el posterior por
∑ 2 norte(y∗,Σy∗), donde ambosy∗y Σy∗puede ser estimado por la
Exp−1 2 i=1‖Fi(y)‖
norte
pags(y|X) =∫ ∑norte . (3) Solver PnP con derivadas analíticas [13]. Un caso especial es
Exp−1 2 i=1‖Fi(y)‖2dy que, con Σy∗simplificado para que sea isotrópico, la divergencia
ecuación (3) puede interpretarse como una contraparte continua
KL aproximada se puede simplificar a la pérdida L2‖y∗−y2 gt‖
utilizado en [9]. Sin embargo, la aproximación de Laplace es
de Softmax categórico.
inexacta para posteriores no normales con ambigüedad, por lo que
Función de pérdida KLDurante el entrenamiento, dada una distribución
no garantiza la convergencia global.
de pose objetivo con densidad de probabilidadt(y), la divergencia KLDKL(
t(y)‖pags(y|X))se minimiza como pérdida de entrenamiento. 3.2. Pérdida de pose de Monte Carlo
Intuitivamente, la ambigüedad de la pose puede ser capturada por los
En esta sección, presentamos un enfoque de Monte Carlo
múltiples modos depags(y|X), y se asegura la convergencia de modo
eficiente compatible con GPU para la integración en la función de
que la función de pérdida suprime los modos erróneos. Soltar-
pérdida propuesta, basado en el algoritmo Muestreo adaptativo de
Haciendo ping a la constante, la pérdida por divergencia KL se puede escribir como:
∫ ∫ importancia múltiple (AMIS) [14].
Considerandoq(y)ser la función de densidad de probabilidad de una
LKL=− t(y) Iniciar sesiónpags(X|y) dy+Iniciar sesión pags(X|y) dy.(4)
distribución propuesta∑ butión que se aproxima a la forma de la
2
integrandoExp−1 2 i=1‖Fi(y)‖,yyjser uno de losk
norte
dando la pérdida simplificada (después de sustituir la Ec. (2)): ecuación (5) es así:
1∑ ∫ 1∑ 1∑ kExp−1
∑norte 2
i=1‖Fi(yj)‖
norte norte
2 2 2
LKL= ‖Fi(ygt)‖ + registro Exp− ‖Fi(y)‖ dy. Lpresa≈Iniciar sesión , (6)
2 i=1
︸ 2︷i︷ k j=1︸
q(y
︷︷ ︸ ︸
=1
︸ ︷︷j) ︸
vj(peso de importancia)
Ltgt(reproj. en la pose del objetivo) Lpresa(reproj. en la pose predicha) (5)
El único problema que queda es la integración en el segundo dóndevjdenota de forma compacta el peso de importancia enyj.
término, que se elabora en la Sección3.2. ecuación (6) da importancia al muestreo de vainilla, donde el
3
elección de propuestaq(y)Afecta fuertemente a la estabilidad Algoritmo 1:Pérdida de pose de Monte Carlo con sede en AMIS
numérica. El algoritmo AMIS es una mejor alternativa ya que
Aporte :X={X3D i,X2D i,w2D i }
iterativamente adapta la propuesta al integrando.
Producción:Lpresa
En resumen, AMIS utiliza los pesos de importancia muestreados de
1y∗,Σy∗←PNP(X) 2 // Aproximación de Laplace
iteraciones anteriores para estimar la nueva propuesta. Luego, todas las
Adaptarq1(y)ay∗,Σy∗ // propuesta inicial
muestras anteriores se vuelven a ponderar como muestras
3 para1≤t≤Thacer 4
homogéneas de una mezcla de la suma total de propuestas. La
Generark′muestrasyt j=1···k′deqt(y)
propuesta inicial se puede determinar por el modo y la covarianza de la
5 por1≤j≤k′hacer
distribución de la pose prevista (consulte el suplemento para obtener ∑ ∥ ∥
6 j←X−episodio2
norte
∥Fi(yj) t∥2 // evaluar integrando
más detalles). Se da un pseudocódigo en Algorithm1. PAGSt 1
i=1
∂LKL ∂1∑
norte
∂1∑ norte
= ‖Fi(y)‖gt2 − mi ‖Fi(y)‖2,
∂(·) ∂(·) 2 i=1
∂(·) 2
y∼pags(y| X)
i=1
aporte correspondiente inverso discriminación
(7) peso incertidumbre (pose sensibilidad)
donde el primer término es el gradiente de errores de reproyección en Figura 3.El peso correspondiente aprendidose puede factorizar en
la pose de destino, y el segundo término es el gradiente esperado de incertidumbre inversa y discriminación. Por lo general, la incertidumbre
errores de reproyección sobre la distribución de pose predicha, que se inversa se asemeja más o menos a la máscara de primer plano, mientras que
aproxima retropropagando cada muestra ponderada en la pérdida de la discriminación enfatiza los extremos 3D del objeto.
4
lineal, exp
dóndeyo(·, ·)es una métrica de distancia para pose. Adoptamos L1 suave para escala global
la posición y la similitud del coseno para la orientación (consulte los
mapa crd de píxeles 256x1x1 2x1x1
2x64x64
materiales complementarios para obtener más detalles). Tenga en cuenta espacial
que el gradiente solo se propaga hacia atrás a través de∆y, fomentando que softmax
5
FPN P3~P7
objeto punto de referencia centralidad clasificación
P7 s128 conversión incrustación (centro de objetos)
P6 s64
p5 s32 consulta obj
Figura 5.La red de correspondencia deformablebasado en el FCOS3D [47] detector. Tenga en cuenta que las características puntuales muestreadas son
compartidas por la subred de nivel de punto y la capa de atención deformable que agrega las características para las predicciones a nivel de objeto.
6
• Se observa una gran mejora (+5,46) cuando se inicializa desde AÑADIR(-S)
Método
IDENTIFICACIÓN Significar
A1, porque CDPN se entrenó con la verdad de tierra adicional 0.02d 0.05d 0.1d
de las máscaras de objetos, lo que brinda un buen estado A0 CDPN-Completo [29] CDPN 29,10 69,50 91.03 63.21
inicial que resalta el primer plano. A1 sin trans. cabeza 15,93 46,79 74.54 45,75 (−17,46)
• Finalmente, el rendimiento se beneficia (+0,97) de más épocas A2 + Lote=32, solucionador LM 21,17 55,00 79,96 52,04 (+6,29)
de entrenamiento (160 ep. de A1 + 320 ep.) como equivalente B0 Básico EPro-PnP 32,14 72,83 92,66 65,88 (+13,84)
a CDPN-Full [29] (3 etapas × 160 ep.). B1 + Regularizar derivados 35,44 74,41 93,43 67,76 (+ 1,88) B2
+ Inicializar desde A1 42,92 80,98 95,76 73,22 (+ 5,46)
Los resultados demuestran claramente que EPro-PnP puede liberar B3 + Horario largo. (320 ep.) 44,81 81,96 95,80 74,19 (+0,97)
el enorme potencial del enfoque PnP clásico, sin ningún diseño de C0 B0→Separar coordenadas. 29,57 68,61 90.23 62,80 (−3,08)
red sofisticado ni trucos de desacoplamiento. C1 B0→Separar pesos 22,99 61,31 87.27 57,19 (−8,69)
Comparación con el estado del arteComo se muestra en la Tabla2, a D0 B0→Sin denominación Softmax. divergencia
pesar de modificarse desde la línea de base inferior, EPro-PnP alcanza Tabla 1. Comparación con la línea base de CDPN con ablación
fácilmente un rendimiento comparable al del refinador de pose superior Estudios.Los resultados de CDPN se reproducen con el código oficial.4
RePOSE [24], que agrega una sobrecarga adicional al estimador inicial En C0/C1, cualquiera de los componentes se separa individualmente de la pérdida KL,
basado en PnP PVNet [36]. Entre todas estas entradas, EPro-PnP es la mientras se agrega una pérdida de regresión de máscara sustituta [29] en C1.
Comparación con diferenciación implícita y aprendizaje de reproyección CDPN [29] - 94.31 - - 89.86
Pose híbrida [40] - - - - 91,3
Como se muestra en la Tabla3, cuando se elimina la pérdida de
RDANet* [45] 67.1 - 35,6 76,0 93.6
regresión de coordenadas, tanto la diferenciación implícita como la DPOD [52] - - - - 95.15
pérdida de reproyección no logran aprender la pose correctamente. Sin PVNet-RePOSE [24] - - - - 96,1
embargo, EPro-PnP logra aprender las coordenadas desde cero, incluso EPro-PnP 80.99 98,54 44,81 81,96 95.80
superando a CDPN sin cabezal de traducción (79,46contra. 74.54). Esto
Tabla 2.Comparación con los métodos geométricos del estado del arte.BPnP [
valida que EPro-PnP se puede usar como un estimador de pose general
12] no está incluido ya que adopta una división de tren/prueba diferente.
sin depender de la geometría previa.
*Aunque GDRNet [45] solo informa el rendimiento en su sección de ablación,
Incertidumbre y DiscriminaciónEn mesa3,Reproyección vs.Monte Carlo sigue siendo una comparación justa con nuestro método, ya que ambos usan
la pérdida puede interpretarse únicamente como incertidumbrecontra. la misma línea de base (CDPN).
equilibrio incertidumbre-discriminación. Los resultados revelan que la
incertidumbre por sí sola muestra un gran rendimiento cuando se Coord. AÑADIR(-S)
Pérdida principal 2° 2cm 2°, 2cm
dispone de supervisión de coordenadas intermedias, mientras que la registro 0.1d
discriminación es el elemento clave para aprender las correspondencias Diferencia implícita. [12] divergencia
Reproyección [13] 0.32 42.30 0.16 14.56
desde cero.
Montecarlo (nuestro) 44,18 81,55 40.96 79.46
Contribución del peso de extremo a extremo/aprendizaje coordinadoComo Diferencia implícita. [12] X 56,13 91,13 53.33 88.74
se muestra en la Tabla1, separar los pesos de la pérdida de extremo a Reproyección [13] X 62,79 92,91 60.65 92.04
extremo tiene un mayor impacto en el rendimiento que separar las Montecarlo (nuestro) X 65,75 93,90 63.80 92.66
7
derecho al revés le" delantero Correcto
Barrera
MATE MASE MAOE MAVE MAAE
2
Densidad
1
CenterNet [53] valle 0.328 0.306 0,716 0,264 0,609 1,426 0,658 0,806 0
Cono
0.2
DGP§ [48] valle 0.422 0.361 0,694 0,265 0,442 1,255 0,185 0.1
Densidad
EPro-PnP básico valle 0.425 0.349 0,676 0,263 0,363 1,035 0,196 0,667 0.0
Peatonal
valle 2
MonoDIS [39] Prueba 0,384 0,304 0,738 0.263 0.546 1.553 0.134
1
CenterNet [53] Prueba 0,400 0,338 0,658 0.255 0.629 1,629 0,142 0
0 π/2 π 3π/2 2π
FCOS3D§† [47] Prueba 0,428 0,358 0,690 0.249 0.452 1.434 0.124
(vista panorámica)
Y oh
• Con respecto a las métricas mATE y mAOE que reflejan la (solo registro) diferencia registro crd CDPN
precisión de la pose, el EPro-PnP básico ya supera a todos los
métodos anteriores, lo que nuevamente demuestra que EPro-
PnP es un mejor estimador de la pose. La pérdida de
regresión de coordenadas ayuda a reducir aún más el error
de orientación (mAOE 0.337contra. 0,363).
• Con TTA, EPro-PnP supera el estado del arte por un claro
margen (NDS 0.439contra. 0.422) en el conjunto de
validación.
AGREGAR(-S) 0.1d 79.96 88.74 79,46 92,66 93,43 95,76
En los datos de prueba, con la ventaja de la precisión de la pose
(mATE y mAOE), EPro-PnP logra la puntuación NDS más alta entre Figura 7.Visualización del peso inferido y mapas de coordenadasen los
datos de prueba de LineMOD.
otros competidores de tareas específicas.
wito ut di secreto miMulti-bin c lasificación [33,47] o cumplir (No. 2 020PJD075), Natural Science Foundation of ai (No.
Cmodelo de mezcla combinada [7]. Deber ing a la capacidad de modelar Shangh 21ZR1467400) y Perspective Study g of Nanchang
natien un mu idad, EPro-P orinP supera a otros competidores
grande FinanciamientoAutomotive Institute of Intelligence Energy,
8
Referencias [17] Andreas Geiger, Philip Lenz y Raquel Urtasun. ¿Estamos
preparados para la conducción autónoma? la suite kitti vision
[1] Sameer Agarwal, Keir Mierle y otros. Solucionador de Ceres.
benchmark. EnCVPR, 2012.1
http://ceres-solver.org.11
[18] Igor Gilitschenski, Roshni Sahoo, Wilko Schwarting, Alexander
[2] Eli Bingham, Jonathan P. Chen, Martin Jankowiak, Fritz
Amini, Sertac Karaman y Daniela Rus. Aprendizaje de
Obermeyer, Neeraj Pradhan, Theofanis Karaletsos, Rohit
incertidumbre de orientación profunda basado en una pérdida de
Singh, Paul Szerlip, Paul Horsfall y Noah D. Goodman. Pyro:
Bingham. En ICLR, 2020.2
Programación Probabilística Universal Profunda.Revista de
[19] Stephen Gould, Richard Hartley y Dylan John Campbell.
investigación de aprendizaje automático, 2018.12
Redes declarativas profundas.IEEE TPAMI, 2021.3,8
[3] Christopher M. Obispo. Redes de densidad de mezcla, 1994.2, 14
[20] Kaiming He, Georgia Gkioxari, Piotr Dollár y Ross Girshick.
Máscara r-cnn. EnICCV, 2017.14
[4] Eric Brachmann, Alexander Krull, Sebastian Nowozin, Jamie
Shotton, Frank Michel, Stefan Gumhold y Carsten Rother. [21] Kaiming He, Xiangyu Zhang, Shaoqing Ren y Jian Sun. Aprendizaje
Dsac: ransac diferenciable para la localización de cámaras. residual profundo para el reconocimiento de imágenes. EnCVPR,
EnCVPR, 2017.1,2 2016.6
[5] Eric Brachmann, Frank Michel, Alexander Krull, Michael Ying [22] Yihui He, Chenchen Zhu, Jianren Wang, Marios Savvides y Xiangyu
Yang, Stefan Gumhold y carsten Rother. Estimación de pose Zhang. Regresión de cuadro delimitador con incertidumbre para
6d impulsada por la incertidumbre de objetos y escenas a la detección precisa de objetos. EnCVPR, 2019.2
partir de una sola imagen rgb. EnCVPR, 2016.2,6 [23] Stefan Hinterstoisser, Stefan Holzer, Cedric Cagniart, Slobodan Ilic,
[6] Eric Brachmann y Carsten Rother. Aprender menos es más: Kurt Konolige, Nassir Navab y Vincent Lepetit. Plantillas
localización de cámara 6d a través de regresión de superficie 3d. multimodales para la detección en tiempo real de objetos sin
EnCVPR, 2018.1,2,3,8 textura en escenas muy desordenadas. EnICCV, 2011.1,6,11
[7] Mai Bui, Tolga Birdal, Haowen Deng, Shadi Albarqouni, [24] Shun Iwase, Xingyu Liu, Rawal Khirodkar, Rio Yokota y Kris M. Kitani.
Leonidas Guibas, Slobodan Ilic y Nassir Navab. Relocalización Reposo: refinamiento rápido de la pose del objeto 6d a través de la
de cámara 6d en escenas ambiguas mediante inferencia representación de textura profunda. EnICCV, 2021.1,2,5,7,15
multimodal continua. EnECCV, 2020.2,8 [25] Alex Kendall y Yarin Gal. ¿Qué incertidumbres necesitamos en el
[8] Holger Caesar, Varun Bankiti, Alex H. Lang, Sourabh Vora, Venice aprendizaje profundo bayesiano para la visión artificial? EnPINZAS
Erin Liong, Qiang Xu, Anush Krishnan, Yu Pan, Giancarlo Baldan y , 2017.2
Oscar Beijbom. nuscenes: un conjunto de datos multimodal para [26] Diederik P. Kingma y Max Welling. Bayes variacional de codificación
la conducción autónoma. EnCVPR, 2020.1,5, 6,11,15,dieciséis automática. EnICLR, 2014.2
[27] Vincent Lepetit, Francesc Moreno-Noguer y Pascal Fua. Epnp:
[9] Dylan Campbell, Liu Liu y Stephen Gould. Resolviendo el problema de la
Una solución o(n) precisa al problema pnp.Revista
perspectiva ciega de n puntos de extremo a extremo con una robusta
internacional de visión por computadora, 81:155–166, 2009.
optimización geométrica diferenciable. EnECCV, 2020.1,2, 3,5,8
11, 15
[28] Peixuan Li, Huaici Zhao, Pengfei Liu y Feidao Cao. Rtm3d:
[10] Nicolás Carion, Francisco Massa, Gabriel Synnaeve, Nicolás Usunier,
Detección 3d monocular en tiempo real desde puntos clave
Alexander Kirillov y Sergey Zagoruyko. Detección de objetos de
de objetos para conducción autónoma. EnECCV, 2020.1,2
extremo a extremo con transformadores. EnECCV, 2020.2
[29] Zhigang Li, Gu Wang y Xiangyang Ji. Cdpn: red de poses desenredadas
[11] Florian Chabot, Mohamed Chaouch, Jaonary Rabarisoa, Céline
basada en coordenadas para la estimación de poses de objetos de 6
Teulière y Thierry Chateau. Manta profunda: una red de muchas
grados de libertad basada en rgb en tiempo real. EnICCV, 2019.1,2, 5,6,
tareas de grueso a fino para el análisis conjunto de vehículos en
7,8,14,15
2D y 3D a partir de una imagen monocular. EnCVPR, 2017.1,2
[30] Ilya Loshchilov y Frank Hutter. Regularización de decaimiento de
[12] Bo Chen, Álvaro Parra, Jiewei Cao, Nan Li y Tat-Jun Chin. Visión
peso desacoplada. EnICLR, 2019.6
geométrica aprendible de extremo a extremo mediante la optimización
de pnp de retropropagación. EnCVPR, 2020.1,2,3,5,7,8 [31] Osama Makansi, Eddy Ilg, Ozgun Cicek y Thomas Brox. Superar las
[13] Hansheng Chen, Yuyao Huang, Wei Tian, Zhong Gao y Lu limitaciones de las redes de densidad de mezcla: un marco de
Xiong. Monorun: Detección monocular de objetos 3d por muestreo y ajuste para la predicción futura multimodal.
reconstrucción y propagación de incertidumbre. EnCVPR, EnCVPR, 2019.2
2021.2, 3,4,5,6,7,8,14,15 [32] Fabian Manhardt, Diego Martín Arroyo, Christian Rupprecht,
[14] Jean-Marie Cornuet, Jean-Michel Marin, Antonietta Mira y Benjamin Busam, Nassir Navab y Federico Tombari. Explicar
Christian P. Robert. Muestreo adaptativo de importancia la ambigüedad de la detección de objetos y la pose 6d a partir
múltiple.Revista escandinava de estadística, 39(4):798–812, de datos visuales. EnICCV, 2019.2,3
2012.3,12 [33] Arsalan Mousavian, Dragomir Anguelov, John Flynn y Jana Kosecka.
[15] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Estimación de cuadro delimitador 3d usando aprendizaje
Han Hu y Yichen Wei. Redes convolucionales profundo y geometría. EnCVPR, 2017.8
deformables. EnCVPR, 2017.6 [34] Dennis Park, Rares Ambrus, Vitor Guizilini, Jie Li y Adrien
[16] Inderjit S. Dhillon y Suvrit Sra. Modelado de datos utilizando Gaidon. ¿Se necesita pseudo-lidar para la detección
distribuciones direccionales, 2003.12 monocular de objetos 3d? EnICCV, 2021.1
9
[35] Kiru Park, Timothy Patten y Markus Vincze. Pix2pose: regresión de [52] Sergey Zakharov, Ivan Shugurov y Slobodan Ilic. Dpod: detector y
coordenadas por píxeles de objetos para la estimación de la pose refinador de objetos de pose 6d. EnICCV, 2019.1,2,7
6d. EnICCV, 2019.1,2 [53] Xingyi Zhou, Dequan Wang y Philipp Krähenbühl. Objetos
[36] Sida Peng, Yuan Liu, Qixing Huang, Xiaowei Zhou y Hujun Bao. como puntos, 2019.8
Pvnet: red de votación por píxeles para la estimación de [54] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang y Jifeng Dai.
poses de 6dof. EnCVPR, 2019.1,2,4,7,15 Deformable detr: Transformadores deformables para la detección
[37] Mahdi Rad y Vincent Lepetit. BB8: un método escalable, de objetos de extremo a extremo. EnICLR, 2021.2,5,13
preciso, robusto a oclusión parcial para predecir las poses 3D
de objetos desafiantes sin usar la profundidad. EnICCV, 2017.
1,2
[38] Gerald Schweighofer y Axel Pinz. Estimación robusta de la pose a
partir de un objetivo plano.IEEE TPAMI, 28(12):2024–2030, 2006. 2,
3
[39] Andrea Simonelli, Samuel Rota Bulò, Lorenzo Porzi,
Manuel López-Antequera y Peter Kontschieder. Detección
de objetos 3d monocular desenredante. EnICCV, 2019.8
[40] Chen Song, Jiaru Song y Qixing Huang. Hybridpose: estimación
de pose de objeto 6d bajo representaciones híbridas. En CVPR
, 2020.1,7
[41] Zhi Tian, Chunhua Shen, Hao Chen y Tong He. Fcos: Detección de
objetos de una etapa completamente convolucional. EnCVPR,
2019.5
[42] Bill Triggs, Philip F. McLauchlan, Richard I. Hartley y
Andrew W. Fitzgibbon. Ajuste de paquete: una síntesis
moderna. EnTaller Internacional de Algoritmos de Visión:
Teoría y Práctica, 2000.11
[43] David E. Tyler. Análisis estadístico de la distribución
gaussiana central angular en la esfera.Biometrika,
74(3):579–589, 1987.4,13
[44] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit,
Llion Jones, Aidan N. Gomez, Lukasz Kaiser e Illia Polosukhin.
La atención es todo lo que necesitas. EnPINZAS, 2017.2,5
[45] Gu Wang, Fabian Manhardt, Federico Tombari y Xiangyang Ji.
Gdr-net: red de regresión directa guiada por geometría para
la estimación de poses de objetos monoculares 6d. EnCVPR,
2021.7
[46] He Wang, Srinath Sridhar, Jingwei Huang, Julien Valentin, Shuran
Song y Leonidas J. Guibas. Espacio de coordenadas de objeto
normalizado para estimación de posición y tamaño de objeto 6d
de nivel de categoría. EnCVPR, 2019.1,2
[47] Tai Wang, Xinge Zhu, Jiangmiao Pang y Dahua Lin. FCOS3D:
detección de objetos 3D monocular de una etapa
completamente convolucional. EnTalleres ICCV, 2021.5,6,7,8,
13, 14
[48] Tai Wang, Xinge Zhu, Jiangmiao Pang y Dahua Lin. Profundidad
probabilística y geométrica: Detección de objetos en perspectiva.
EnConferencia sobre aprendizaje de robots (CoRL), 2021.1, 7,8
10
A. Solucionador PnP de Levenberg-Marquardt Des la raíz cuadrada de la diagonal de la matrizJ̃TJ̃, y λes el
recíproco del radio de la región de confianza de LM [1].
Para la escalabilidad, hemos implementado un solucionador PnP por
Nótese que el residual reescalado y el jacobiano afectan la
lotes Levenberg-Marquardt (LM) basado en PyTorch. La implementación
regularización derivada (Ec. (10)), así como la estimación de la
generalmente sigue el solucionador de Ceres [1]. Aquí, discutimos
covarianza en el apartado siguiente.
algunos detalles importantes que están relacionados con el muestreo
de pose Monte Carlo propuesto y la regularización derivada. Modo de inferencia rápidaEncontramos empíricamente que en un
modelo bien entrenado, el radio de la región de confianza de LM se
puede inicializar con un valor muy grande, lo que hace que el algoritmo
A.1. Núcleo de Huber adaptativo de LM sea redundante. Por lo tanto, usamos la implementación simple
de Gauss-Newton para una inferencia rápida:
Para fortalecer los errores de reproyección ponderados de
varias escalas, adoptamos un kernel de Huber adaptativo con un ( ) −1
umbral dinámicodpara cada objeto, definido en función de los ∆y=− J̃TJ̃+εI J̃TF, (20)
pesosw2D i y coordenadas 2DX2Di :
dóndeεes un valor pequeño para la estabilidad numérica.
∥ ∥( ) 1
∥w̄2D∥ 1 ∑norte∥ ∥ 2
d=dreal 1
∥X 2D
i − x̄2D
∥2 , (13) A.3. Estimación de covarianza
2 norte -1
i=1
Durante el entrenamiento, la concentración de la propuesta AMIS
con el umbral relativo∑viejodrealcomo hi permanente ∑éter, un el está determinada por la estimación local de la matriz de covarianza
, X 2D=norte1
norte
2D 2D
i=1X i .
Vectores de mediaw̄2D=1 norte
norte
pose Σy∗, definido como:
i=1wi
( ) − 1∣
A.2. Paso LM con Huber Kernel ∣
Σy∗=J̃T J̃+εI ∣ , (21)
y=y∗
Agregar el kernel de Huber influye en todos los elementos
relacionados, desde la función de probabilidad hasta el paso de dóndey∗es la solución LM que determina la ubicación de la
iteración de LM y la pérdida de regularización derivada. Gracias a la distribución de la propuesta.
diferenciación automática de PyTorch, la pérdida de divergencia de
Monte Carlo KL reforzada no requiere un manejo especial. Sin A.4. Inicialización
embargo, para el solver LM, el valor residualF(y) (errores de
Dado que el solucionador LM solo encuentra una solución local,
reproyección ponderados concatenados) y la matriz jacobianaj
la inicialización juega un papel determinante en el tratamiento de
tienen que ser reescalados antes de calcular el paso LM reforzado [
la ambigüedad. EPnP estándar [27] La inicialización puede manejar
42].
la densa red de correspondencia entrenada en LineMOD [23]
El bloque residual reescaladoFi(y)y bloque jacobiano J̃i(y)deli
conjunto de datos, donde la ambigüedad no es perceptible. Para la
-ésimo par de puntos se definen como:
red de correspondencia deformable entrenada en nuScenes [8]
√ dataset y casos más generales, implementamos un algoritmo de
Fi(y) = ρ′iFi(y), (14)
muestreo aleatorio análogo a RANSAC, para buscar el óptimo
√
J̃i(y) = ρi′ji(y), (15) global de manera eficiente.
{Dado que∣norte-punto c}conjunto de correspondenciaX =
dónde - Xi3D
,X2D ∣
‖Fi(y)‖ ≤ δ, i , w2D
i i=1···norte,generamosMETROsubconjuntos
-1, que consiste ennortepuntos correspondientes cada uno (3≤norte <
ρi′= d (dieciséis)
norte), submuestreando repetidamentenorteíndices sin reemplazo
- , ‖Fi( y)‖ > d,
‖fyi()‖ de una distribución multinomial, cuya función de masa de
∂fyi() probabilidadpags(i)se define por los pesos correspondientes:
ji(y) = . (17) ∥ ∥
∂yT ∥w2D∥
Tras la implementación del solucionador Ceres [1], el paso de pags(i) =∑norte i∥ 1∥. (22)
2D∥
iteración de LM reforzado es: i=1 ∥wi 1
11
Modo de entrenamientoDurante el entrenamiento, el solucionador orden cero. La mezcla PDF es así:
LM PnP se utiliza para estimar la ubicación y la concentración de la
distribución propuesta inicial en el algoritmo AMIS. La ubicación es
qmezcla(θ) = (1−α)qmáquina virtual(θ) +αquniforme(θ), (25)
muy importante para la estabilidad del entrenamiento Monte con el peso uniforme de la mezclaα. El componente uniforme se
Carlo. Si el solucionador de LM no logra encontrar el óptimo global agrega para capturar otros modos potenciales bajo la ambigüedad
y la ubicación del óptimo local está lejos de la verdadera poseygt, el de orientación. Establecimosαa un valor fijo de1/4.
equilibrio entre los dos términos opuestos con signo en la PyTorch ya ha implementado la distribución de von Mises, pero
ecuación. (5) puede romperse, lo que lleva a un gradiente explosivo su generación de muestras aleatorias es bastante lenta. Como
en el peor de los casos. Para evitar tal problema, adoptamos un alternativa, usamos la implementación de NumPy para el muestreo
truco de inicialización simple: comparamos el log-verosimilitud aleatorio.
Iniciar sesiónpags(X|y)de la verdad del sueloygty la hipótesis
Parámetros inicialesCon el ángulo de guiñadaθ∗y su variedad
seleccionada, y luego mantenga la de mayor probabilidad como el
anceσ2θ∗del solucionador PnP, los parámetros del von
estado inicial del solucionador LM.
La propuesta de Mises es inicializada porµ← θ∗, k←1.
3σ2 θ∗
B. Detalles sobre el muestreo de pose de Monte Carlo Estimación de parámetros a partir de muestras ponderadaspor la
ubicaciónµ, simplemente adoptamos su estimación de máxima
B.1. Distribución de propuestas para el puesto
verosimilitud,es decir., la media circular de las muestras ponderadas.
Para la distribución propuesta del vector de traslación t∈R3, por la concentracionk, primero calculamos una estimación aproximada [
adoptamos la distribución t multivariada, con la siguiente dieciséis] por:
función de densidad de probabilidad (PDF): r̄(2− r̄2)
κ̂=
, (26)
()( )− 1− r̄2
Γ v+3 1
v+3
∥∥∑ ∑ ∥
2
∥
qT(t) = ( ) √2 1 + ‖t-µ‖2 Σ , (23) dónder̄=∥jvj[pecadoθj,porqueθTj]/ jvj∥es la norma de
Γv 2 v3π |3Σ| v
el vector de orientación medio, con el peso de importanciavj
T Para elj-ésima muestraθj. Finalmente, la concentración se reduce
dónde‖t-µ‖2 Σ= (t-µ) Σ−1(t-µ ), con la ubicación
para un muestreo robusto, de modo quek← κ̂/3.
µ, la matriz de escala definida positiva de 3×3 Σ, y los grados de libertad
v. Siguiendo [14], establecimosva 3. En comparación con la distribución B.3. Distribución de propuestas para Orientación 3D
normal multivariante, la distribución t tiene una cola más gruesa, lo que
es ideal para un muestreo robusto. Con respecto a la parametrización basada en cuaterniones de la
La distribución t multivariada se ha implementado en orientación 3D, que puede representarse mediante un vector
Para la distribución propuesta de la orientación 1D solo de guiñadaθ Parámetros inicialesConsideraryo∗ser la solución PnP
, adoptamos una mezcla de von Mises y distribución uniforme. La y Σ−1 yo∗ ser la matriz de covarianza inversa estimada de 4 × 4.
distribución de von Mises también se conoce como distribución normal Tenga en cuenta que Σyo
−1 ∗ sólo es válido en el espacio tangente local con
determinado por:
1
Exp (kporque (θ −µ)) Λ←Λ +α|Λ̂| YO, (28)
qmáquina virtual(θ) = , (24) 4
2yo0(k) ( )
donde Λ̂ = Σ−1 yo∗ + yo−1, yαes un hiperparámetro que
dóndeµes el parámetro de ubicación,kes el parámetro de controla la dispersión de la propuesta de muestreo robusto.
concentración, yyo0(·)es la función de Bessel modificada con Establecimosαa 0.001 en los experimentos.
12
Estimación de parámetros a partir de muestras ponderadas puntos 3D pesos
norteobjeto×3×N norteobjeto×2×N
Basado en las muestrasyojy pesosvj, la máxima probabilidad
estimación Λ̂ es la solución de la siguiente ecuación:
Agregar y norma
4 ∑ vll .
jjjT predicciones a nivel de obj
Λ̂ =∑ T−j1Λ̂yoj
(29) FFN
jvj j yo
Agregar y norma
FFN y norma
La solución a la Ec. (29) se puede calcular mediante una iteración de punto fijo
[43]. Los parámetros finales de la propuesta actualizada se determinan de la Auto atención
Agregar y norma
misma manera que en la ecuación. (28). q k V
Atención multicabezal
C. Detalles sobre la Pérdida de Regularización de Derivados
puntos 2D punto hazaña
norteobjeto×32×N
V k q
Como se indica en el documento principal, la pérdida de regularización norteobjeto×2×N
- consulta obj
-d2 t , d≤
t β,
Lposición=2β (30) Figura 8. Arquitectura detallada de la correspondencia deformable
- la red.
dt−0.5β, dt> β,
con el hiperparámetroβ.
La rama de nivel de punto en el lado izquierdo de la figura8es re-
ParaLorientar, adoptamos la pérdida de similitud del coseno
responsable de predecir los puntos 3DX3D iy corresponde-
en función de la distancia angulardθ. Para orientación 1D
pesasw2D i.Las características de los puntos muestreados se
parametrizada por el ánguloθ,dθ=θ∗+∆θ - θgt. Para orientación
Mejorado por el contexto a nivel de objeto, agregando la
3D parametrizada por el vector cuaterniónyo,dθ= 2 arccos (yo∗+
incrustación de objeto de cabeza reformada a las características de
∆yo)Tyogt. Por lo tanto, la función de pérdida se define como:
punto. Entonces, las características de lanortelos puntos son
procesados por la capa de atención propia, para lo cual los puntos
Lorientar=1−porquedθ. (31)
2D se transforman en codificación posicional. La capa de atención
Para la orientación 3D, después de la sustitución, la función de pérdida es seguida por capas estándar de normalización, conexión de salto
se puede simplificar a: y red de avance (FFN).
Con respecto a la rama de nivel de objeto en el lado derecho de
( )
Lorientar=2−2 (yo∗+∆yo)Tyo2gt . (32) Figura8, se emplea una capa de atención de varios cabezales para
agregar las entidades de puntos muestreados. A diferencia de la capa
Para la configuración específica del hiperparámetroβy pérdida de atención deformable original [54] que predice los pesos de atención
de peso, consulte el código de configuración del experimento. por proyección lineal de la incrustación del objeto, adoptamos la
atención completa del producto punto QK con codificación posicional.
D. Detalles sobre la Red de Correspondencia Después de ser procesadas por las capas posteriores, las características
Deformable a nivel de objeto finalmente se transforman en predicciones a nivel de
objeto, que consisten en la puntuación de localización 3D, la escala de
D.1. Red de arquitectura peso, el tamaño del cuadro delimitador 3D y otras propiedades
el mid arquitectura de red detallada de la cor- opcionales (velocidad y atributo). Tenga en cuenta que la capa de
la red de respuesta se muestra en la Figura8. Siguiendo de- atención en realidad no es un componente necesario para las
formas ble DETR [54], este artículo adopta el diseño multicabezal predicciones a nivel de objeto, sino un subproducto de las muestras de
muestreo conformable. DejarnortecabezaSea el número de cabezas y puntos deformables cuyas características se pueden aprovechar con
13
la pérdida se impone sobre la puntuación de localización 3D, con el
objetivoCtgtdefinido como una función del error de posición:
pesas de atencion
Ctgt=Puntaje(‖t∗XZ−tXZgt‖) norteobjeto×ncabeza×1×hretorno de la inversión×wretorno de la inversión
k q
dóndet∗XZson los componentes XZ de la solución PnP,tXZgt pesos norteobjeto×ncabeza×32×hretorno de la inversión×wretorno de la inversión norteobjeto×ncabeza×32
norteobjeto×ncabeza×2×hretorno de la inversión×wretorno de la inversión
independiente. Además, la atención pesaφse obtienen a través del producto 40 EPro-PnP + Reg.
escalar QK y se normalizan a lo largo de lanortecabezadimensión y en la región 30 + Inicial. de CDPN
3D∥2 una etapa, y va más allá cuando se inicializa desde la primera etapa
L regular = k − x gt , (35)
preentrenada de CDPN.
k=1
14
Métricas positivas verdaderas (más bajo es mejor)
Método
IDENTIFICACIÓN Datos NDS mapa
MATE MASE MAOE MAVE MAAE
A0 EPro-PnP básico valle 0.425 0.349 0,676 0,263 0,363 1,035 0,196 0,667
A1 A0 + coord. reg. valle 0.430 0.352 0,258 0,337 1,031 0,193
B0 A0→Sin reproyecciónLproyecto valle 0.408 0.337 0,721 0,267 0,452 1,113 0,166
C0 A0→50% puntuación de Montecarlo A0→valle 0.424 0.350 0,673 0,264 0,373 1,042 0,198 0,675
C1 100% puntuación de Montecarlo Val 0.424 0.350 0,264 0,367 1,048 0,199
D0 A1→Red compacta D0 valle 0.434 0.358 0,672 0,264 0,351 0,983 0,181 0,664
D1 + TTA valle 0.446 0.367 0,260 0,320 0,951 0,179
Tabla 5. Resultados adicionales de la red de correspondencia deformable probada en nuScenes [8] punto de referencia.
15
para el mapa de características densas y el número de puntos por H. Visualización adicional
cabezanortehptsreducido de 32 a 16, y comprima el lote de 12
imágenes en 2 GPU RTX 3090. Como se muestra en la Tabla5, el aporte orientación
rendimiento general es en realidad ligeramente mejor que la
versión original (NDS 0.434contra. 0,430). Aún así, aún no se ha
determinado una arquitectura más eficiente en el trabajo futuro.
cabezas
PNP
Columna vertebral
PyTorch Total
& FPN Deformación FCOS
G. Limitación
EPro-PnP es un estimador de pose versátil para problemas
generales, sin embargo, debe reconocerse que entrenar la red con la
pérdida de pose de Monte Carlo es inevitable.Más lento que la línea
base. En el tamaño de lote de 32, entrenar el CDPN (sin cabezal de
traducción) lleva 143 segundos por época con la pérdida de regresión
de coordenadas original y 241 segundos por época con la pérdida de
pose de Monte Carlo, que es aproximadamente un 70 % más de tiempo,
según lo medido en GPU GTX 1080 Ti. Sin embargo, el tiempo de
entrenamiento se puede controlar ajustando el número de muestras
Monte Carlo o el número de puntos correspondientes 2D-3D. En este
artículo, la elección de estos hiperparámetros generalmente se inclina
hacia la redundancia.
5El tamaño original es 1600×900. Recortamos las imágenes para mayor eficiencia.
dieciséis
aporte orientación
derecha hacia atrás le" adelante a la derecha
10
Coche
Densidad
5
0 π/2 π 3π/2 2π
Y oh
Camión
2
Densidad
0
0 π/2 π 3π/2 2π
Y oh
Autobús
4
Densidad
2
0 π/2 π 3π/2 2π
Y oh
Remolque
4
Densidad
2
0 π/2 π 3π/2 2π
Veh.
Y oh
1.5
Construcción
1.0
Densidad
0.5
0.0
0 π/2 π 3π/2 2π
Y oh
norte
peatonal
0.4
Densidad
0.2
0.0
0 π/2 π 3π/2 2π
Y oh
motocicleta mi
0. 75
0. 50
Densidad
0.25
0.00
0 π/2 π 3π/2 2π
Y oh
1.5
Bicicleta
1.0
Densidad
0.5
0.0
0 π/2 π 3π/2 2π
Y oh
Cono
0.2
Densidad
0.1
0.0
0 π/2 π 3π/2 2π
Y oh
6
Barrera
4
Densidad
0 π/2 π 3π/2 2π
Y oh
Figura 12. Resultados inferidos en el conjunto de pruebas LineMOD o-PnP con Figura 13. Información orientación errada norte en nuScenes v alidación establecida por el
por regularización derivada de EPr y pesos de CDPN preentrenados , Parte II. EPro-Pn básico PAGS.
17
Puntos 2D coloreados por instancia Puntos 2D coloreados por componente XY Cuadros delimitadores 3D inferidos Cuadros de límite inferidos (rojo), densidad de
densidad de (X: rojo, Y: verde) posición (azul) y límite de verdad del terreno.
recuadros (verde) a vista de pájaro
Figura 14. Resultados inferidos en la validación de nuScenes establecida por Basic EPro-PnP.
18
I. Notación
Notación Descripción
X3D ∈ R3 Vector de coordenadas deli-ésimo punto de objeto 3D
i
X2D ∈ R2 Vector de coordenadas deli-ésimo punto de imagen 2D
i
w2D ∈R2+ Vector de peso deli-ésimo par de puntos 2D-3D El conjunto
i
X de correspondencias 2D-3D ponderadas Pose del objeto
y
ygt Verdad fundamental de la pose del objeto
19