Documentos de Académico
Documentos de Profesional
Documentos de Cultura
com
1. Introducción
En este trabajo, abordamos el problema de larga data de la síntesis de vista de una nueva manera
mediante la optimización directa de los parámetros de una representación de escena 5D continua para
minimizar el error de renderizar un conjunto de imágenes capturadas.
Representamos una escena estática como una función 5D continua que genera la
radiación emitida en cada dirección (θ, φ) en cada punto (x, y, z) en el espacio, y una
densidad en cada punto que actúa como una opacidad diferencial que controla la cantidad
de radiación acumulada por un rayo que pasa a través de (x, y, z). Nuestro método optimiza
una red neuronal profunda totalmente conectada sin ninguna capa convolucional (a
menudo denominada perceptrón multicapa o MLP) para representar esta función mediante
la regresión desde una sola coordenada 5D (x, y, z, θ, φ) a una sola densidad de volumen y
color RGB dependiente de la vista. para hacer estocampo de radiación neural(NeRF)
Fig. 1: Presentamos un método que optimiza una representación continua del campo de radiación
neuronal 5D (densidad de volumen y color dependiente de la vista en cualquier ubicación continua) de
una escena a partir de un conjunto de imágenes de entrada. Usamos técnicas de renderizado de volumen
para acumular muestras de esta representación de escena a lo largo de los rayos para renderizar la
escena desde cualquier punto de vista. Aquí, visualizamos el conjunto de 100 vistas de entrada del
sintéticoBateríaescena capturada aleatoriamente en un hemisferio circundante, y mostramos dos vistas
novedosas renderizadas a partir de nuestra representación NeRF optimizada.
desde un punto de vista particular: 1) hacemos avanzar los rayos de la cámara a través de la
escena para generar un conjunto de muestra de puntos 3D, 2) usamos esos puntos y sus
correspondientes direcciones de visualización 2D como entrada a la red neuronal para producir un
conjunto de salida de colores y densidades, y 3) usar técnicas clásicas de representación de
volumen para acumular esos colores y densidades en una imagen 2D. Debido a que este proceso
es naturalmente diferenciable, podemos usar el descenso de gradiente para optimizar este
modelo al minimizar el error entre cada imagen observada y las vistas correspondientes
generadas desde nuestra representación. Minimizar este error en múltiples vistas anima a la red a
predecir un modelo coherente de la escena mediante la asignación de altas densidades de
volumen y colores precisos a las ubicaciones que contienen el verdadero contenido subyacente de
la escena. La figura 2 visualiza esta canalización general.
Encontramos que la implementación básica de optimizar una representación de campo de
radiación neuronal para una escena compleja no converge a una representación de resolución
suficientemente alta y es ineficiente en el número requerido de muestras por rayo de cámara.
Abordamos estos problemas transformando las coordenadas 5D de entrada con una codificación
posicional que permite que el MLP represente funciones de mayor frecuencia y proponemos un
procedimiento de muestreo jerárquico para reducir el número de consultas necesarias para
muestrear adecuadamente esta representación de escena de alta frecuencia.
Nuestro enfoque hereda los beneficios de las representaciones volumétricas: ambas pueden
representar geometrías y apariencias complejas del mundo real y son adecuadas para la
optimización basada en gradientes utilizando imágenes proyectadas. Crucialmente, nuestro
método supera los prohibitivos costos de almacenamiento dediscretizadocuadrículas de vóxel al
modelar escenas complejas en alta resolución. En resumen, nuestras contribuciones técnicas son:
– Un enfoque para representar escenas continuas con geometría y materiales complejos
como campos de radiación neuronal 5D, parametrizados como redes MLP básicas.
– Un procedimiento de renderizado diferenciable basado en técnicas clásicas de renderizado de
volumen, que utilizamos para optimizar estas representaciones a partir de imágenes RGB
estándar. Esto incluye una estrategia de muestreo jerárquico para asignar la capacidad del MLP
al espacio con contenido de escena visible.
NeRF: representación de escenas como campos de radiación neuronal para la síntesis de vistas 3
– Una codificación posicional para mapear cada coordenada 5D de entrada en un espacio dimensional
superior, lo que nos permite optimizar con éxito los campos de radiación neuronal para representar
contenido de escena de alta frecuencia.
Demostramos que nuestro método de campo de radiación neuronal resultante supera
cuantitativa y cualitativamente los métodos de síntesis de vista de última generación, incluidos los
trabajos que ajustan las representaciones 3D neuronales a las escenas, así como los trabajos que
entrenan redes convolucionales profundas para predecir representaciones volumétricas
muestreadas. Hasta donde sabemos, este artículo presenta la primera representación de escena
neuronal continua que es capaz de generar vistas novedosas fotorrealistas de alta resolución de
objetos reales y escenas de imágenes RGB capturadas en entornos naturales.
2. Trabajo relacionado
con apariencia dependiente de la vista 2D) puede representar geometría y apariencia de mayor
resolución para generar vistas novedosas fotorrealistas de escenas complejas.
entrada. Los enfoques volumétricos pueden representar formas y materiales complejos de manera realista, son adecuados para la optimización basada en gradientes y tienden a
producir artefactos que distraen menos visualmente que los métodos basados en mallas. Los primeros enfoques volumétricos usaban imágenes observadas para colorear
directamente las cuadrículas de vóxeles [19,40,45]. Más recientemente, varios métodos [9,13,17,28,33,43,46,52] han utilizado grandes conjuntos de datos de múltiples escenas para
entrenar redes profundas que predicen una representación volumétrica muestreada a partir de un conjunto de imágenes de entrada y luego usan composición alfa [34] o composición
aprendida a lo largo de los rayos para generar vistas novedosas en el momento de la prueba. Otros trabajos han optimizado una combinación de redes convolucionales (CNN) y
cuadrículas de vóxeles muestreadas para cada escena específica, de modo que la CNN puede compensar los artefactos de discretización de las cuadrículas de vóxeles de baja resolución
[41] o permitir que las cuadrículas de vóxeles predichas varíen según el tiempo de entrada o controles de animación [24]. Si bien estas técnicas volumétricas han logrado resultados
impresionantes para la síntesis de vistas novedosas, su capacidad para escalar a imágenes de mayor resolución está fundamentalmente limitada por la poca complejidad de tiempo y
espacio debido a su muestreo discreto: la representación de imágenes de mayor resolución requiere un muestreo más fino del espacio 3D. Eludimos este problema codificando en su
lugar un de modo que la CNN pueda compensar los artefactos de discretización de las cuadrículas de vóxeles de baja resolución [41] o permitir que las cuadrículas de vóxeles predichas
varíen según el tiempo de entrada o los controles de animación [24]. Si bien estas técnicas volumétricas han logrado resultados impresionantes para la síntesis de vistas novedosas, su
capacidad para escalar a imágenes de mayor resolución está fundamentalmente limitada por la poca complejidad de tiempo y espacio debido a su muestreo discreto: la representación
de imágenes de mayor resolución requiere un muestreo más fino del espacio 3D. Eludimos este problema codificando en su lugar un de modo que la CNN pueda compensar los
artefactos de discretización de las cuadrículas de vóxeles de baja resolución [41] o permitir que las cuadrículas de vóxeles predichas varíen según el tiempo de entrada o los controles
de animación [24]. Si bien estas técnicas volumétricas han logrado resultados impresionantes para la síntesis de vistas novedosas, su capacidad para escalar a imágenes de mayor
resolución está fundamentalmente limitada por la poca complejidad de tiempo y espacio debido a su muestreo discreto: la representación de imágenes de mayor resolución requiere
un muestreo más fino del espacio 3D. Eludimos este problema codificando en su lugar un su capacidad para escalar a imágenes de mayor resolución está fundamentalmente limitada
por la poca complejidad de tiempo y espacio debido a su muestreo discreto: la representación de imágenes de mayor resolución requiere un muestreo más fino del espacio 3D.
Eludimos este problema codificando en su lugar un su capacidad para escalar a imágenes de mayor resolución está fundamentalmente limitada por la poca complejidad de tiempo y
espacio debido a su muestreo discreto: la representación de imágenes de mayor resolución requiere un muestreo más fino del espacio 3D. Eludimos este problema codificando en su
lugar uncontinuovolumen dentro de los parámetros de una red neuronal profunda totalmente conectada, que no solo produce representaciones de una calidad significativamente mayor que los enfoque
Representamos una escena continua como una función vectorial 5D cuya entrada es
una ubicación 3Dx = (x, y, z) y dirección de visualización 2D (θ, φ), y cuya salida es un
color emitidoc = (r, g, b) y densidad de volumenσ. En la práctica expresamos
NeRF: representación de escenas como campos de radiación neuronal para la síntesis de vistas 5
(x,y,z,θ,ϕ) (RGBσ)
rayo 1 σ
FΘ rayo 1
2
rayo 2
gt
2
σ rayo 2 2
gt
2
Distancia de rayos
Fig. 2: Una descripción general de nuestra representación de escena de campo de radiación neuronal y
procedimiento de representación diferenciable. Sintetizamos imágenes mediante el muestreo de
coordenadas 5D (ubicación y dirección de visualización) a lo largo de los rayos de la cámara (a),
alimentando esas ubicaciones en un MLP para producir una densidad de color y volumen (b), y utilizando
técnicas de representación de volumen para componer estos valores en una imagen ( C). Esta función de
renderizado es diferenciable, por lo que podemos optimizar nuestra representación de la escena
minimizando el residuo entre las imágenes observadas sintetizadas y reales (d).
Nuestro campo de radiación neuronal 5D representa una escena como la densidad de volumen y
la radiación direccional emitida en cualquier punto del espacio. Renderizamos el color de cualquier
rayo que pasa a través de la escena usando los principios de la renderización clásica de volumen
[16]. La densidad de volumenσ(X)puede interpretarse como la probabilidad diferencial de que un
rayo termine en una partícula infinitesimal en la ubicaciónX.El color esperado C(R)de rayo de
cámarar(t) =o +tdcon límites cercanos y lejanostnorteytFes:
∫t F
(∫ t )
C(r) = T(t)σ(r(t))c(r(t),d)dt,dóndeT(t) = exp.− σ(r(s))ds.(1)
tnorte tnorte
Fig. 3: Una visualización de la radiación emitida dependiente de la vista. Nuestra representación de
campo de radiación neuronal genera color RGB como una función 5D de la posición espacial Xy
dirección de visualizaciónd.Aquí, visualizamos distribuciones de color direccionales de ejemplo
para dos ubicaciones espaciales en nuestra representación neuronal delBarcoescena. En (a) y (b),
mostramos la apariencia de dos puntos 3D fijos desde dos posiciones de cámara diferentes: uno
en el costado del barco (recuadros naranjas) y otro en la superficie del agua (recuadros azules).
Nuestro método predice la apariencia especular cambiante de estos dos puntos 3D, y en (c)
mostramos cómo este comportamiento se generaliza continuamente en todo el hemisferio de las
direcciones de visualización.
Fig. 4: Aquí visualizamos cómo nuestro modelo completo se beneficia de representar la radiación emitida
dependiente de la vista y de pasar nuestras coordenadas de entrada a través de una codificación
posicional de alta frecuencia. La eliminación de la dependencia de la vista evita que el modelo recree el
reflejo especular en la banda de rodadura de la excavadora. La eliminación de la codificación posicional
reduce drásticamente la capacidad del modelo para representar la geometría y la textura de alta
frecuencia, lo que da como resultado una apariencia demasiado suavizada.
En la sección anterior, describimos los componentes básicos necesarios para modelar una escena
como un campo de radiación neuronal y generar vistas novedosas a partir de esta representación.
Sin embargo, observamos que estos componentes no son suficientes para lograr una calidad de
punta, como se demuestra en la Sección 6.4). Presentamos dos mejoras para permitir la
representación de escenas complejas de alta resolución. El primero es una codificación posicional
de las coordenadas de entrada que ayuda al MLP a representar funciones de alta frecuencia, y el
segundo es un procedimiento de muestreo jerárquico que nos permite muestrear eficientemente
esta representación de alta frecuencia.
Vector de unidad de dirección de visualización cartesianad (que por construcción se encuentran en [−1,
1]). En nuestros experimentos, establecemosL=10 paraγ(X)yL=4 paraγ(d).
Un mapeo similar se usa en la popular arquitectura Transformer [47], donde se le conoce como
codificación posicional. Sin embargo, los Transformers lo usan para un objetivo diferente de proporcionar
las posiciones discretas de los tokens en una secuencia como entrada a una arquitectura que no contiene
ninguna noción de orden. Por el contrario, usamos estas funciones para mapear coordenadas de entrada
continuas en un espacio dimensional más alto para permitir que nuestro MLP se aproxime más
fácilmente a una función de frecuencia más alta. El trabajo simultáneo en un problema relacionado con el
modelado de estructuras de proteínas en 3D a partir de proyecciones [51] también utiliza un mapeo de
coordenadas de entrada similar.
∑
norteC
Normalizando estos pesos comoŵi=wi/∑Carolina del Norte j=1wjproduce una constante por partes
PDF a lo largo del rayo. Probamos un segundo conjunto denorteFubicaciones de esta distribución
usando muestreo de transformada inversa, evalúe nuestra red "fina" en la unión del primer y
segundo conjunto de muestras, y calcule el color final renderizado del rayo CF(r)usando la Ec. 3
pero usando todosnorteC+norteFmuestras Este procedimiento asigna más muestras a las regiones
que esperamos que tengan contenido visible. Esto aborda un objetivo similar al del muestreo de
importancia, pero usamos los valores muestreados como una discretización no uniforme de todo
el dominio de integración en lugar de tratar cada muestra como una estimación probabilística
independiente de la integral completa.
Optimizamos una red de representación de volumen continuo neuronal separada para cada
escena. Esto requiere solo un conjunto de datos de imágenes RGB capturadas de la escena,
NeRF: representación de escenas como campos de radiación neuronal para la síntesis de vistas 9
las poses de cámara correspondientes y los parámetros intrínsecos, y los límites de la escena
(usamos poses de cámara reales, intrínsecos y límites para datos sintéticos, y usamos el paquete
COLMAP de estructura a partir del movimiento [39] para estimar estos parámetros para datos
reales). En cada iteración de optimización, muestreamos aleatoriamente un lote de rayos de
cámara del conjunto de todos los píxeles en el conjunto de datos y luego seguimos el muestreo
jerárquico descrito en la Sec. 5.2 para consultarnorteCmuestras de la red gruesa ynorteC+norteF
muestras de la red fina. Luego usamos el procedimiento de renderizado de volumen descrito en la
Sec. 4 para reproducir el color de cada rayo de ambos conjuntos de muestras. Nuestra pérdida es
simplemente el error cuadrático total entre los colores de píxeles renderizados y verdaderos para
las representaciones gruesas y finas:
∑[∥ ∥ ∥ ∥ ]
∥ ∥2 ∥ ∥2
L= ∥CC(R)− C(R)∥ + ∥CF(r)− C(R)∥ (6)
2 2
r∈R
6 resultados
Mostramos cuantitativamente (Tablas 1) y cualitativamente (Figs. 8 y 6) que nuestro método
supera el trabajo previo y proporcionamos extensos estudios de ablación para validar
nuestras opciones de diseño (Tabla 2). Instamos al lector a ver nuestro video
complementario para apreciar mejor la mejora significativa de nuestro método con respecto
a los métodos de referencia al generar rutas fluidas de vistas novedosas.
Difuso Sintético 360◦[41] Sintético Realista 360◦ Orientado hacia delante real [28]
Método PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓
SRN [42] 33.20 0.963 0.073 22.26 0.846 0.170 22.84 0.668 0.378
NV [24] 29.62 0.929 0.099 26.05 0.893 0.160 - - -
LLFF [28] 34.38 0.985 0.048 24.88 0.911 0.114 24.13 0.798 0.212
Nuestro 40.15 0.991 0.023 31.01 0.947 0.081 26.50 0.8110.250
Imágenes reales de escenas complejasMostramos los resultados en escenas complejas del mundo
real capturadas con imágenes aproximadamente orientadas hacia adelante (Tabla 1, “Orientación
frontal real”). Este conjunto de datos consta de 8 escenas capturadas con un teléfono celular de
mano (5 tomadas del papel LLFF y 3 que capturamos), capturadas con 20 a 62 imágenes, y
aguantar1/8de estos para el conjunto de prueba. Todas las imágenes son 1008×756 píxeles.
6.2 Comparaciones
Para evaluar nuestro modelo, lo comparamos con las técnicas actuales de mayor rendimiento para la
síntesis de vistas, que se detallan a continuación. Todos los métodos usan el mismo conjunto de vistas de
entrada para entrenar una red separada para cada escena, excepto Local Light Field Fusion [28], que
entrena una sola red convolucional 3D en un gran conjunto de datos, luego usa la misma red entrenada
para procesar imágenes de entrada de nuevos escenas en el momento de la prueba.
Redes de Representación de Escenas (SRN) [42]representar una escena continua como una
superficie opaca, implícitamente definida por un MLP que mapea cada (x, y, z) coordinar a un
vector de características. Entrenan una red neuronal recurrente para avanzar a lo largo de un rayo
a través de la representación de la escena usando el vector de características en cualquier
coordenada 3D para predecir el tamaño del siguiente paso a lo largo del rayo. El vector de
características del paso final se decodifica en un solo color para ese punto en la superficie. Tenga
en cuenta que SRN es un seguimiento con mejor rendimiento de DeepVoxels [41] de los mismos
autores, razón por la cual no incluimos comparaciones con DeepVoxels.
Ground Truth NeRF (nuestro) LLFF [28] SRN [42] NV [24]
Fig. 6: Comparaciones de vistas del conjunto de prueba de escenas del mundo real. LLFF está
diseñado específicamente para este caso de uso (capturas frontales de escenas reales). Nuestro
método es capaz de representar geometría fina de manera más consistente en vistas renderizadas
que LLFF, como se muestra enHelecho's hojas y las costillas del esqueleto y barandilla enTirano
saurio Rex. Nuestro método también reconstruye correctamente regiones parcialmente ocluidas
que LLFF se esfuerza por renderizar limpiamente, como los estantes amarillos detrás de las hojas
en la parte inferior.Helechocultivo y hojas verdes en el fondo del fondoOrquídeacultivo. La
combinación entre múltiples representaciones también puede causar bordes repetidos en LLFF,
como se ve en la parte superiorOrquídeacultivo. SRN captura la geometría de baja frecuencia y la
variación de color en cada escena, pero no puede reproducir ningún detalle fino.
NeRF: representación de escenas como campos de radiación neuronal para la síntesis de vistas 13
Fusión de campo de luz local (LLFF) [28]LLFF está diseñado para producir nuevas vistas
fotorrealistas para escenas frontales bien muestreadas. Utiliza una red convolucional 3D
entrenada para predecir directamente un RGB discretizado con muestreo frustumα cuadrícula
(imagen multiplano o MPI [52]) para cada vista de entrada, luego representa vistas novedosas
mediante composición alfa y combinando MPI cercanos en el punto de vista novedoso.
6.3 Discusión
Superamos ampliamente a ambas líneas de base que también optimizan una red separada por escena
(NV y SRN) en todos los escenarios. Además, producimos representaciones cualitativa y
cuantitativamente superiores en comparación con LLFF (en todas las métricas excepto en una) mientras
usamos solo sus imágenes de entrada como nuestro conjunto de entrenamiento completo.
El método SRN produce geometría y textura muy suavizadas, y su poder de representación
para la síntesis de vista está limitado al seleccionar solo una profundidad y color por rayo de
cámara. La línea de base NV es capaz de capturar una apariencia y geometría volumétrica
razonablemente detallada, pero su uso de un 128 explícito subyacente3La cuadrícula de vóxel
evita que se escale para representar detalles finos en altas resoluciones. LLFF proporciona
específicamente una "pauta de muestreo" para no exceder los 64 píxeles de disparidad entre las
vistas de entrada, por lo que con frecuencia no logra estimar la geometría correcta en los
conjuntos de datos sintéticos que contienen hasta 400-500 píxeles de disparidad entre las vistas.
Además, LLFF combina diferentes representaciones de escenas para generar diferentes vistas, lo
que resulta en una inconsistencia que distrae la percepción, como es evidente en nuestro video
complementario.
Las mayores compensaciones prácticas entre estos métodos son el tiempo frente al espacio. Todos
los métodos de escena única comparados tardan al menos 12 horas en entrenarse por escena. Por el
contrario, LLFF puede procesar un pequeño conjunto de datos de entrada en menos de 10 minutos. Sin
embargo, LLFF produce una gran cuadrícula de vóxeles 3D para cada imagen de entrada, lo que genera
enormes requisitos de almacenamiento (más de 15 GB para una escena "sintética realista"). Nuestro
método requiere solo 5 MB para los pesos de red (una compresión relativa de 3000×en comparación con
LLFF), que es incluso menos memoria que elimágenes de entrada solopara una sola escena de cualquiera
de nuestros conjuntos de datos.
Validamos las opciones de diseño y los parámetros de nuestro algoritmo con un extenso estudio
de ablación en la Tabla 2. Presentamos los resultados en nuestro “Realistic Synthetic 360◦” escenas.
La fila 9 muestra nuestro modelo completo como punto de referencia. La fila 1 muestra una
versión minimalista de nuestro modelo sin codificación posicional (PE), dependencia de vista (VD) o
muestreo jerárquico (H). En las filas 2 a 4, eliminamos estos tres componentes uno por uno del
modelo completo, y observamos que la codificación posicional (fila 2) y la dependencia de la vista
(fila 3) brindan el mayor beneficio cuantitativo seguido por el muestreo jerárquico (fila 4). Las filas
5 y 6 muestran cómo disminuye nuestro rendimiento a medida que se reduce el número de
imágenes de entrada. Tenga en cuenta que el rendimiento de nuestro método con solo 25
imágenes de entrada aún supera NV, SRN y LLFF en todas las métricas cuando se les proporcionan
100 imágenes (consulte el material complementario). En las filas 7 y 8 validamos nuestra elección
de la frecuencia máxima
14 B. Mildenhall, PP Srinivasan, M. Tancik et al.
Ingrese #Im.L(norteC,norteF)PSNR↑SSIM↑LPIPS↓
1) Sin PE, VD, H xyz 100 - (256, - ) 26.67 0.906 0.136
2) Sin pos. Codificación xyzθφ 100 - (64, 128) 28.77 0.924 0.108
3) Sin dependencia de vista xyz 100 10 (64, 128) 27.66 0.925 0.117
4) Sin jerarquía xyzθφ 100 10 (256, -) 30.06 0.938 0.109
5) Muchas menos imágenes xyzθφ 25 10 (64, 128) 27.78 0.925 0.107
6) Menos Imágenes xyzθφ 50 10 (64, 128) 29.79 0.940 0.096
7) Menos frecuencias xyzθφ 100 5 (64, 128) 30.59 0.944 0.088
8) Más frecuencias xyzθφ 100 15 (64, 128) 30.81 0.946 0.096
9) Modelo completo xyzθφ 100 10 (64, 128) 31.01 0.947 0.081
Tabla 2: Un estudio de ablación de nuestro modelo. Las métricas se promedian sobre las 8 escenas de
nuestro conjunto de datos sintéticos realistas. Ver Sec. 6.4 para descripciones detalladas.
Lutilizado en nuestra codificación posicional paraX (la frecuencia máxima utilizada paradse
escala proporcionalmente). Usar solo 5 frecuencias reduce el rendimiento, pero aumentar el
número de frecuencias de 10 a 15 no mejora el rendimiento. Creemos que el beneficio de
aumentarLestá limitado una vez 2Lexcede la frecuencia máxima presente en las imágenes
de entrada muestreadas (aproximadamente 1024 en nuestros datos).
7. Conclusión
Nuestro trabajo aborda directamente las deficiencias de trabajos anteriores que utilizan MLP para
representar objetos y escenas como funciones continuas. Demostramos que la representación de
escenas como campos de radiación neuronal 5D (un MLP que genera densidad de volumen y radiación
emitida dependiente de la vista en función de la ubicación 3D y la dirección de visualización 2D) produce
mejores representaciones que el enfoque dominante anterior de entrenar redes convolucionales
profundas para generar representaciones discretizadas de vóxeles.
Aunque hemos propuesto una estrategia de muestreo jerárquico para hacer que la
representación sea más eficiente (tanto para entrenamiento como para prueba), aún queda
mucho por hacer en la investigación de técnicas para optimizar y representar de manera eficiente
los campos de radiación neuronal. Otra dirección para el trabajo futuro es la interpretabilidad: las
representaciones muestreadas, como mallas y cuadrículas de vóxeles, admiten el razonamiento
sobre la calidad esperada de las vistas renderizadas y los modos de falla, pero no está claro cómo
analizar estos problemas cuando codificamos escenas en los pesos de una red neuronal
profunda. . Creemos que este trabajo avanza hacia una tubería de gráficos basada en imágenes
del mundo real, donde las escenas complejas podrían estar compuestas de campos de radiación
neuronal optimizados a partir de imágenes de objetos y escenas reales.
Mezcla Intercambia usuarios por los modelos utilizados en nuestro conjunto de datos sintéticos
realistas: gregzaal (barco), 1DInc (silla), bryanajones (tambores), Herberhold (ficus), erickfree
(perro caliente), Heinzelnisse (lego), elbrujodelatribu (materiales) y up3d .de (micrófono).
Referencias
1. Abadi, M., Agarwal, A., Barham, P., Brevdo, E., Chen, Z., Citro, C., Corrado,
GS, Davis, A., Dean, J., Devin, M., Ghemawat, S., Goodfellow, I., Harp, A., Irving, G.,
Isard, M., Jia, Y., Jozefowicz, R ., Kaiser, L., Kudlur, M., Levenberg, J., Mané, D.,
Monga, R., Moore, S., Murray, D., Olah, C., Schuster, M., Shlens, J ., Steiner, B.,
Sutskever, I., Talwar, K., Tucker, P., Vanhoucke, V., Vasudevan, V., Viégas, F.,
Vinyals, O., Warden, P., Wattenberg, M ., Wicke, M., Yu, Y., Zheng, X.: TensorFlow:
aprendizaje automático a gran escala en sistemas heterogéneos (2015)
2. Buehler, C., Bosse, M., McMillan, L., Gortler, S., Cohen, M.: Representación de lumigrafía
no estructurada. En: SIGGRAPH (2001)
3. Chang, AX, Funkhouser, T., Guibas, L., Hanrahan, P., Huang, Q., Li, Z., Savarese, S.,
Savva, M., Song, S., Su, H. , et al .: Shapenet: un repositorio de modelos 3D rico en
información. arXiv:1512.03012 (2015)
4. Chen, W., Gao, J., Ling, H., Smith, EJ, Lehtinen, J., Jacobson, A., Fidler, S.: Aprendiendo a
predecir objetos 3D con un renderizador diferenciable basado en interpolación.
En: NeurIPS (2019)
5. Cohen, M., Gortler, SJ, Szeliski, R., Grzeszczuk, R., Szeliski, R.: La lumigrafía. En:
SIGGRAPH (1996)
6. Curless, B., Levoy, M.: Un método volumétrico para construir modelos complejos a partir de
imágenes de rango. En: SIGGRAPH (1996)
7. Davis, A., Levoy, M., Durand, F.: Campos de luz no estructurados. En: Eurographics (2012)
8. Debevec, P., Taylor, CJ, Malik, J.: Modelado y renderizado de arquitectura a partir de
fotografías: un enfoque híbrido basado en geometría e imágenes. En: SIGGRAPH (1996)
9. Flynn, J., Broxton, M., Debevec, P., DuVall, M., Fyffe, G., Overbeck, R., Snavely,
N., Tucker, R.: DeepView: síntesis de vista con descenso de gradiente aprendido. En: CVPR
(2019)
10. Genova, K., Cole, F., Maschinot, A., Sarna, A., Vlasic, D., Freeman, WT: Entrenamiento no
supervisado para la regresión del modelo morphable en 3D. En: CVPR (2018)
11. Genova, K., Cole, F., Sud, A., Sarna, A., Funkhouser, T.: funciones implícitas profundas
locales para la forma 3d. En: CVPR (2020)
12. Henzler, P., Mitra, NJ, Ritschel, T.: Aprendiendo un espacio de textura neural 3D a partir de
ejemplos 2D. En: CVPR (2020)
13. Henzler, P., Rasche, V., Ropinski, T., Ritschel, T.: tomografía de imagen única: volúmenes
3d de radiografías craneales 2d. En: Eurographics (2018)
14. Hornik, K., Stinchcombe, M., White, H.: Las redes de avance multicapa son
aproximadores universales. Redes neuronales (1989)
15. Jiang, C., Sud, A., Makadia, A., Huang, J., Nießner, M., Funkhouser, T.: Representaciones de
cuadrículas implícitas locales para escenas en 3D. En: CVPR (2020)
16. Kajiya, JT, Herzen, BPV: densidades de volumen de trazado de rayos. Gráficos por computadora
(SIGGRAPH) (1984)
17. Kar, A., Häne, C., Malik, J.: Aprendizaje de una máquina estéreo multivista. En: NeurIPS
(2017)
18. Kingma, DP, Ba, J.: Adam: Un método para la optimización estocástica. En: ICLR
(2015)
dieciséis B. Mildenhall, PP Srinivasan, M. Tancik et al.
19. Kutulakos, KN, Seitz, SM: Una teoría de la forma por la talla del espacio. Revista
internacional de visión artificial (2000)
20. Levoy, M.: Trazado de rayos eficiente de datos de volumen. Transacciones de ACM en gráficos (1990)
21. Levoy, M., Hanrahan, P.: representación de campo de luz. En: SIGGRAPH (1996)
22. Li, TM, Aittala, M., Durand, F., Lehtinen, J.: Trazado de rayos de Monte Carlo diferenciable a
través del muestreo de bordes. Transacciones de ACM en gráficos (SIGGRAPH Asia) (2018)
23. Liu, S., Li, T., Chen, W., Li, H.: Rasterizador suave: un renderizador diferenciable para el razonamiento
3D basado en imágenes. En: ICCV (2019)
24. Lombardi, S., Simon, T., Saragih, J., Schwartz, G., Lehrmann, A., Sheikh, Y.: Volúmenes
neuronales: aprendizaje de volúmenes renderizables dinámicos a partir de imágenes.
Transacciones de ACM en gráficos (SIGGRAPH) (2019)
25. Loper, MM, Black, MJ: OpenDR: un renderizador diferenciable aproximado. En:
ECCV (2014)
26. Max, N.: Modelos ópticos para renderizado de volumen directo. Transacciones IEEE sobre
visualización y gráficos por computadora (1995)
27. Mescheder, L., Oechsle, M., Niemeyer, M., Nowozin, S., Geiger, A.: Redes de ocupación:
Aprendizaje de la reconstrucción 3D en el espacio funcional. En: CVPR (2019)
28. Mildenhall, B., Srinivasan, PP, Ortiz-Cayon, R., Kalantari, NK, Ramamoorthi,
R., Ng, R., Kar, A.: Fusión de campo de luz local: síntesis de vista práctica con pautas de
muestreo prescriptivas. Transacciones de ACM en gráficos (SIGGRAPH) (2019)
29. Niemeyer, M., Mescheder, L., Oechsle, M., Geiger, A.: Representación volumétrica
diferenciable: Aprendizaje de representaciones 3D implícitas sin supervisión 3D. En:
CVPR (2019)
30. Nimier-David, M., Vicini, D., Zeltner, T., Jakob, W.: Mitsuba 2: un renderizador
directo e inverso redirigible. Transacciones de ACM en gráficos (SIGGRAPH Asia)
(2019)
31. Oechsle, M., Mescheder, L., Niemeyer, M., Strauss, T., Geiger, A.: Campos de textura:
Aprendizaje de representaciones de textura en el espacio funcional. En: ICCV (2019)
32. Park, JJ, Florence, P., Straub, J., Newcombe, R., Lovegrove, S.: DeepSDF: Aprendizaje de
funciones de distancia con signo continuo para la representación de formas. En: CVPR (2019)
33. Penner, E., Zhang, L.: Reconstrucción 3D suave para síntesis de vista. Transacciones de
ACM en gráficos (SIGGRAPH Asia) (2017)
34. Porter, T., Duff, T.: Composición de imágenes digitales. Gráficos por computadora (SIG-
GRAPH) (1984)
35. Rahaman, N., Baratin, A., Arpit, D., Dräxler, F., Lin, M., Hamprecht, FA, Bengio, Y.,
Courville, AC: Sobre el sesgo espectral de las redes neuronales. En: ICML (2018)
36. Rainer, G., Ghosh, A., Jakob, W., Weyrich, T.: Codificación neuronal unificada de BTF. Foro de
gráficos por computadora (Eurographics) (2020)
37. Rainer, G., Jakob, W., Ghosh, A., Weyrich, T.: Interpolación y compresión neuronal
BTF. Foro de gráficos por computadora (Eurographics) (2019)
38. Ren, P., Wang, J., Gong, M., Lin, S., Tong, X., Guo, B.: iluminación global con funciones de
regresión de radiación. Transacciones de ACM en gráficos (2013)
39. Schönberger, JL, Frahm, JM: Revisión de la estructura a partir del movimiento. En: CVPR (2016)
40. Seitz, SM, Dyer, CR: Reconstrucción fotorrealista de escenas mediante coloración de vóxeles.
Revista internacional de visión artificial (1999)
41. Sitzmann, V., Thies, J., Heide, F., Nießner, M., Wetzstein, G., Zollhöfer, M.: Deepvoxels:
aprendizaje de incrustaciones persistentes de características 3D. En: CVPR (2019)
42. Sitzmann, V., Zollhoefer, M., Wetzstein, G.: Redes de representación de escenas: representaciones de
escenas neuronales conscientes de la estructura 3D continuas. En: NeurIPS (2019)
NeRF: representación de escenas como campos de radiación neuronal para la síntesis de vistas 17
43. Srinivasan, PP, Tucker, R., Barron, JT, Ramamoorthi, R., Ng, R., Snavely, N.:
Ampliando los límites de la extrapolación de vistas con imágenes multiplano. En:
CVPR (2019)
44. Stanley, KO: Redes de producción de patrones de composición: una abstracción novedosa del
desarrollo. Programación genética y máquinas evolutivas (2007)
45. Szeliski, R., Golland, P.: Coincidencia estéreo con transparencia y matización. En: ICCV
(1998)
46. Tulsiani, S., Zhou, T., Efros, AA, Malik, J.: Supervisión de vista múltiple para la reconstrucción de vista
única a través de la consistencia de rayos diferenciable. En: CVPR (2017)
47. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gómez, AN, Kaiser,
L., Polosukhin, I.: Todo lo que necesitas es atención. En: NeurIPS (2017)
48. Waechter, M., Moehrle, N., Goesele, M.: ¡Que haya color! Texturizado a gran escala de
reconstrucciones 3D. En: ECCV (2014)
49. Wood, DN, Azuma, DI, Aldinger, K., Curless, B., Duchamp, T., Salesin, DH, Stuetzle,
W.: Campos de luz superficial para fotografía en 3D. En: SIGGRAPH (2000)
50. Zhang, R., Isola, P., Efros, AA, Shechtman, E., Wang, O.: La efectividad irrazonable de las
características profundas como métrica de percepción. En: CVPR (2018)
51. Zhong, ED, Bepler, T., Davis, JH, Berger, B.: Reconstrucción de distribuciones continuas de
estructuras de proteínas 3D a partir de imágenes crio-EM. En: ICLR (2020)
52. Zhou, T., Tucker, R., Flynn, J., Fyffe, G., Snavely, N.: Ampliación estéreo: Síntesis de vista
de aprendizaje utilizando imágenes multiplano. Transacciones de ACM en gráficos (SIG-
GRAPH) (2018)
Límites de volumenNuestro método genera vistas consultando la representación del campo de radiación
neuronal en coordenadas 5D continuas a lo largo de los rayos de la cámara. Para experimentos con
imágenes sintéticas, escalamos la escena para que quede dentro de un cubo de longitud de lado 2
centrado en el origen, y solo consultamos la representación dentro de este volumen delimitador. Nuestro
conjunto de datos de imágenes reales contiene contenido que puede existir en cualquier lugar entre el
punto más cercano y el infinito, por lo que usamos coordenadas de dispositivo normalizadas para
mapear el rango de profundidad de estos puntos en [−1,1]. Esto cambia todos los orígenes de los rayos al
plano cercano de la escena, asigna los rayos de perspectiva de la cámara a rayos paralelos en el volumen
transformado y utiliza la disparidad (profundidad inversa) en lugar de la profundidad métrica, por lo que
ahora todas las coordenadas están limitadas.
KYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlNVojHSCKsTV01U4K7/OVV4p23rlvO/UWjfVO2UQXH4A<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlNVojHSCKsTV01U4K7/OVV4p23rlvO/UWjfVO2UQXH4A<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlNVojHSCKsTV01U4K7/OVV4p23rlvO/UWjfVO2UQXH4A<latexitsha1_base64="C39OhB+IczRcjLNINXH2YX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlNVojHSCKsTV01U4K7/OVV4p23rlvO/UWjfVO2UQXH4A<latexitsha1_base64="hQhj+CULGdG3QS0LVa1KYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlNVojHSCKsTV01U4K7/OVV4p23rlvO/UWjfVO2UQXH4A<latexitsha1_base64="hQhj+CULGdG3QS0LVa1KM6HtC1M=">AAAB+nicbVA9T8MwFHzhs5SvUEaWiAqpLFXKAmwVLIxFIrRSE1WO67RWbSeyHdQqyl9hYQDEyi9h49/gtBmg5SRLp7v39M4XJowq7brf1tr6xubWdmWnuru3f3BoH9UeVZxKTDwcs1j2QqQIo4J4mmpGeokkiIeMdMPJbeF3n4hUNBYPepaQgKORoBHFSBtpYNf8EeIcNXyO9DiMsml+PrDrbtOdw1klrZLUoURnYH/5wxinnAiNGVKq33ITHWRIaooZyat+qkiC8ASNSN9QgThRQTbPnjtnRhk6USzNE9qZq783MsSVmvHQTBYR1bJXiP95/VRHV0FGRZJqIvDiUJQyR8dOUYQzpJJgzWaGICypyergMZIIa1NX1ZTQWv7yKvEumtdN996tt2/KNipwAq<latexitsha1_base64="Wrp6sfGRkT1YIiwCAWhsRUGPisw=">AAAB73icbVA9T8MwFHwpX6UUCF1ZLCqkslQJC7AhsTAWidBKbVQ5rtNatZ3IdlCrKH+FhQEQ/4aNf4PTdoCWkyyd7t7TO1+UcqaN5307la3tnd296n7toH54dOye1J90kilCA5LwRPUirClnkgaGGU57qaJYRJx2o+ld6XefqdIskY9mntJQ4LFkMSPYWGnoNgZjLARuDQQ2kyjOZ8XF0G16bW8BtEn8FWnCCp2h+zUYJSQTVBrCsdZ930tNmGNlGOG0qA0yTVNMpnhM+5ZKLKgO80X2Ap1bZYTiRNknDVqovzdyLLSei8hOlhH1uleK/3n9zMTXYc5kmhkqyfJQnHFkElQWgUZMUWL43BJMFLNZEZlghYmxddVsCf76lzdJcNm+aXsPHlThFM6gBT5cwS<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKRUGPisw=">AAAB73icbVA9T8MwFHwpX6UUCF1ZLCqkslQJC7AhsTAWidBKbVQ5rtNatZ3IdlCrKH+FhQEQ/4aNf4PTdoCWkyyd7t7TO1+UcqaN5307la3tnd296n7toH54dOye1J90kilCA5LwRPUirClnkgaGGU57qaJYRJx2o+ld6XefqdIskY9mntJQ4LFkMSPYWGnoNgZjLARuDQQ2kyjOZ8XF0G16bW8BtEn8FWnCCp2h+zUYJSQTVBrCsdZ930tNmGNlGOG0qA0yTVNMpnhM+5ZKLKgO80X2Ap1bZYTiRNknDVqovzdyLLSei8hOlhH1uleK/3n9zMTXYc5kmhkqyfJQnHFkElQWgUZMUWL43BJMFLNZEZlghYmxddVsCf76lzdJcNm+aXsPHlThFM6gBT5cwS<latexitsha1_base64="6F05rQ6IIUhALFsWYUmK9e9lt8M=">AAAB2HicbZDNSgMxFIXv1L86Vq1rN8EiuCpTN+pOcOOygmML7VAymTttaCYzJHeEMvQFXLhRfDB3vo3pz0KtBwIf5yTk3hMXSloKgi+vtrW9s7tX3/cPGv7h0XGz8WTz0ggMRa5y04+5RSU1hiRJYb8wyLNYYS+e3i3y3jMaK3P9SLMCo4yPtUyl4OSs7qjZCtrBUmwTOmtowVqj5ucwyUWZoSahuLWDTlBQVHFDUiic+8PSYsHFlI9x4FDzDG1ULcecs3PnJCzNjTua2NL9+aLimbWzLHY3M04T+zdbmP9lg5LS66iSuigJtVh9lJaKUc4WO7NEGhSkZg64MNLNysSEGy7INeO7Djp/N96E8LJ90w4eAqjDKZzBBXTgCm7hHroQgoAEXuDNm3iv3vuqqp<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlNVojHSCKsTV01U4K7/OVV4p23rlvO/UWjfVO2UQXH4A<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlNVojHSCKsTV01U4K7/OVV4p23rlvO/UWjfVO2UQXH4A<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlNVojHSCKsTV01U4K7/OVV4p23rlvO/UWjfVO2UQXH4A
(X)
60
256
256
256
256
CvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlN<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlN<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlN<latexitsha1_base64="C39OhB+IczRcjLNINXH29e9lt8M=">AAAB2HicbZDNSgMxFIXv1L86Vq1rN8EivIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlN<latexitsha1_base64="hQhj+CULGdG3QS0LVa1KRUGPisw=">AAAB73icbVA9T8MwFHwpX6UUCF1ZLCqkvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlN<latexitsha1_base64="hQhj+CULGdG3QS0LVa1KRUGPisw=">AAAB73icbVA9T8MwFHwpX6UUCF1ZLCqkLFXKAmwVLIxFIrRSE1WO67RWbSeyHdQqyl9hYQDEyi9h49/gtBmg5SRLp7v39M4XJowq7brf1tr6xubWdmWnuru3f3BoH9UeVZxKTDwcs1j2QqQIo4J4mmpGeokkiIeMdMPJbeF3n4hUNBYPepaQgKORoBHFSBtpYNf8EeIcNXyO9DiMsml+PrDrbtOdw1klrZLUoURnYH/5wxinnAiNGVKq33ITHWRIaooZyat+qkiC8ASNSN9QgThRQTbPnjtnRhk6USzNE9qZq783MsSVmvHQTBYR1bJXiP95/VRHV0FGRZJqIvDiUJQyR8dOUYQzpJJgzWaGICyp<latexitsha1_base64="Wrp6sfGRkT1YIiwCAWhsM6HtC1M=">AAAB+nicbVA9T8MwFHzhs5SvUEaWiAqpslQJC7AhsTAWidBKbVQ5rtNatZ3IdlCrKH+FhQEQ/4aNf4PTdoCWkyyd7t7TO1+UcqaN5307la3tnd296n7toH54dOye1J90kilCA5LwRPUirClnkgaGGU57qaJYRJx2o+ld6XefqdIskY9mntJQ4LFkMSPYWGnoNgZjLARuDQQ2kyjOZ8XF0G16bW8BtEn8FWnCCp2h+zUYJSQTVBrCsdZ930tNmGNlGOG0qA0yTVNMpnhM+5ZKLKgO80X2Ap1bZYTiRNknDVqovzdyLLSei8hOlhH1uleK/3n9zMTXYc5kmhkqyfJQnHFkElQWgUZMUWL43BJMFLNZ<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCslQJC7AhsTAWidBKbVQ5rtNatZ3IdlCrKH+FhQEQ/4aNf4PTdoCWkyyd7t7TO1+UcqaN5307la3tnd296n7toH54dOye1J90kilCA5LwRPUirClnkgaGGU57qaJYRJx2o+ld6XefqdIskY9mntJQ4LFkMSPYWGnoNgZjLARuDQQ2kyjOZ8XF0G16bW8BtEn8FWnCCp2h+zUYJSQTVBrCsdZ930tNmGNlGOG0qA0yTVNMpnhM+5ZKLKgO80X2Ap1bZYTiRNknDVqovzdyLLSei8hOlhH1uleK/3n9zMTXYc5kmhkqyfJQnHFkElQWgUZMUWL43BJMFLNZ<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCuCpTN+pOcOOygmML7VAymTttaCYzJHeEMvQFXLhRfDB3vo3pz0KtBwIf5yTk3hMXSloKgi+vtrW9s7tX3/cPGv7h0XGz8WTz0ggMRa5y04+5RSU1hiRJYb8wyLNYYS+e3i3y3jMaK3P9SLMCo4yPtUyl4OSs7qjZCtrBUmwTOmtowVqj5ucwyUWZoSahuLWDTlBQVHFDUiic+8PSYsHFlI9x4FDzDG1ULcecs3PnJCzNjTua2NL9+aLimbWzLHY3M04T+zdbmP9lg5LS66iSuigJtVh9lJaKUc4WO7NEGhSkZg64MNLNysSEGy7INeO7Djp/N96E8LJ9<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlN<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlN<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlN
(X)
+
60
256
256
(d)
se pasa a través de 8 capas ReLU totalmente conectadas, cada una con 256 canales.
esta entrada a la activación de la quinta capa. Una capa adicional genera la densidad de
vectores de salida se muestran en rojo y el número dentro de cada bloque representa la
El conjunto de datos requiere 640 000 rayos por imagen y nuestras escenas reales requieren 762 000
de entrada se muestran en verde, las capas ocultas intermedias se muestran en azul, los
Seguimos la arquitectura DeepSDF [32] e incluimos una conexión de salto que concatena
rayos por imagen, lo que da como resultado entre 150 y 200 millones de consultas de red por imagen
flechas negras indican capas con activaciones ReLU, las flechas naranjas indican capas sin
dimensión del vector. Todas las capas son capas estándar completamente conectadas, las
entrada (γ(d)), y es procesado por una capa ReLU adicional completamente conectada con
128 canales. Una capa final (con una activación sigmoidea) genera la radiación RGB emitida
Redes de Representación de Escenas (SRN) [42]Usamos el código SRN abierto por los
NeRF: representación de escenas como campos de radiación neuronal para la síntesis de vistas 19
-norte -
r 0 0 0
-0 t norte
0 0 -
METRO=
-0- 0−(F+norte)−2fn- - (7)
f−n f−n
0 0−1 0
dóndenorte, fson los planos de recorte cercano y lejano yrytson los límites derecho y superior de
la escena en el plano de recorte cercano. (Tenga en cuenta que esto es en la convención donde la
cámara está mirando en el−zdirección.) Para proyectar un punto homogéneo (x, y, z,1)>,
multiplicamos a la izquierda por M y luego dividimos por la cuarta coordenada:
-norte -- - - -
0 0 0 X rX
norte
r
-0 t 0 0 -- - - -
= --−(F+norte) zty-−2fn
norte norte
t-z
2fn1
(F+norte)
f−n − f-n-z
- -
aX ooXz++td
tdX
z -
- -
- o′X+td′ ′ X
-aoy+tdy - - = -o′ y+td′- y
′
. (10)
- yoz+tdz
oz′+t′d′ z
az+oz+tdzbz
- -
- - oX+tdX
axoz+tdz − aX ooXz
t′d′X - -
aoy+tdy -
-t′d′- y =-
- yoz+tdz − ay ooyz - (12)
t′d′z
az+oz+tdzbz − az − bz
oz
- -
aX oz(oX+td(Xo)z−oX(oz+tdz)
+tdz)oz
- -
- oz(oy+tdy)−oy(oz+tdz)-
= -ay - (13)
- (oz+tdz)oz
-
bz o(zo−z(+otd
z+tdz)
z)oz
- ( )-
tdz dX−oX
- axoz+tdz (
dz oz
)-
- -
= -a tdz dy
− oy - (14)
-yoz+tdz dz oz -
tdz 1
- segundozoz+tdzoz
tdz oz
t′= = 1− (15)
oz+tdz oz+tdz
- ( )-
dX
aX dz − oX
oz)-
- (
- -
d′= - dy
− oy -.
-ay
(dieciséis)
dz oz -
1
- segundozoz
NeRF: representación de escenas como campos de radiación neuronal para la síntesis de vistas 21
Tenga en cuenta que, como se desee,t′=0 cuandot=0. Además, vemos quet′→1 como t
→∞. Volviendo a la matriz de proyección original, nuestras constantes son:
norte
aX=− (17)
r
norte
ay=− (18)
t
F+norte
az= (19)
f-n
2fn
bz= (20)
f-n
Fleva
aX=− (21)
con2
Fleva
ay=− (22)
H/2
az=1 (23)
bz=2norte (24)
Fig. 8: Comparaciones en vistas de conjuntos de prueba para escenas del conjunto de datos
sintéticos DeepVoxels [41]. Los objetos en este conjunto de datos tienen una geometría simple y
una reflectancia perfectamente difusa. Debido a la gran cantidad de imágenes de entrada (479
vistas) y la simplicidad de los objetos renderizados, tanto nuestro método como LLFF [28]
funcionan casi a la perfección con estos datos. LLFF todavía presenta ocasionalmente artefactos al
interpolar entre sus volúmenes 3D, como en el recuadro superior de cada objeto. SRN [42] y NV
[24] no tienen el poder de representación para brindar detalles finos.
D Resultados adicionales
Voxeles profundos [41] 33.45 32.35 28.42 27.99 0.99 0.97 0.97 0.96 − − − −
SRN [42] 36.67 35.91 28.74 31.46 35.15 36 0.982 0.957 0.944 0.969 0.093 0.081 0.074 0.044
NV [24] .47 26.48 20.39 36.11 35.87 32. 0.980 0.963 0.916 0.857 0.096 0.069 0.113 0.117
LLFF [28] 58 32.97 42.65 41.44 39.19 37.32 0.992 0.983 0.983 0.983 0.051 0.039 0.064 0.039
Nuestro 0.991 0.986 0.996 0.992 0.047 0.024 0.006 0.017
Tabla 3: Resultados cuantitativos por escena del conjunto de datos DeepVoxels [41]. Las
"escenas" en este conjunto de datos son todos objetos difusos con geometría simple,
renderizados a partir de mallas mapeadas con textura capturadas por un escáner 3D. Las
métricas para el método DeepVoxels se toman directamente de su papel, que no informa
LPIPS y solo informa dos cifras significativas para SSIM.
PSNR↑
Silla Tambores Ficus Materiales de Lego para perritos calientes Micrófono Barco
SRN [42] 26.96 17.18 20.73 26.81 20.85 18.09 26.85 20.60 24.
NV [24] 28.33 22.58 24.79 30.71 26.08 22 27.78 23.93
LLFF [28] 28.72 21.13 21.79 31.41 24.54 20.72 27.48 23.22
Nuestro 33.00 25.01 30.13 36.18 32.54 29.62 32.91 28.sesenta y cinco
SSIM↑
Silla Tambores Ficus Hotdog Lego Materiales Micrófono Barco
SRN [42] 0.910 0.766 0.849 0.923 0.809 0.808 0.947 0.757
NV [24] 0.916 0.873 0.910 0.944 0.880 0.888 0.946 0.784
LLFF [28] 0.948 0.890 0.896 0.965 0.911 0.890 0.964 0.823
Nuestro 0.967 0.925 0.964 0.974 0.961 0.949 0.980 0.856
LPIPS↓
Silla Tambores Ficus Hotdog Lego Materiales Micrófono Barco
SRN [42] 0.106 0.267 0.149 0.100 0.200 0.174 0.063 0.299
NV [24] 0.109 0.214 0.162 0.109 0.175 0.130 0.107 0.276
LLFF [28] 0.064 0.126 0.130 0.061 0.110 0.117 0.084 0.218
Nuestro 0.046 0.091 0.044 0.121 0.050 0.063 0.028 0.206
Tabla 4: Resultados cuantitativos por escena de nuestro conjunto de datos sintéticos realistas. Las
"escenas" en este conjunto de datos son todos objetos con gometría más compleja y materiales que no
son Lambertianos, renderizados usando el trazador de rutas Cycles de Blender.
24 B. Mildenhall, PP Srinivasan, M. Tancik et al.
PSNR↑
Hojas Fortaleza Orquídeas Flor T-Rex Cuernos
habitación helecho
SRN [42] 27.29 21.37 18.24 26.63 17.37 24.63 22.87 24.33
LLFF [28] 28.42 22.85 19.52 29.40 18.52 25.46 24.15 24.70
Nuestro 32.70 25.17 20.92 31.16 20.36 27.40 26.80 27.45
SSIM↑
Habitación Hojas Fortaleza Orquídeas Flor T-Rex Cuernos
Helecho
SRN [42] 0.883 0.611 0.520 0.641 0.449 0.738 0.761 0.742
LLFF [28] 0.932 0.7530.697 0.872 0.588 0.844 0.8570.840
Nuestro 0.948 0.7920.690 0.881 0.641 0.827 0.8800.828
LPIPS↓
Habitación Hojas Fortaleza Orquídeas Flor T-Rex Cuernos
Helecho
SRN [42] 0.240 0.459 0.440 0.453 0.467 0.288 0.298 0.376
LLFF [28]0.155 0.247 0.216 0.173 0.313 0.174 0.222 0.193 0.
Nuestro 0.178 0.280 0.316 0.171 0.321 219 0.249 0.268
Tabla 5: Resultados cuantitativos por escena de nuestro conjunto de datos de imágenes reales. Todas las escenas
en este conjunto de datos se capturaron con un teléfono celular de mano orientado hacia adelante.
NeRF: representación de escenas como campos de radiación neuronal para la síntesis de vistas 25
PSNR↑
Silla Tambores Ficus Hotdog Lego Materiales Barco
Micrófono
1) Sin PE, VD, H 28.44 23.11 25.17 32.24 26.38 24.69 28.16 25.12 30.33
2) Sin pos. Codificación 24.54 29.32 33.16 27.75 27.79 30.76 26.55 23.41 25.91 32.
3) Sin dependencia de vista 30.06 65 29.93 24.96 28.62 25.72
4) Sin jerarquía 31.32 24.55 29.25 35.24 31.42 29.22 31.74 27.73
5) Muchas menos imágenes 30.92 22.62 24.39 32.77 27.97 26.55 30.47 26.57 32.19 23.70 27.45
6) Menos Imágenes 34.91 31.53 28.54 32.33 27.67
7) Menos frecuencias 32.1925.29 30.73 36.06 30.77 29.77 31.66 28.26
8) Más frecuencias 32.87 24.65 29.92 35.78 32.50 29.54 32.86 28.34
9) Modelo completo 33.0025.01 30.1336.18 32.5429.62 32.91 28.sesenta y cinco
SSIM↑
Silla Tambores Ficus Hotdog Lego Materiales Micrófono Barco
1) Sin PE, VD, H 0.919 0.896 0.926 0.955 0.882 0.938 0. 0.905 0.955 0.810
2) Sin pos. Codificación 918 0.953 0.956 0.903 0.948 0.906 0.938 0.933 0.968 0.824
3) Sin dependencia de vista 0.961 0.947 0.951 0.914 0.956 0.969 0. 0.912 0.962 0.828
4) Sin jerarquía 951 0.944 0.973 0.844
5) Muchas menos imágenes 0.956 0.895 0.922 0.966 0.930 0.963 0. 0.925 0.972 0.832
6) Menos Imágenes 911 0.948 0.971 0.957 0.941 0.979 0.847
7) Menos frecuencias 0.9590.928 0.965 0.972 0.947 0.952 0.973 0.853
8) Más frecuencias 0.967 0.921 0.962 0.973 0.961 0.948 0.980 0.853
9) Modelo completo 0.9670.925 0.9640.974 0.961 0.949 0.980 0.856
LPIPS↓
Silla Tambores Ficus Hotdog Lego Materiales Micrófono Barco
1) Sin PE, VD, H 0.095 0.168 0.084 0.104 0.178 0.076 0. 0.111 0.084 0.261
2) Sin pos. Codificación 104 0.050 0.124 0.128 0.075 0.148 0.113 0.079 0.041 0.261
3) Sin dependencia de vista 0.112 0.088 0.065 0.177 0.056 0.130 0. 0.102 0.073 0.220
4) Sin jerarquía 072 0.080 0.039 0.249
5) Muchas menos imágenes 0.058 0.173 0.082 0.123 0.081 0.051 0. 0.079 0.035 0.229
6) Menos Imágenes 166 0.057 0.121 0.055 0.068 0.029 0.223
7) Menos frecuencias 0.055 0.1430.038 0.0870.071 0.060 0.029 0.219
8) Más frecuencias 0.047 0.158 0.045 0.116 0.050 0.064 0.027 0.261
9) Modelo completo 0.046 0.0910.044 0.121 0.050 0.063 0.028 0.206
Tabla 6: Resultados cuantitativos por escena de nuestro estudio de ablación. Las escenas utilizadas aquí
son las mismas que en la Tabla 4.