Está en la página 1de 25

Traducido del inglés al español - www.onlinedoctranslator.

com

NeRF: representación de escenas como campos


arXiv:2003.08934v2 [cs.CV] 3 de agosto de 2020
de radiación neuronal para la síntesis de vistas

ben mildenhall1? Pratul P. Srinivasan1? Mateo Tancik1?


Jonathan T. Barrón2 Ravi Ramamoorthi3 Ren Ng1

1UC Berkeley 2Investigación de Google 3Universidad de California en San Diego

Abstracto.Presentamos un método que logra resultados de vanguardia para sintetizar vistas


novedosas de escenas complejas mediante la optimización de una función de escena
volumétrica continua subyacente utilizando un conjunto disperso de vistas de entrada. Nuestro
algoritmo representa una escena utilizando una red profunda (no convolucional)
completamente conectada, cuya entrada es una sola coordenada 5D continua (ubicación
espacial (x, y, z) y la dirección de visualización (θ, φ)) y cuya salida es la densidad de volumen y
la radiancia emitida dependiente de la vista en esa ubicación espacial. Sintetizamos vistas
consultando coordenadas 5D a lo largo de los rayos de la cámara y usamos técnicas clásicas de
representación de volumen para proyectar los colores y densidades de salida en una imagen.
Debido a que la representación de volumen es naturalmente diferenciable, la única entrada
requerida para optimizar nuestra representación es un conjunto de imágenes con poses de
cámara conocidas. Describimos cómo optimizar de manera eficaz los campos de radiación
neuronal para generar vistas novedosas fotorrealistas de escenas con geometría y apariencia
complicadas, y demostramos resultados que superan el trabajo previo en la representación
neuronal y la síntesis de vistas. Los resultados de la síntesis de vista se ven mejor como videos,
por lo que instamos a los lectores a ver nuestro video complementario para realizar
comparaciones convincentes.

Palabras clave:representación de escenas, síntesis de vistas, representación basada en imágenes,


representación de volumen, aprendizaje profundo en 3D

1. Introducción

En este trabajo, abordamos el problema de larga data de la síntesis de vista de una nueva manera
mediante la optimización directa de los parámetros de una representación de escena 5D continua para
minimizar el error de renderizar un conjunto de imágenes capturadas.
Representamos una escena estática como una función 5D continua que genera la
radiación emitida en cada dirección (θ, φ) en cada punto (x, y, z) en el espacio, y una
densidad en cada punto que actúa como una opacidad diferencial que controla la cantidad
de radiación acumulada por un rayo que pasa a través de (x, y, z). Nuestro método optimiza
una red neuronal profunda totalmente conectada sin ninguna capa convolucional (a
menudo denominada perceptrón multicapa o MLP) para representar esta función mediante
la regresión desde una sola coordenada 5D (x, y, z, θ, φ) a una sola densidad de volumen y
color RGB dependiente de la vista. para hacer estocampo de radiación neural(NeRF)

?Los autores contribuyeron igualmente a este trabajo.


2 B. Mildenhall, PP Srinivasan, M. Tancik et al.

Imágenes de entrada Optimizar NeRF Renderizar nuevas vistas

Fig. 1: Presentamos un método que optimiza una representación continua del campo de radiación
neuronal 5D (densidad de volumen y color dependiente de la vista en cualquier ubicación continua) de
una escena a partir de un conjunto de imágenes de entrada. Usamos técnicas de renderizado de volumen
para acumular muestras de esta representación de escena a lo largo de los rayos para renderizar la
escena desde cualquier punto de vista. Aquí, visualizamos el conjunto de 100 vistas de entrada del
sintéticoBateríaescena capturada aleatoriamente en un hemisferio circundante, y mostramos dos vistas
novedosas renderizadas a partir de nuestra representación NeRF optimizada.

desde un punto de vista particular: 1) hacemos avanzar los rayos de la cámara a través de la
escena para generar un conjunto de muestra de puntos 3D, 2) usamos esos puntos y sus
correspondientes direcciones de visualización 2D como entrada a la red neuronal para producir un
conjunto de salida de colores y densidades, y 3) usar técnicas clásicas de representación de
volumen para acumular esos colores y densidades en una imagen 2D. Debido a que este proceso
es naturalmente diferenciable, podemos usar el descenso de gradiente para optimizar este
modelo al minimizar el error entre cada imagen observada y las vistas correspondientes
generadas desde nuestra representación. Minimizar este error en múltiples vistas anima a la red a
predecir un modelo coherente de la escena mediante la asignación de altas densidades de
volumen y colores precisos a las ubicaciones que contienen el verdadero contenido subyacente de
la escena. La figura 2 visualiza esta canalización general.
Encontramos que la implementación básica de optimizar una representación de campo de
radiación neuronal para una escena compleja no converge a una representación de resolución
suficientemente alta y es ineficiente en el número requerido de muestras por rayo de cámara.
Abordamos estos problemas transformando las coordenadas 5D de entrada con una codificación
posicional que permite que el MLP represente funciones de mayor frecuencia y proponemos un
procedimiento de muestreo jerárquico para reducir el número de consultas necesarias para
muestrear adecuadamente esta representación de escena de alta frecuencia.
Nuestro enfoque hereda los beneficios de las representaciones volumétricas: ambas pueden
representar geometrías y apariencias complejas del mundo real y son adecuadas para la
optimización basada en gradientes utilizando imágenes proyectadas. Crucialmente, nuestro
método supera los prohibitivos costos de almacenamiento dediscretizadocuadrículas de vóxel al
modelar escenas complejas en alta resolución. En resumen, nuestras contribuciones técnicas son:
– Un enfoque para representar escenas continuas con geometría y materiales complejos
como campos de radiación neuronal 5D, parametrizados como redes MLP básicas.
– Un procedimiento de renderizado diferenciable basado en técnicas clásicas de renderizado de
volumen, que utilizamos para optimizar estas representaciones a partir de imágenes RGB
estándar. Esto incluye una estrategia de muestreo jerárquico para asignar la capacidad del MLP
al espacio con contenido de escena visible.
NeRF: representación de escenas como campos de radiación neuronal para la síntesis de vistas 3

– Una codificación posicional para mapear cada coordenada 5D de entrada en un espacio dimensional
superior, lo que nos permite optimizar con éxito los campos de radiación neuronal para representar
contenido de escena de alta frecuencia.
Demostramos que nuestro método de campo de radiación neuronal resultante supera
cuantitativa y cualitativamente los métodos de síntesis de vista de última generación, incluidos los
trabajos que ajustan las representaciones 3D neuronales a las escenas, así como los trabajos que
entrenan redes convolucionales profundas para predecir representaciones volumétricas
muestreadas. Hasta donde sabemos, este artículo presenta la primera representación de escena
neuronal continua que es capaz de generar vistas novedosas fotorrealistas de alta resolución de
objetos reales y escenas de imágenes RGB capturadas en entornos naturales.

2. Trabajo relacionado

Una dirección reciente prometedora en la visión por computadora es la codificación de objetos y


escenas en los pesos de un MLP que mapea directamente desde una ubicación espacial 3D a una
representación implícita de la forma, como la distancia firmada [6] en esa ubicación. Sin embargo,
estos métodos hasta ahora no han podido reproducir escenas realistas con geometría compleja
con la misma fidelidad que las técnicas que representan escenas utilizando representaciones
discretas como mallas triangulares o cuadrículas de vóxeles. En esta sección, revisamos estas dos
líneas de trabajo y las contrastamos con nuestro enfoque, que mejora las capacidades de las
representaciones de escenas neuronales para producir resultados de última generación para
renderizar escenas complejas y realistas.
También se ha utilizado un enfoque similar de usar MLP para mapear desde
coordenadas de baja dimensión a colores para representar otras funciones gráficas como
imágenes [44], materiales texturizados [12,31,36,37] y valores de iluminación indirecta [38] .

Representaciones de formas neuronales en 3DEl trabajo reciente ha investigado la representación


implícita de formas 3D continuas como conjuntos de niveles mediante la optimización de redes
profundas que mapeanxyzcoordenadas a funciones de distancia con signo [15,32] o campos de
ocupación [11,27]. Sin embargo, estos modelos están limitados por su requisito de acceso a la
geometría 3D real, generalmente obtenida de conjuntos de datos de formas 3D sintéticas como
ShapeNet [3]. El trabajo posterior ha relajado este requisito de formas 3D reales al formular
funciones de representación diferenciables que permiten optimizar las representaciones de
formas implícitas neuronales utilizando solo imágenes 2D. Niemeyery otros. [29] representan
superficies como campos de ocupación 3D y usan un método numérico para encontrar la
intersección de la superficie para cada rayo, luego calculan una derivada exacta usando
diferenciación implícita. Cada ubicación de intersección de rayos se proporciona como entrada a
un campo de textura 3D neuronal que predice un color difuso para ese punto. Sitzmanny otros.
[42] utiliza una representación 3D neuronal menos directa que simplemente genera un vector de
características y un color RGB en cada coordenada 3D continua, y propone una función de
representación diferenciable que consiste en una red neuronal recurrente que marcha a lo largo
de cada rayo para decidir dónde se encuentra la superficie.
Aunque estas técnicas pueden representar potencialmente geometría complicada y de alta
resolución, hasta ahora se han limitado a formas simples con baja complejidad geométrica, lo que
da como resultado representaciones demasiado suavizadas. Mostramos que una estrategia
alternativa de optimización de redes para codificar campos de radiación 5D (volúmenes 3D
4 B. Mildenhall, PP Srinivasan, M. Tancik et al.

con apariencia dependiente de la vista 2D) puede representar geometría y apariencia de mayor
resolución para generar vistas novedosas fotorrealistas de escenas complejas.

Ver síntesis y renderizado basado en imágenesDada una muestra densa de vistas,


las nuevas vistas fotorrealistas se pueden reconstruir mediante técnicas simples
de interpolación de muestras de campo de luz [21,5,7]. Para la síntesis de vista
novedosa con muestreo de vista más disperso, las comunidades de gráficos y
visión por computadora han logrado un progreso significativo al predecir la
geometría tradicional y las representaciones de apariencia a partir de imágenes
observadas. Una clase popular de enfoques utiliza representaciones basadas en
mallas de escenas con apariencia difusa [48] o dependiente de la vista [2,8,49].
Los rasterizadores diferenciables [4,10,23,25] o los rastreadores [22,30] pueden
optimizar directamente las representaciones de malla para reproducir un
conjunto de imágenes de entrada mediante el descenso de gradiente. Sin
embargo, la optimización de la malla basada en gradientes basada en la
reproyección de imágenes suele ser difícil, probablemente debido a los mínimos
locales o al mal acondicionamiento del paisaje de pérdidas. Además,
Otra clase de métodos utiliza representaciones volumétricas para abordar la tarea de síntesis de vista fotorrealista de alta calidad a partir de un conjunto de imágenes RGB de

entrada. Los enfoques volumétricos pueden representar formas y materiales complejos de manera realista, son adecuados para la optimización basada en gradientes y tienden a

producir artefactos que distraen menos visualmente que los métodos basados en mallas. Los primeros enfoques volumétricos usaban imágenes observadas para colorear

directamente las cuadrículas de vóxeles [19,40,45]. Más recientemente, varios métodos [9,13,17,28,33,43,46,52] han utilizado grandes conjuntos de datos de múltiples escenas para

entrenar redes profundas que predicen una representación volumétrica muestreada a partir de un conjunto de imágenes de entrada y luego usan composición alfa [34] o composición

aprendida a lo largo de los rayos para generar vistas novedosas en el momento de la prueba. Otros trabajos han optimizado una combinación de redes convolucionales (CNN) y

cuadrículas de vóxeles muestreadas para cada escena específica, de modo que la CNN puede compensar los artefactos de discretización de las cuadrículas de vóxeles de baja resolución

[41] o permitir que las cuadrículas de vóxeles predichas varíen según el tiempo de entrada o controles de animación [24]. Si bien estas técnicas volumétricas han logrado resultados

impresionantes para la síntesis de vistas novedosas, su capacidad para escalar a imágenes de mayor resolución está fundamentalmente limitada por la poca complejidad de tiempo y

espacio debido a su muestreo discreto: la representación de imágenes de mayor resolución requiere un muestreo más fino del espacio 3D. Eludimos este problema codificando en su

lugar un de modo que la CNN pueda compensar los artefactos de discretización de las cuadrículas de vóxeles de baja resolución [41] o permitir que las cuadrículas de vóxeles predichas

varíen según el tiempo de entrada o los controles de animación [24]. Si bien estas técnicas volumétricas han logrado resultados impresionantes para la síntesis de vistas novedosas, su

capacidad para escalar a imágenes de mayor resolución está fundamentalmente limitada por la poca complejidad de tiempo y espacio debido a su muestreo discreto: la representación

de imágenes de mayor resolución requiere un muestreo más fino del espacio 3D. Eludimos este problema codificando en su lugar un de modo que la CNN pueda compensar los

artefactos de discretización de las cuadrículas de vóxeles de baja resolución [41] o permitir que las cuadrículas de vóxeles predichas varíen según el tiempo de entrada o los controles

de animación [24]. Si bien estas técnicas volumétricas han logrado resultados impresionantes para la síntesis de vistas novedosas, su capacidad para escalar a imágenes de mayor

resolución está fundamentalmente limitada por la poca complejidad de tiempo y espacio debido a su muestreo discreto: la representación de imágenes de mayor resolución requiere

un muestreo más fino del espacio 3D. Eludimos este problema codificando en su lugar un su capacidad para escalar a imágenes de mayor resolución está fundamentalmente limitada

por la poca complejidad de tiempo y espacio debido a su muestreo discreto: la representación de imágenes de mayor resolución requiere un muestreo más fino del espacio 3D.

Eludimos este problema codificando en su lugar un su capacidad para escalar a imágenes de mayor resolución está fundamentalmente limitada por la poca complejidad de tiempo y

espacio debido a su muestreo discreto: la representación de imágenes de mayor resolución requiere un muestreo más fino del espacio 3D. Eludimos este problema codificando en su

lugar uncontinuovolumen dentro de los parámetros de una red neuronal profunda totalmente conectada, que no solo produce representaciones de una calidad significativamente mayor que los enfoque

3 Representación de escena de campo de radiación neuronal

Representamos una escena continua como una función vectorial 5D cuya entrada es
una ubicación 3Dx = (x, y, z) y dirección de visualización 2D (θ, φ), y cuya salida es un
color emitidoc = (r, g, b) y densidad de volumenσ. En la práctica expresamos
NeRF: representación de escenas como campos de radiación neuronal para la síntesis de vistas 5

Entrada 5D Producción Volumen Representación


Posición + Dirección Color + Densidad Representación Pérdida

(x,y,z,θ,ϕ) (RGBσ)
rayo 1 σ
FΘ rayo 1
2
rayo 2
gt
2

σ rayo 2 2
gt
2
Distancia de rayos

(a) (b) (C) (d)

Fig. 2: Una descripción general de nuestra representación de escena de campo de radiación neuronal y
procedimiento de representación diferenciable. Sintetizamos imágenes mediante el muestreo de
coordenadas 5D (ubicación y dirección de visualización) a lo largo de los rayos de la cámara (a),
alimentando esas ubicaciones en un MLP para producir una densidad de color y volumen (b), y utilizando
técnicas de representación de volumen para componer estos valores en una imagen ( C). Esta función de
renderizado es diferenciable, por lo que podemos optimizar nuestra representación de la escena
minimizando el residuo entre las imágenes observadas sintetizadas y reales (d).

dirección como un vector unitario cartesiano 3Dd.Aproximamos esta representación


de escena 5D continua con una red MLPFΘ: (X,d)→(C, σ) y optimice sus pesos Θ para
mapear desde cada coordenada 5D de entrada a su densidad de volumen
correspondiente y color direccional emitido.
Alentamos a que la representación sea consistente en varias vistas restringiendo la
red para predecir la densidad del volumenσen función únicamente de la ubicación
X,mientras permite el color RGBCpredecirse en función tanto de la ubicación como de la
dirección de visualización. Para lograr esto, el MLPFΘfiprimero procesa la coordenada 3D de
entradaXcon 8 capas completamente conectadas (usando activaciones ReLU y 256 canales
por capa), y salidasσy un vector de características de 256 dimensiones. Este vector de
características luego se concatena con la dirección de visualización del rayo de la cámara y
se pasa a una capa adicional completamente conectada (usando una activación ReLU y 128
canales) que genera el color RGB dependiente de la vista.
Consulte la Fig. 3 para ver un ejemplo de cómo nuestro método usa la dirección de visualización de entrada
para representar efectos no lambertianos. Como se muestra en la Fig. 4, un modelo entrenado sin dependencia
de la vista (soloXcomo entrada) tiene dificultad para representar especularidades.

Representación de 4 volúmenes con campos de radiación

Nuestro campo de radiación neuronal 5D representa una escena como la densidad de volumen y
la radiación direccional emitida en cualquier punto del espacio. Renderizamos el color de cualquier
rayo que pasa a través de la escena usando los principios de la renderización clásica de volumen
[16]. La densidad de volumenσ(X)puede interpretarse como la probabilidad diferencial de que un
rayo termine en una partícula infinitesimal en la ubicaciónX.El color esperado C(R)de rayo de
cámarar(t) =o +tdcon límites cercanos y lejanostnorteytFes:
∫t F
(∫ t )
C(r) = T(t)σ(r(t))c(r(t),d)dt,dóndeT(t) = exp.− σ(r(s))ds.(1)
tnorte tnorte
Fig. 3: Una visualización de la radiación emitida dependiente de la vista. Nuestra representación de
campo de radiación neuronal genera color RGB como una función 5D de la posición espacial Xy
dirección de visualizaciónd.Aquí, visualizamos distribuciones de color direccionales de ejemplo
para dos ubicaciones espaciales en nuestra representación neuronal delBarcoescena. En (a) y (b),
mostramos la apariencia de dos puntos 3D fijos desde dos posiciones de cámara diferentes: uno
en el costado del barco (recuadros naranjas) y otro en la superficie del agua (recuadros azules).
Nuestro método predice la apariencia especular cambiante de estos dos puntos 3D, y en (c)
mostramos cómo este comportamiento se generaliza continuamente en todo el hemisferio de las
direcciones de visualización.

La funciónT(t) denota la transmitancia acumulada a lo largo del rayo desde tnorteat,i.mi.,


la probabilidad de que el rayo viaje desdetnorteatsin chocar con ninguna otra partícula.
Representar una vista desde nuestro campo de radiación neuronal continuo requiere
estimar esta integralC(R)para un rayo de cámara trazado a través de cada píxel de la
cámara virtual deseada.
Estimamos numéricamente esta integral continua usando cuadratura. La cuadratura
determinista, que normalmente se usa para renderizar cuadrículas de vóxeles discretizados,
limitaría efectivamente la resolución de nuestra representación porque el MLP solo se consultaría
en un conjunto discreto fijo de ubicaciones. En su lugar, utilizamos un enfoque de muestreo
estratificado donde dividimos [tnorte, tF]ennortecontenedores espaciados uniformemente y luego
extraiga una muestra uniformemente al azar de cada contenedor:
[ ]
yo -1 i
ti∼ tutnorte+ (tF−nortet ), tnorte+ ( tF − ) .
tnorte (2)
norte norte

Aunque usamos un conjunto discreto de muestras para estimar la integral, el muestreo


estratificado nos permite representar una representación de escena continua porque da
como resultado que el MLP se evalúe en posiciones continuas durante el transcurso de la
optimización. Usamos estas muestras para estimarC(R)con la regla de cuadratura discutida
en la revisión de renderizado de volumen por Max [26]:
- -
∑norte yo−1

C(r) = Ti(1−Exp(−σidi))Ci,dóndeTi=Exp-− σjdj -, (3)
i=1 j=1

dóndedi=ti+1−ties la distancia entre muestras adyacentes. Esta función para


calcularC(R)del conjunto de (Ci, σi) valores es trivialmente diferenciable y se
reduce a la composición alfa tradicional con valores alfaαi=1−Exp(−σidi).
verdad básica Modelo completo Sin dependencia de vista Sin codificación posicional

Fig. 4: Aquí visualizamos cómo nuestro modelo completo se beneficia de representar la radiación emitida
dependiente de la vista y de pasar nuestras coordenadas de entrada a través de una codificación
posicional de alta frecuencia. La eliminación de la dependencia de la vista evita que el modelo recree el
reflejo especular en la banda de rodadura de la excavadora. La eliminación de la codificación posicional
reduce drásticamente la capacidad del modelo para representar la geometría y la textura de alta
frecuencia, lo que da como resultado una apariencia demasiado suavizada.

5 Optimización de un campo de radiación neuronal

En la sección anterior, describimos los componentes básicos necesarios para modelar una escena
como un campo de radiación neuronal y generar vistas novedosas a partir de esta representación.
Sin embargo, observamos que estos componentes no son suficientes para lograr una calidad de
punta, como se demuestra en la Sección 6.4). Presentamos dos mejoras para permitir la
representación de escenas complejas de alta resolución. El primero es una codificación posicional
de las coordenadas de entrada que ayuda al MLP a representar funciones de alta frecuencia, y el
segundo es un procedimiento de muestreo jerárquico que nos permite muestrear eficientemente
esta representación de alta frecuencia.

5.1 Codificación posicional


A pesar del hecho de que las redes neuronales son aproximadores universales de funciones [14],
encontramos que tener la redFΘoperar directamente enxyzθφlas coordenadas de entrada dan
como resultado representaciones que funcionan mal para representar variaciones de alta
frecuencia en color y geometría. Esto es consistente con el trabajo reciente de Rahaman y otros.
[35], que muestra que las redes profundas están sesgadas hacia el aprendizaje de funciones de
baja frecuencia. Además, muestran que mapear las entradas a un espacio dimensional superior
utilizando funciones de alta frecuencia antes de pasarlas a la red permite un mejor ajuste de los
datos que contienen variaciones de alta frecuencia.
Aprovechamos estos hallazgos en el contexto de las representaciones de escenas neuronales, y
demostrar que reformularFΘcomo una composición de dos funcionesFΘ=F′ Θ◦ γ, uno
aprendido y uno no, mejora significativamente el rendimiento (ver Fig. 4 y Tabla 2).
Aquíγes un mapeo deRa un espacio dimensional superiorR2L, yF′ Θes todavía
simplemente un MLP regular. Formalmente, la función de codificación que usamos es:
(()() ( )( ))
γ(pag) = sen 20πp ,porque 20πp ,··· ,pecado 2L−1πp ,porque 2L−1πp. (4)
Esta funciónγ(·) se aplica por separado a cada uno de los tres valores de coordenadas
enX (que se normalizan para estar en [−1,1]) y a los tres componentes del
8 B. Mildenhall, PP Srinivasan, M. Tancik et al.

Vector de unidad de dirección de visualización cartesianad (que por construcción se encuentran en [−1,
1]). En nuestros experimentos, establecemosL=10 paraγ(X)yL=4 paraγ(d).
Un mapeo similar se usa en la popular arquitectura Transformer [47], donde se le conoce como
codificación posicional. Sin embargo, los Transformers lo usan para un objetivo diferente de proporcionar
las posiciones discretas de los tokens en una secuencia como entrada a una arquitectura que no contiene
ninguna noción de orden. Por el contrario, usamos estas funciones para mapear coordenadas de entrada
continuas en un espacio dimensional más alto para permitir que nuestro MLP se aproxime más
fácilmente a una función de frecuencia más alta. El trabajo simultáneo en un problema relacionado con el
modelado de estructuras de proteínas en 3D a partir de proyecciones [51] también utiliza un mapeo de
coordenadas de entrada similar.

5.2 Muestreo de volumen jerárquico

Nuestra estrategia de representación de evaluar densamente la red de campo de radiación neural


ennortelos puntos de consulta a lo largo de cada rayo de la cámara son ineficientes: el espacio
libre y las regiones ocluidas que no contribuyen a la imagen renderizada aún se muestrean
repetidamente. Nos inspiramos en los primeros trabajos en renderizado de volumen [20] y
proponemos una representación jerárquica que aumenta la eficiencia del renderizado mediante la
asignación de muestras proporcionalmente a su efecto esperado en el renderizado final.
En lugar de usar una sola red para representar la escena, optimizamos
simultáneamente dos redes: una "gruesa" y otra "fina". Primero probamos un conjunto
denorteCubicaciones usando muestreo estratificado, y evalúe la red "gruesa" en estas
ubicaciones como se describe en Eqns. 2 y 3. Dada la salida de esta red "gruesa",
producimos un muestreo más informado de puntos a lo largo de cada rayo donde las
muestras están sesgadas hacia las partes relevantes del volumen. Para hacer esto,
primero reescribimos el color compuesto alfa de la red gruesaCC(R)en la ecuación 3
como suma ponderada de todos los colores muestreadosCia lo largo del rayo:


norteC

CC(r) = wiCi, wi=Ti(1−Exp(−σidi)). (5)


i=1

Normalizando estos pesos comoŵi=wi/∑Carolina del Norte j=1wjproduce una constante por partes
PDF a lo largo del rayo. Probamos un segundo conjunto denorteFubicaciones de esta distribución
usando muestreo de transformada inversa, evalúe nuestra red "fina" en la unión del primer y
segundo conjunto de muestras, y calcule el color final renderizado del rayo CF(r)usando la Ec. 3
pero usando todosnorteC+norteFmuestras Este procedimiento asigna más muestras a las regiones
que esperamos que tengan contenido visible. Esto aborda un objetivo similar al del muestreo de
importancia, pero usamos los valores muestreados como una discretización no uniforme de todo
el dominio de integración en lugar de tratar cada muestra como una estimación probabilística
independiente de la integral completa.

5.3 Detalles de implementación

Optimizamos una red de representación de volumen continuo neuronal separada para cada
escena. Esto requiere solo un conjunto de datos de imágenes RGB capturadas de la escena,
NeRF: representación de escenas como campos de radiación neuronal para la síntesis de vistas 9

las poses de cámara correspondientes y los parámetros intrínsecos, y los límites de la escena
(usamos poses de cámara reales, intrínsecos y límites para datos sintéticos, y usamos el paquete
COLMAP de estructura a partir del movimiento [39] para estimar estos parámetros para datos
reales). En cada iteración de optimización, muestreamos aleatoriamente un lote de rayos de
cámara del conjunto de todos los píxeles en el conjunto de datos y luego seguimos el muestreo
jerárquico descrito en la Sec. 5.2 para consultarnorteCmuestras de la red gruesa ynorteC+norteF
muestras de la red fina. Luego usamos el procedimiento de renderizado de volumen descrito en la
Sec. 4 para reproducir el color de cada rayo de ambos conjuntos de muestras. Nuestra pérdida es
simplemente el error cuadrático total entre los colores de píxeles renderizados y verdaderos para
las representaciones gruesas y finas:
∑[∥ ∥ ∥ ∥ ]
∥ ∥2 ∥ ∥2
L= ∥CC(R)− C(R)∥ + ∥CF(r)− C(R)∥ (6)
2 2
r∈R

dóndeRes el conjunto de rayos en cada lote, yC(r),CC(r),yCF(r)son los colores RGB


reales, el volumen aproximado predicho y el volumen fino predicho para el rayor
respectivamente. Tenga en cuenta que aunque la representación final proviene
de CF(r),también minimizamos la pérdida deCC(R)para que la distribución de peso
de la red gruesa se pueda usar para asignar muestras en la red fina.
En nuestros experimentos, usamos un tamaño de lote de 4096 rayos, cada uno
muestreado ennorteC=64 coordenadas en el volumen grueso ynorteF=128 coordenadas
adicionales en el volumen fino. Usamos el optimizador Adam [18] con una tasa de
aprendizaje que comienza en 5×10−4y decae exponencialmente a 5×10−5en el transcurso de
la optimización (otros hiperparámetros de Adam se dejan en los valores predeterminados
deβ1=0.9,β2=0.999, yε= 10−7). La optimización para una sola escena suele tardar entre 100 y
300 000 iteraciones para converger en una sola GPU NVIDIA V100 (alrededor de 1 o 2 días).

6 resultados
Mostramos cuantitativamente (Tablas 1) y cualitativamente (Figs. 8 y 6) que nuestro método
supera el trabajo previo y proporcionamos extensos estudios de ablación para validar
nuestras opciones de diseño (Tabla 2). Instamos al lector a ver nuestro video
complementario para apreciar mejor la mejora significativa de nuestro método con respecto
a los métodos de referencia al generar rutas fluidas de vistas novedosas.

6.1 Conjuntos de datos

Representaciones sintéticas de objetosPrimero mostramos resultados experimentales en dos


conjuntos de datos de representaciones sintéticas de objetos (Tabla 1, "Diffuse Synthetic 360◦” y
“Realista Sintético 360◦”). El conjunto de datos DeepVoxels [41] contiene cuatro objetos
lambertianos con geometría simple. Cada objeto se representa en 512×512 píxeles de puntos de
vista muestreados en el hemisferio superior (479 como entrada y 1000 para prueba). Además,
generamos nuestro propio conjunto de datos que contiene imágenes trazadas de ocho objetos
que exhiben una geometría complicada y materiales no lambertianos realistas. Seis se renderizan
desde puntos de vista muestreados en el hemisferio superior y dos se renderizan desde puntos de
vista muestreados en una esfera completa. Renderizamos 100 vistas de cada escena como entrada
y 200 para pruebas, todo a 800×800 píxeles
10 B. Mildenhall, PP Srinivasan, M. Tancik et al.

Difuso Sintético 360◦[41] Sintético Realista 360◦ Orientado hacia delante real [28]
Método PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓
SRN [42] 33.20 0.963 0.073 22.26 0.846 0.170 22.84 0.668 0.378
NV [24] 29.62 0.929 0.099 26.05 0.893 0.160 - - -
LLFF [28] 34.38 0.985 0.048 24.88 0.911 0.114 24.13 0.798 0.212
Nuestro 40.15 0.991 0.023 31.01 0.947 0.081 26.50 0.8110.250

Tabla 1: Nuestro método supera cuantitativamente el trabajo previo en conjuntos de datos de


imágenes tanto sintéticas como reales. Informamos PSNR/SSIM (más alto es mejor) y LPIPS [50]
(más bajo es mejor). El conjunto de datos DeepVoxels [41] consta de 4 objetos difusos con
geometría simple. Nuestro conjunto de datos sintéticos realistas consta de representaciones
trazadas por rutas de 8 objetos geométricamente complejos con materiales complejos no
lambertianos. El conjunto de datos reales consta de capturas manuales orientadas hacia adelante
de 8 escenas del mundo real (NV no se puede evaluar en estos datos porque solo reconstruye
objetos dentro de un volumen limitado). Aunque LLFF logra LPIPS ligeramente mejores, instamos
a los lectores a ver nuestro video complementario donde nuestro método logra una mejor
consistencia de múltiples vistas y produce menos artefactos que todas las líneas de base.

Imágenes reales de escenas complejasMostramos los resultados en escenas complejas del mundo
real capturadas con imágenes aproximadamente orientadas hacia adelante (Tabla 1, “Orientación
frontal real”). Este conjunto de datos consta de 8 escenas capturadas con un teléfono celular de
mano (5 tomadas del papel LLFF y 3 que capturamos), capturadas con 20 a 62 imágenes, y
aguantar1/8de estos para el conjunto de prueba. Todas las imágenes son 1008×756 píxeles.

6.2 Comparaciones
Para evaluar nuestro modelo, lo comparamos con las técnicas actuales de mayor rendimiento para la
síntesis de vistas, que se detallan a continuación. Todos los métodos usan el mismo conjunto de vistas de
entrada para entrenar una red separada para cada escena, excepto Local Light Field Fusion [28], que
entrena una sola red convolucional 3D en un gran conjunto de datos, luego usa la misma red entrenada
para procesar imágenes de entrada de nuevos escenas en el momento de la prueba.

Volúmenes neuronales (NV) [24]sintetiza vistas novedosas de objetos que se encuentran


completamente dentro de un volumen delimitado frente a un fondo distinto (que debe capturarse
por separado sin el objeto de interés). Optimiza una red convolucional 3D profunda para predecir
un RGB discretizadoαcuadrícula de vóxeles con 1283muestras, así como una cuadrícula de
deformación 3D con 323muestras El algoritmo genera vistas novedosas haciendo avanzar los
rayos de la cámara a través de la cuadrícula de vóxeles deformados.

Redes de Representación de Escenas (SRN) [42]representar una escena continua como una
superficie opaca, implícitamente definida por un MLP que mapea cada (x, y, z) coordinar a un
vector de características. Entrenan una red neuronal recurrente para avanzar a lo largo de un rayo
a través de la representación de la escena usando el vector de características en cualquier
coordenada 3D para predecir el tamaño del siguiente paso a lo largo del rayo. El vector de
características del paso final se decodifica en un solo color para ese punto en la superficie. Tenga
en cuenta que SRN es un seguimiento con mejor rendimiento de DeepVoxels [41] de los mismos
autores, razón por la cual no incluimos comparaciones con DeepVoxels.
Ground Truth NeRF (nuestro) LLFF [28] SRN [42] NV [24]

Fig. 5: Comparaciones en vistas de conjuntos de prueba para escenas de nuestro nuevo


conjunto de datos sintéticos generados con un renderizador físico. Nuestro método es
capaz de recuperar detalles finos tanto en geometría como en apariencia, comoBarcoestá
amañando,Legoengranajes y bandas de rodadura,MicrófonoEl soporte brillante y la rejilla
de malla, yMaterial's reflectancia no lambertiana. LLFF exhibe artefactos de bandas en el
Micrófono ponerse de pie yMaterial's bordes de objetos y artefactos fantasma enBarco's
mástil y dentro de laLegoobjeto. SRN produce representaciones borrosas y distorsionadas
en todos los casos. Neural Volumes no puede capturar los detalles en elMicrófonola parrilla
o Legoengranajes de , y falla por completo en recuperar la geometría deBarco's aparejo.
verdad básica NeRF (nuestro) LLFF [28] SRN [42]

Fig. 6: Comparaciones de vistas del conjunto de prueba de escenas del mundo real. LLFF está
diseñado específicamente para este caso de uso (capturas frontales de escenas reales). Nuestro
método es capaz de representar geometría fina de manera más consistente en vistas renderizadas
que LLFF, como se muestra enHelecho's hojas y las costillas del esqueleto y barandilla enTirano
saurio Rex. Nuestro método también reconstruye correctamente regiones parcialmente ocluidas
que LLFF se esfuerza por renderizar limpiamente, como los estantes amarillos detrás de las hojas
en la parte inferior.Helechocultivo y hojas verdes en el fondo del fondoOrquídeacultivo. La
combinación entre múltiples representaciones también puede causar bordes repetidos en LLFF,
como se ve en la parte superiorOrquídeacultivo. SRN captura la geometría de baja frecuencia y la
variación de color en cada escena, pero no puede reproducir ningún detalle fino.
NeRF: representación de escenas como campos de radiación neuronal para la síntesis de vistas 13

Fusión de campo de luz local (LLFF) [28]LLFF está diseñado para producir nuevas vistas
fotorrealistas para escenas frontales bien muestreadas. Utiliza una red convolucional 3D
entrenada para predecir directamente un RGB discretizado con muestreo frustumα cuadrícula
(imagen multiplano o MPI [52]) para cada vista de entrada, luego representa vistas novedosas
mediante composición alfa y combinando MPI cercanos en el punto de vista novedoso.

6.3 Discusión
Superamos ampliamente a ambas líneas de base que también optimizan una red separada por escena
(NV y SRN) en todos los escenarios. Además, producimos representaciones cualitativa y
cuantitativamente superiores en comparación con LLFF (en todas las métricas excepto en una) mientras
usamos solo sus imágenes de entrada como nuestro conjunto de entrenamiento completo.
El método SRN produce geometría y textura muy suavizadas, y su poder de representación
para la síntesis de vista está limitado al seleccionar solo una profundidad y color por rayo de
cámara. La línea de base NV es capaz de capturar una apariencia y geometría volumétrica
razonablemente detallada, pero su uso de un 128 explícito subyacente3La cuadrícula de vóxel
evita que se escale para representar detalles finos en altas resoluciones. LLFF proporciona
específicamente una "pauta de muestreo" para no exceder los 64 píxeles de disparidad entre las
vistas de entrada, por lo que con frecuencia no logra estimar la geometría correcta en los
conjuntos de datos sintéticos que contienen hasta 400-500 píxeles de disparidad entre las vistas.
Además, LLFF combina diferentes representaciones de escenas para generar diferentes vistas, lo
que resulta en una inconsistencia que distrae la percepción, como es evidente en nuestro video
complementario.
Las mayores compensaciones prácticas entre estos métodos son el tiempo frente al espacio. Todos
los métodos de escena única comparados tardan al menos 12 horas en entrenarse por escena. Por el
contrario, LLFF puede procesar un pequeño conjunto de datos de entrada en menos de 10 minutos. Sin
embargo, LLFF produce una gran cuadrícula de vóxeles 3D para cada imagen de entrada, lo que genera
enormes requisitos de almacenamiento (más de 15 GB para una escena "sintética realista"). Nuestro
método requiere solo 5 MB para los pesos de red (una compresión relativa de 3000×en comparación con
LLFF), que es incluso menos memoria que elimágenes de entrada solopara una sola escena de cualquiera
de nuestros conjuntos de datos.

6.4 Estudios de ablación

Validamos las opciones de diseño y los parámetros de nuestro algoritmo con un extenso estudio
de ablación en la Tabla 2. Presentamos los resultados en nuestro “Realistic Synthetic 360◦” escenas.
La fila 9 muestra nuestro modelo completo como punto de referencia. La fila 1 muestra una
versión minimalista de nuestro modelo sin codificación posicional (PE), dependencia de vista (VD) o
muestreo jerárquico (H). En las filas 2 a 4, eliminamos estos tres componentes uno por uno del
modelo completo, y observamos que la codificación posicional (fila 2) y la dependencia de la vista
(fila 3) brindan el mayor beneficio cuantitativo seguido por el muestreo jerárquico (fila 4). Las filas
5 y 6 muestran cómo disminuye nuestro rendimiento a medida que se reduce el número de
imágenes de entrada. Tenga en cuenta que el rendimiento de nuestro método con solo 25
imágenes de entrada aún supera NV, SRN y LLFF en todas las métricas cuando se les proporcionan
100 imágenes (consulte el material complementario). En las filas 7 y 8 validamos nuestra elección
de la frecuencia máxima
14 B. Mildenhall, PP Srinivasan, M. Tancik et al.

Ingrese #Im.L(norteC,norteF)PSNR↑SSIM↑LPIPS↓
1) Sin PE, VD, H xyz 100 - (256, - ) 26.67 0.906 0.136
2) Sin pos. Codificación xyzθφ 100 - (64, 128) 28.77 0.924 0.108
3) Sin dependencia de vista xyz 100 10 (64, 128) 27.66 0.925 0.117
4) Sin jerarquía xyzθφ 100 10 (256, -) 30.06 0.938 0.109
5) Muchas menos imágenes xyzθφ 25 10 (64, 128) 27.78 0.925 0.107
6) Menos Imágenes xyzθφ 50 10 (64, 128) 29.79 0.940 0.096
7) Menos frecuencias xyzθφ 100 5 (64, 128) 30.59 0.944 0.088
8) Más frecuencias xyzθφ 100 15 (64, 128) 30.81 0.946 0.096
9) Modelo completo xyzθφ 100 10 (64, 128) 31.01 0.947 0.081

Tabla 2: Un estudio de ablación de nuestro modelo. Las métricas se promedian sobre las 8 escenas de
nuestro conjunto de datos sintéticos realistas. Ver Sec. 6.4 para descripciones detalladas.

Lutilizado en nuestra codificación posicional paraX (la frecuencia máxima utilizada paradse
escala proporcionalmente). Usar solo 5 frecuencias reduce el rendimiento, pero aumentar el
número de frecuencias de 10 a 15 no mejora el rendimiento. Creemos que el beneficio de
aumentarLestá limitado una vez 2Lexcede la frecuencia máxima presente en las imágenes
de entrada muestreadas (aproximadamente 1024 en nuestros datos).

7. Conclusión
Nuestro trabajo aborda directamente las deficiencias de trabajos anteriores que utilizan MLP para
representar objetos y escenas como funciones continuas. Demostramos que la representación de
escenas como campos de radiación neuronal 5D (un MLP que genera densidad de volumen y radiación
emitida dependiente de la vista en función de la ubicación 3D y la dirección de visualización 2D) produce
mejores representaciones que el enfoque dominante anterior de entrenar redes convolucionales
profundas para generar representaciones discretizadas de vóxeles.
Aunque hemos propuesto una estrategia de muestreo jerárquico para hacer que la
representación sea más eficiente (tanto para entrenamiento como para prueba), aún queda
mucho por hacer en la investigación de técnicas para optimizar y representar de manera eficiente
los campos de radiación neuronal. Otra dirección para el trabajo futuro es la interpretabilidad: las
representaciones muestreadas, como mallas y cuadrículas de vóxeles, admiten el razonamiento
sobre la calidad esperada de las vistas renderizadas y los modos de falla, pero no está claro cómo
analizar estos problemas cuando codificamos escenas en los pesos de una red neuronal
profunda. . Creemos que este trabajo avanza hacia una tubería de gráficos basada en imágenes
del mundo real, donde las escenas complejas podrían estar compuestas de campos de radiación
neuronal optimizados a partir de imágenes de objetos y escenas reales.

AgradecimientosAgradecemos a Kevin Cao, Guowei Frank Yang y Nithin Raghavan por


sus comentarios y debates. RR reconoce la financiación de las subvenciones ONR
N000141712687 y N000142012529 y la silla Ronald L. Graham. BM está financiado por
una beca de la Fundación Hertz y MT está financiado por una beca de posgrado de la
NSF. Google proporcionó una generosa donación de créditos de computación en la
nube a través del programa BAIR Commons. Agradecemos a los siguientes
NeRF: representación de escenas como campos de radiación neuronal para la síntesis de vistas 15

Mezcla Intercambia usuarios por los modelos utilizados en nuestro conjunto de datos sintéticos
realistas: gregzaal (barco), 1DInc (silla), bryanajones (tambores), Herberhold (ficus), erickfree
(perro caliente), Heinzelnisse (lego), elbrujodelatribu (materiales) y up3d .de (micrófono).

Referencias

1. Abadi, M., Agarwal, A., Barham, P., Brevdo, E., Chen, Z., Citro, C., Corrado,
GS, Davis, A., Dean, J., Devin, M., Ghemawat, S., Goodfellow, I., Harp, A., Irving, G.,
Isard, M., Jia, Y., Jozefowicz, R ., Kaiser, L., Kudlur, M., Levenberg, J., Mané, D.,
Monga, R., Moore, S., Murray, D., Olah, C., Schuster, M., Shlens, J ., Steiner, B.,
Sutskever, I., Talwar, K., Tucker, P., Vanhoucke, V., Vasudevan, V., Viégas, F.,
Vinyals, O., Warden, P., Wattenberg, M ., Wicke, M., Yu, Y., Zheng, X.: TensorFlow:
aprendizaje automático a gran escala en sistemas heterogéneos (2015)
2. Buehler, C., Bosse, M., McMillan, L., Gortler, S., Cohen, M.: Representación de lumigrafía
no estructurada. En: SIGGRAPH (2001)
3. Chang, AX, Funkhouser, T., Guibas, L., Hanrahan, P., Huang, Q., Li, Z., Savarese, S.,
Savva, M., Song, S., Su, H. , et al .: Shapenet: un repositorio de modelos 3D rico en
información. arXiv:1512.03012 (2015)
4. Chen, W., Gao, J., Ling, H., Smith, EJ, Lehtinen, J., Jacobson, A., Fidler, S.: Aprendiendo a
predecir objetos 3D con un renderizador diferenciable basado en interpolación.
En: NeurIPS (2019)
5. Cohen, M., Gortler, SJ, Szeliski, R., Grzeszczuk, R., Szeliski, R.: La lumigrafía. En:
SIGGRAPH (1996)
6. Curless, B., Levoy, M.: Un método volumétrico para construir modelos complejos a partir de
imágenes de rango. En: SIGGRAPH (1996)
7. Davis, A., Levoy, M., Durand, F.: Campos de luz no estructurados. En: Eurographics (2012)
8. Debevec, P., Taylor, CJ, Malik, J.: Modelado y renderizado de arquitectura a partir de
fotografías: un enfoque híbrido basado en geometría e imágenes. En: SIGGRAPH (1996)
9. Flynn, J., Broxton, M., Debevec, P., DuVall, M., Fyffe, G., Overbeck, R., Snavely,
N., Tucker, R.: DeepView: síntesis de vista con descenso de gradiente aprendido. En: CVPR
(2019)
10. Genova, K., Cole, F., Maschinot, A., Sarna, A., Vlasic, D., Freeman, WT: Entrenamiento no
supervisado para la regresión del modelo morphable en 3D. En: CVPR (2018)
11. Genova, K., Cole, F., Sud, A., Sarna, A., Funkhouser, T.: funciones implícitas profundas
locales para la forma 3d. En: CVPR (2020)
12. Henzler, P., Mitra, NJ, Ritschel, T.: Aprendiendo un espacio de textura neural 3D a partir de
ejemplos 2D. En: CVPR (2020)
13. Henzler, P., Rasche, V., Ropinski, T., Ritschel, T.: tomografía de imagen única: volúmenes
3d de radiografías craneales 2d. En: Eurographics (2018)
14. Hornik, K., Stinchcombe, M., White, H.: Las redes de avance multicapa son
aproximadores universales. Redes neuronales (1989)
15. Jiang, C., Sud, A., Makadia, A., Huang, J., Nießner, M., Funkhouser, T.: Representaciones de
cuadrículas implícitas locales para escenas en 3D. En: CVPR (2020)
16. Kajiya, JT, Herzen, BPV: densidades de volumen de trazado de rayos. Gráficos por computadora
(SIGGRAPH) (1984)
17. Kar, A., Häne, C., Malik, J.: Aprendizaje de una máquina estéreo multivista. En: NeurIPS
(2017)
18. Kingma, DP, Ba, J.: Adam: Un método para la optimización estocástica. En: ICLR
(2015)
dieciséis B. Mildenhall, PP Srinivasan, M. Tancik et al.

19. Kutulakos, KN, Seitz, SM: Una teoría de la forma por la talla del espacio. Revista
internacional de visión artificial (2000)
20. Levoy, M.: Trazado de rayos eficiente de datos de volumen. Transacciones de ACM en gráficos (1990)

21. Levoy, M., Hanrahan, P.: representación de campo de luz. En: SIGGRAPH (1996)
22. Li, TM, Aittala, M., Durand, F., Lehtinen, J.: Trazado de rayos de Monte Carlo diferenciable a
través del muestreo de bordes. Transacciones de ACM en gráficos (SIGGRAPH Asia) (2018)

23. Liu, S., Li, T., Chen, W., Li, H.: Rasterizador suave: un renderizador diferenciable para el razonamiento
3D basado en imágenes. En: ICCV (2019)
24. Lombardi, S., Simon, T., Saragih, J., Schwartz, G., Lehrmann, A., Sheikh, Y.: Volúmenes
neuronales: aprendizaje de volúmenes renderizables dinámicos a partir de imágenes.
Transacciones de ACM en gráficos (SIGGRAPH) (2019)
25. Loper, MM, Black, MJ: OpenDR: un renderizador diferenciable aproximado. En:
ECCV (2014)
26. Max, N.: Modelos ópticos para renderizado de volumen directo. Transacciones IEEE sobre
visualización y gráficos por computadora (1995)
27. Mescheder, L., Oechsle, M., Niemeyer, M., Nowozin, S., Geiger, A.: Redes de ocupación:
Aprendizaje de la reconstrucción 3D en el espacio funcional. En: CVPR (2019)
28. Mildenhall, B., Srinivasan, PP, Ortiz-Cayon, R., Kalantari, NK, Ramamoorthi,
R., Ng, R., Kar, A.: Fusión de campo de luz local: síntesis de vista práctica con pautas de
muestreo prescriptivas. Transacciones de ACM en gráficos (SIGGRAPH) (2019)
29. Niemeyer, M., Mescheder, L., Oechsle, M., Geiger, A.: Representación volumétrica
diferenciable: Aprendizaje de representaciones 3D implícitas sin supervisión 3D. En:
CVPR (2019)
30. Nimier-David, M., Vicini, D., Zeltner, T., Jakob, W.: Mitsuba 2: un renderizador
directo e inverso redirigible. Transacciones de ACM en gráficos (SIGGRAPH Asia)
(2019)
31. Oechsle, M., Mescheder, L., Niemeyer, M., Strauss, T., Geiger, A.: Campos de textura:
Aprendizaje de representaciones de textura en el espacio funcional. En: ICCV (2019)
32. Park, JJ, Florence, P., Straub, J., Newcombe, R., Lovegrove, S.: DeepSDF: Aprendizaje de
funciones de distancia con signo continuo para la representación de formas. En: CVPR (2019)
33. Penner, E., Zhang, L.: Reconstrucción 3D suave para síntesis de vista. Transacciones de
ACM en gráficos (SIGGRAPH Asia) (2017)
34. Porter, T., Duff, T.: Composición de imágenes digitales. Gráficos por computadora (SIG-
GRAPH) (1984)
35. Rahaman, N., Baratin, A., Arpit, D., Dräxler, F., Lin, M., Hamprecht, FA, Bengio, Y.,
Courville, AC: Sobre el sesgo espectral de las redes neuronales. En: ICML (2018)
36. Rainer, G., Ghosh, A., Jakob, W., Weyrich, T.: Codificación neuronal unificada de BTF. Foro de
gráficos por computadora (Eurographics) (2020)
37. Rainer, G., Jakob, W., Ghosh, A., Weyrich, T.: Interpolación y compresión neuronal
BTF. Foro de gráficos por computadora (Eurographics) (2019)
38. Ren, P., Wang, J., Gong, M., Lin, S., Tong, X., Guo, B.: iluminación global con funciones de
regresión de radiación. Transacciones de ACM en gráficos (2013)
39. Schönberger, JL, Frahm, JM: Revisión de la estructura a partir del movimiento. En: CVPR (2016)
40. Seitz, SM, Dyer, CR: Reconstrucción fotorrealista de escenas mediante coloración de vóxeles.
Revista internacional de visión artificial (1999)
41. Sitzmann, V., Thies, J., Heide, F., Nießner, M., Wetzstein, G., Zollhöfer, M.: Deepvoxels:
aprendizaje de incrustaciones persistentes de características 3D. En: CVPR (2019)
42. Sitzmann, V., Zollhoefer, M., Wetzstein, G.: Redes de representación de escenas: representaciones de
escenas neuronales conscientes de la estructura 3D continuas. En: NeurIPS (2019)
NeRF: representación de escenas como campos de radiación neuronal para la síntesis de vistas 17

43. Srinivasan, PP, Tucker, R., Barron, JT, Ramamoorthi, R., Ng, R., Snavely, N.:
Ampliando los límites de la extrapolación de vistas con imágenes multiplano. En:
CVPR (2019)
44. Stanley, KO: Redes de producción de patrones de composición: una abstracción novedosa del
desarrollo. Programación genética y máquinas evolutivas (2007)
45. Szeliski, R., Golland, P.: Coincidencia estéreo con transparencia y matización. En: ICCV
(1998)
46. Tulsiani, S., Zhou, T., Efros, AA, Malik, J.: Supervisión de vista múltiple para la reconstrucción de vista
única a través de la consistencia de rayos diferenciable. En: CVPR (2017)
47. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gómez, AN, Kaiser,
L., Polosukhin, I.: Todo lo que necesitas es atención. En: NeurIPS (2017)
48. Waechter, M., Moehrle, N., Goesele, M.: ¡Que haya color! Texturizado a gran escala de
reconstrucciones 3D. En: ECCV (2014)
49. Wood, DN, Azuma, DI, Aldinger, K., Curless, B., Duchamp, T., Salesin, DH, Stuetzle,
W.: Campos de luz superficial para fotografía en 3D. En: SIGGRAPH (2000)
50. Zhang, R., Isola, P., Efros, AA, Shechtman, E., Wang, O.: La efectividad irrazonable de las
características profundas como métrica de percepción. En: CVPR (2018)
51. Zhong, ED, Bepler, T., Davis, JH, Berger, B.: Reconstrucción de distribuciones continuas de
estructuras de proteínas 3D a partir de imágenes crio-EM. En: ICLR (2020)
52. Zhou, T., Tucker, R., Flynn, J., Fyffe, G., Snavely, N.: Ampliación estéreo: Síntesis de vista
de aprendizaje utilizando imágenes multiplano. Transacciones de ACM en gráficos (SIG-
GRAPH) (2018)

Detalles adicionales de implementación

Red de arquitecturaLa Fig. 7 detalla nuestra arquitectura simple totalmente conectada.

Límites de volumenNuestro método genera vistas consultando la representación del campo de radiación
neuronal en coordenadas 5D continuas a lo largo de los rayos de la cámara. Para experimentos con
imágenes sintéticas, escalamos la escena para que quede dentro de un cubo de longitud de lado 2
centrado en el origen, y solo consultamos la representación dentro de este volumen delimitador. Nuestro
conjunto de datos de imágenes reales contiene contenido que puede existir en cualquier lugar entre el
punto más cercano y el infinito, por lo que usamos coordenadas de dispositivo normalizadas para
mapear el rango de profundidad de estos puntos en [−1,1]. Esto cambia todos los orígenes de los rayos al
plano cercano de la escena, asigna los rayos de perspectiva de la cámara a rayos paralelos en el volumen
transformado y utiliza la disparidad (profundidad inversa) en lugar de la profundidad métrica, por lo que
ahora todas las coordenadas están limitadas.

Detalles de entrenamientoPara datos de escenas reales, regularizamos nuestra red


agregando ruido gaussiano aleatorio con media cero y varianza unitaria a la salidaσvalores
(antes de pasarlos a través de ReLU) durante la optimización, descubriendo que esto mejora
ligeramente el rendimiento visual para representar vistas novedosas. Implementamos
nuestro modelo en Tensorflow [1].

Detalles de representaciónPara generar nuevas vistas en el momento de la prueba, muestreamos


64 puntos por rayo a través de la red gruesa y 64 + 128 = 192 puntos por rayo a través de la red
fina, para un total de 256 consultas de red por rayo. Nuestro sintético realista
18

KYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlNVojHSCKsTV01U4K7/OVV4p23rlvO/UWjfVO2UQXH4A<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlNVojHSCKsTV01U4K7/OVV4p23rlvO/UWjfVO2UQXH4A<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlNVojHSCKsTV01U4K7/OVV4p23rlvO/UWjfVO2UQXH4A<latexitsha1_base64="C39OhB+IczRcjLNINXH2YX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlNVojHSCKsTV01U4K7/OVV4p23rlvO/UWjfVO2UQXH4A<latexitsha1_base64="hQhj+CULGdG3QS0LVa1KYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlNVojHSCKsTV01U4K7/OVV4p23rlvO/UWjfVO2UQXH4A<latexitsha1_base64="hQhj+CULGdG3QS0LVa1KM6HtC1M=">AAAB+nicbVA9T8MwFHzhs5SvUEaWiAqpLFXKAmwVLIxFIrRSE1WO67RWbSeyHdQqyl9hYQDEyi9h49/gtBmg5SRLp7v39M4XJowq7brf1tr6xubWdmWnuru3f3BoH9UeVZxKTDwcs1j2QqQIo4J4mmpGeokkiIeMdMPJbeF3n4hUNBYPepaQgKORoBHFSBtpYNf8EeIcNXyO9DiMsml+PrDrbtOdw1klrZLUoURnYH/5wxinnAiNGVKq33ITHWRIaooZyat+qkiC8ASNSN9QgThRQTbPnjtnRhk6USzNE9qZq783MsSVmvHQTBYR1bJXiP95/VRHV0FGRZJqIvDiUJQyR8dOUYQzpJJgzWaGICypyergMZIIa1NX1ZTQWv7yKvEumtdN996tt2/KNipwAq<latexitsha1_base64="Wrp6sfGRkT1YIiwCAWhsRUGPisw=">AAAB73icbVA9T8MwFHwpX6UUCF1ZLCqkslQJC7AhsTAWidBKbVQ5rtNatZ3IdlCrKH+FhQEQ/4aNf4PTdoCWkyyd7t7TO1+UcqaN5307la3tnd296n7toH54dOye1J90kilCA5LwRPUirClnkgaGGU57qaJYRJx2o+ld6XefqdIskY9mntJQ4LFkMSPYWGnoNgZjLARuDQQ2kyjOZ8XF0G16bW8BtEn8FWnCCp2h+zUYJSQTVBrCsdZ930tNmGNlGOG0qA0yTVNMpnhM+5ZKLKgO80X2Ap1bZYTiRNknDVqovzdyLLSei8hOlhH1uleK/3n9zMTXYc5kmhkqyfJQnHFkElQWgUZMUWL43BJMFLNZEZlghYmxddVsCf76lzdJcNm+aXsPHlThFM6gBT5cwS<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKRUGPisw=">AAAB73icbVA9T8MwFHwpX6UUCF1ZLCqkslQJC7AhsTAWidBKbVQ5rtNatZ3IdlCrKH+FhQEQ/4aNf4PTdoCWkyyd7t7TO1+UcqaN5307la3tnd296n7toH54dOye1J90kilCA5LwRPUirClnkgaGGU57qaJYRJx2o+ld6XefqdIskY9mntJQ4LFkMSPYWGnoNgZjLARuDQQ2kyjOZ8XF0G16bW8BtEn8FWnCCp2h+zUYJSQTVBrCsdZ930tNmGNlGOG0qA0yTVNMpnhM+5ZKLKgO80X2Ap1bZYTiRNknDVqovzdyLLSei8hOlhH1uleK/3n9zMTXYc5kmhkqyfJQnHFkElQWgUZMUWL43BJMFLNZEZlghYmxddVsCf76lzdJcNm+aXsPHlThFM6gBT5cwS<latexitsha1_base64="6F05rQ6IIUhALFsWYUmK9e9lt8M=">AAAB2HicbZDNSgMxFIXv1L86Vq1rN8EiuCpTN+pOcOOygmML7VAymTttaCYzJHeEMvQFXLhRfDB3vo3pz0KtBwIf5yTk3hMXSloKgi+vtrW9s7tX3/cPGv7h0XGz8WTz0ggMRa5y04+5RSU1hiRJYb8wyLNYYS+e3i3y3jMaK3P9SLMCo4yPtUyl4OSs7qjZCtrBUmwTOmtowVqj5ucwyUWZoSahuLWDTlBQVHFDUiic+8PSYsHFlI9x4FDzDG1ULcecs3PnJCzNjTua2NL9+aLimbWzLHY3M04T+zdbmP9lg5LS66iSuigJtVh9lJaKUc4WO7NEGhSkZg64MNLNysSEGy7INeO7Djp/N96E8LJ90w4eAqjDKZzBBXTgCm7hHroQgoAEXuDNm3iv3vuqqp<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlNVojHSCKsTV01U4K7/OVV4p23rlvO/UWjfVO2UQXH4A<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlNVojHSCKsTV01U4K7/OVV4p23rlvO/UWjfVO2UQXH4A<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlNVojHSCKsTV01U4K7/OVV4p23rlvO/UWjfVO2UQXH4A
(X)
60
256
256
256
256

CvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlN<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlN<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlN<latexitsha1_base64="C39OhB+IczRcjLNINXH29e9lt8M=">AAAB2HicbZDNSgMxFIXv1L86Vq1rN8EivIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlN<latexitsha1_base64="hQhj+CULGdG3QS0LVa1KRUGPisw=">AAAB73icbVA9T8MwFHwpX6UUCF1ZLCqkvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlN<latexitsha1_base64="hQhj+CULGdG3QS0LVa1KRUGPisw=">AAAB73icbVA9T8MwFHwpX6UUCF1ZLCqkLFXKAmwVLIxFIrRSE1WO67RWbSeyHdQqyl9hYQDEyi9h49/gtBmg5SRLp7v39M4XJowq7brf1tr6xubWdmWnuru3f3BoH9UeVZxKTDwcs1j2QqQIo4J4mmpGeokkiIeMdMPJbeF3n4hUNBYPepaQgKORoBHFSBtpYNf8EeIcNXyO9DiMsml+PrDrbtOdw1klrZLUoURnYH/5wxinnAiNGVKq33ITHWRIaooZyat+qkiC8ASNSN9QgThRQTbPnjtnRhk6USzNE9qZq783MsSVmvHQTBYR1bJXiP95/VRHV0FGRZJqIvDiUJQyR8dOUYQzpJJgzWaGICyp<latexitsha1_base64="Wrp6sfGRkT1YIiwCAWhsM6HtC1M=">AAAB+nicbVA9T8MwFHzhs5SvUEaWiAqpslQJC7AhsTAWidBKbVQ5rtNatZ3IdlCrKH+FhQEQ/4aNf4PTdoCWkyyd7t7TO1+UcqaN5307la3tnd296n7toH54dOye1J90kilCA5LwRPUirClnkgaGGU57qaJYRJx2o+ld6XefqdIskY9mntJQ4LFkMSPYWGnoNgZjLARuDQQ2kyjOZ8XF0G16bW8BtEn8FWnCCp2h+zUYJSQTVBrCsdZ930tNmGNlGOG0qA0yTVNMpnhM+5ZKLKgO80X2Ap1bZYTiRNknDVqovzdyLLSei8hOlhH1uleK/3n9zMTXYc5kmhkqyfJQnHFkElQWgUZMUWL43BJMFLNZ<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCslQJC7AhsTAWidBKbVQ5rtNatZ3IdlCrKH+FhQEQ/4aNf4PTdoCWkyyd7t7TO1+UcqaN5307la3tnd296n7toH54dOye1J90kilCA5LwRPUirClnkgaGGU57qaJYRJx2o+ld6XefqdIskY9mntJQ4LFkMSPYWGnoNgZjLARuDQQ2kyjOZ8XF0G16bW8BtEn8FWnCCp2h+zUYJSQTVBrCsdZ930tNmGNlGOG0qA0yTVNMpnhM+5ZKLKgO80X2Ap1bZYTiRNknDVqovzdyLLSei8hOlhH1uleK/3n9zMTXYc5kmhkqyfJQnHFkElQWgUZMUWL43BJMFLNZ<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCuCpTN+pOcOOygmML7VAymTttaCYzJHeEMvQFXLhRfDB3vo3pz0KtBwIf5yTk3hMXSloKgi+vtrW9s7tX3/cPGv7h0XGz8WTz0ggMRa5y04+5RSU1hiRJYb8wyLNYYS+e3i3y3jMaK3P9SLMCo4yPtUyl4OSs7qjZCtrBUmwTOmtowVqj5ucwyUWZoSahuLWDTlBQVHFDUiic+8PSYsHFlI9x4FDzDG1ULcecs3PnJCzNjTua2NL9+aLimbWzLHY3M04T+zdbmP9lg5LS66iSuigJtVh9lJaKUc4WO7NEGhSkZg64MNLNysSEGy7INeO7Djp/N96E8LJ9<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlN<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlN<latexitsha1_base64="6F05rQ6IIUhALFsWYUmKYX8h5zw=">AAAB+nicbVBPS8MwHE3nvzn/1Xn0EhzCvIxWBPU29OJxgnWDtYw0S7ewJC1JKhulX8WLBxWvfhJvfhvTrQfdfBB4vPf78Xt5YcKo0o7zbVXW1jc2t6rbtZ3dvf0D+7D+qOJUYuLhmMWyFyJFGBXE01Qz0kskQTxkpBtObgu/+0SkorF40LOEBByNBI0oRtpIA7vujxDnqOlzpMdhlE3zs4HdcFrOHHCVuCVpgBKdgf3lD2OcciI0ZkipvuskOsiQ1BQzktf8VJEE4Qkakb6hAnGigmyePYenRhnCKJbmCQ3n6u+NDHGlZjw0k0VEtewV4n9eP9XRVZBRkaSaCLw4FKUM6hgWRcAhlQRrNjMEYUlN
(X)

+
60

256

en la posiciónX,visto por un rayo con direcciónd.


256
B. Mildenhall, PP Srinivasan, M. Tancik et al.

256

B Detalles adicionales del método de referencia

procedimiento de entrenamiento en una sola escena.


256

entrenamiento en una sola escena sin dependencia del tiempo.


r2zu7dvHzQeVJJJTDycsET2Q6QIo4J4mmpG+qkkiIeM9MLJTen3HolUNBH3epqSgKORoDHFSBtpaDf8EeIctXyO9DiM86g4HdpNp+3MAJeJW5EmqNAd2l9+lOCME6ExQ0oNXCfVQY6kppiRou5niqQIT9CIDAwViBMV5LPsBTwxSgTjRJonNJypvzdyxJWa8tBMlhHVoleK/3mDTMeXQU5Fmmki8PxQnDGoE1gWASMqCdZsagjCkpqsEI+RRFibuuqmBHfxy8vEO2tftZ2782bnumqjBo7AMWgBF1yADrgFXeABDJ7AM3gFb1ZhvVjv1sd8dMWqdg7BH1ifPyGTlAsha1_base64="Z+u0Yue3pS9TMvqDyVRY2E+Un5Q=">AAAB+nicbVBPS8MwHE39O+e/Oo9egkOYl9GKoN6GXjxOsG6wlpGm6RaWpCVJxVH6Vbx4UPHqJ/HmtzHdetDNB4HHe78fv5cXpowq7Tjf1srq2vrGZm2rvr2zu7dvHzQeVJJJTDycsET2Q6QIo4J4mmpG+qkkiIeM9MLJTen3HolUNBH3epqSgKORoDHFSBtpaDf8EeIctXyO9DiM86g4HdpNp+3MAJeJW5EmqNAd2l9+lOCME6ExQ0oNXCfVQY6kppiRou5niqQIT9CIDAwViBMV5LPsBTwxSgTjRJonNJypvzdyxJWa8tBMlhHVoleK/3mDTMeXQU5Fmmki8PxQnDGoE1gWASMqCdZsagjCkpqsEI+RRFibuuqmBHfxy8vEO2tftZ2782bnumqjBo7AMWgBF1yADrgFXeABDJ7AM3gFb1ZhvVjv1sd8dMWqdg7BH1ifPyGTlA<latexitsha1_base64="Z+u0Yue3pS9TMvqDyVRY2E+Un5Q=">AAAB+nicbVBPS8MwHE39O+e/Oo9egkOYl9GKoN6GXjxOsG6wlpGm6RaWpCVJxVH6Vbx4UPHqJ/HmtzHdetDNB4HHe78fv5cXpowq7Tjf1srq2vrGZm2rvr2zu7dvHzQeVJJJTDycsET2Q6QIo4J4mmpG+qkkiIeM9MLJTen3HolUNBH3epqSgKORoDHFSBtpaDf8EeIctXyO9DiM86g4HdpNp+3MAJeJW5EmqNAd2l9+lOCME6ExQ0oNXCfVQY6kppiRou5niqQIT9CIDAwViBMV5LPsBTwxSgTjRJonNJypvzdyxJWa8tBMlhHVoleK/3mDTMeXQU5Fmmki8PxQnDGoE1gWASMqCdZsagjCkpqsEI+RRFibuuqmBHfxy8vEO2tftZ2782bnumqjBo7AMWgBF1yADrgFXeABDJ7AM3gFb1ZhvVjv1sd8dMWqdg7BH1ifPyGTlA
IljA7mU3GzGOZmRXCkn/w4kHFqx/kzb9xkuxBEwsaiqpuurvilDNjff/bW1ldW9/YLG2Vt3d29/YrB4dNozJNaEgUV7odY0M5kzS0zHLaTjXFIua0FY9up37riWrDlHyw45RGAg8kSxjB1knNrmEDgXuVql/zZ0DLJChIFQo0epWvbl+RTFBpCcfGdAI/tVGOtWWE00m5mxmaYjLCA9pxVGJBTZTPrp2gU6f0UaK0K2nRTP09kWNhzFjErlNgOzSL3lT8z+tkNrmKcibTzFJJ5ouSjCOr0PR11GeaEsvHjmCimbsVkSHWmFgXUNmFECy+vEzC89p1zb+/qNZvijRKcAwncAYBXEId7qABIRB4hGd4hTdPeS/eu/cxb13xipkj+APv8wcIeY72</la<latexitsha1_base64="PHtNjW6na207435B/B6JIWe5ANM=">AAAB7HicbVDLSgNBEOz1GeMr6tHLYBA8hV0R1FvQi8cIbhJIljA7mU3GzGOZmRXCkn/w4kHFqx/kzb9xkuxBEwsaiqpuurvilDNjff/bW1ldW9/YLG2Vt3d29/YrB4dNozJNaEgUV7odY0M5kzS0zHLaTjXFIua0FY9up37riWrDlHyw45RGAg8kSxjB1knNrmEDgXuVql/zZ0DLJChIFQo0epWvbl+RTFBpCcfGdAI/tVGOtWWE00m5mxmaYjLCA9pxVGJBTZTPrp2gU6f0UaK0K2nRTP09kWNhzFjErlNgOzSL3lT8z+tkNrmKcibTzFJJ5ouSjCOr0PR11GeaEsvHjmCimbsVkSHWmFgXUNmFECy+vEzC89p1zb+/qNZvijRKcAwncAYBXEId7qABIRB4hGd4hTdPeS/eu/cxb13xipkj+APv8wcIeY72</la<latexitsha1_base64="PHtNjW6na207435B/B6JIWe5ANM=">AAAB7HicbVDLSgNBEOz1GeMr6tHLYBA8hV0R1FvQi8cIbhJIljA7mU3GzGOZmRXCkn/w4kHFqx/kzb9xkuxBEwsaiqpuurvilDNjff/bW1ldW9/YLG2Vt3d29/YrB4dNozJNaEgUV7odY0M5kzS0zHLaTjXFIua0FY9up37riWrDlHyw45RGAg8kSxjB1knNrmEDgXuVql/zZ0DLJChIFQo0epWvbl+RTFBpCcfGdAI/tVGOtWWE00m5mxmaYjLCA9pxVGJBTZTPrp2gU6f0UaK0K2nRTP09kWNhzFjErlNgOzSL3lT8z+tkNrmKcibTzFJJ5ouSjCOr0PR11GeaEsvHjmCimbsVkSHWmFgXUNmFECy+vEzC89p1zb+/qNZvijRKcAwncAYBXEId7qABIRB4hGd4hTdPeS/eu/cxb13xipkj+APv8wcIeY72</la
+
24
256

(d)

código abierto por los autores enhttps://github.com/Fyusion/LLFF.


128

renderizada. En un NVIDIA V100, esto toma aproximadamente 30 segundos por cuadro.


RGB

se pasa a través de 8 capas ReLU totalmente conectadas, cada una con 256 canales.

autores enhttps://github.com/vsitzmann/scene-representation-ne y seguir su


activación, las flechas negras discontinuas indican capas con activación sigmoidea y "+"

esta entrada a la activación de la quinta capa. Una capa adicional genera la densidad de
vectores de salida se muestran en rojo y el número dentro de cada bloque representa la

El conjunto de datos requiere 640 000 rayos por imagen y nuestras escenas reales requieren 762 000
de entrada se muestran en verde, las capas ocultas intermedias se muestran en azul, los

Seguimos la arquitectura DeepSDF [32] e incluimos una conexión de salto que concatena

rayos por imagen, lo que da como resultado entre 150 y 200 millones de consultas de red por imagen
flechas negras indican capas con activaciones ReLU, las flechas naranjas indican capas sin
dimensión del vector. Todas las capas son capas estándar completamente conectadas, las

entrada (γ(d)), y es procesado por una capa ReLU adicional completamente conectada con

enhttps://github.com/facebookresearch/neuralvolumesy seguir su procedimiento de

Fusión de campo de luz local (LLFF) [28]Usamos el modelo LLFF preentrenado de


volumenσ(que se rectifica utilizando un ReLU para garantizar que la densidad del volumen
Fig. 7: Una visualización de nuestra arquitectura de red totalmente conectada. Los vectores

de salida no sea negativa) y un vector de características de 256 dimensiones. Este vector de

128 canales. Una capa final (con una activación sigmoidea) genera la radiación RGB emitida

Volúmenes neuronales (NV) [24]Usamos el código NV de código abierto de los autores


características se concatena con la codificación posicional de la dirección de visualización de
indica concatenación de vectores. La codificación posicional de la ubicación de entrada (γ(X))

Redes de Representación de Escenas (SRN) [42]Usamos el código SRN abierto por los
NeRF: representación de escenas como campos de radiación neuronal para la síntesis de vistas 19

Comparaciones cuantitativasLa implementación de SRN publicada por los autores requiere


una cantidad significativa de memoria GPU y está limitada a una resolución de imagen de
512×512 píxeles incluso cuando está en paralelo en 4 GPU NVIDIA V100. Calculamos
métricas cuantitativas para SRN en 512×512 píxeles para nuestros conjuntos de datos
sintéticos y 504×376 píxeles para los conjuntos de datos reales, en comparación con 800×
800 y 1008×752 respectivamente para los otros métodos que se pueden ejecutar a
resoluciones más altas.

Derivación del espacio de rayos C NDC

Reconstruimos escenas reales con capturas "orientadas hacia adelante" en el espacio de


coordenadas de dispositivo normalizado (NDC) que se usa comúnmente como parte de la
canalización de rasterización de triángulos. Este espacio es conveniente porque conserva líneas
paralelas mientras convierte elzeje (eje de la cámara) para ser lineal en disparidad.
Aquí derivamos la transformación que se aplica a los rayos para mapearlos desde el espacio
de la cámara al espacio NDC. La matriz de proyección de perspectiva 3D estándar para
coordenadas homogéneas es:

-norte -
r 0 0 0
-0 t norte
0 0 -
METRO=
-0- 0−(F+norte)−2fn- - (7)
f−n f−n
0 0−1 0

dóndenorte, fson los planos de recorte cercano y lejano yrytson los límites derecho y superior de
la escena en el plano de recorte cercano. (Tenga en cuenta que esto es en la convención donde la
cámara está mirando en el−zdirección.) Para proyectar un punto homogéneo (x, y, z,1)>,
multiplicamos a la izquierda por M y luego dividimos por la cuarta coordenada:

-norte -- - - -
0 0 0 X rX
norte

r
-0 t 0 0 -- - - -
= --−(F+norte) zty-−2fn
norte norte

--0 0−(F+norte)−2fn --y- - (8)


--z- -
f−n f−n f−n f−n
0 0−1 0 1 −z
- nx
-
r-z
- -
proyecto→- - (9)
Nueva York

t-z
2fn1
(F+norte)
f−n − f-n-z

El punto proyectado ahora está en el espacio de coordenadas de dispositivo normalizado (NDC),


donde el tronco de visualización original se ha asignado al cubo [−1,1]3.
Nuestro objetivo es tomar un rayoo+tdy calcular el origen de un rayoo′y direcciond′
en el espacio NDC tal que para cadat, existe un nuevot′para cualπ(o +td) = o′+t′d′(dónde
πes la proyección utilizando la matriz anterior). En otras palabras, la proyección del
rayo original y el rayo espacial NDC trazan los mismos puntos (pero no
necesariamente a la misma velocidad).
20 B. Mildenhall, PP Srinivasan, M. Tancik et al.

Reescribamos el punto proyectado de la ecuación. 9 como (aXx/z, unyy/z, unz+bz/z)>.


Los componentes del nuevo origeno′y direcciond′debe satisfacer:

- -
aX ooXz++td
tdX
z -
- -
- o′X+td′ ′ X
-aoy+tdy - - = -o′ y+td′- y

. (10)
- yoz+tdz
oz′+t′d′ z
az+oz+tdzbz

Para eliminar un grado de libertad, decidimos quet′=0 yt=0 debe corresponder al


mismo punto. Sustituyendot=0 yt′=0 ecuación 10 da directamente nuestro origen
espacial NDCo′:
- -
- - axoz
oX
oX′ - oy --
o′= -o′- =- (11)
y -ay oz - =π(o).
oz′
az+bz oz

Esta es exactamente la proyección.π(o)del origen del rayo original. Sustituyendo esto


de nuevo en la Ecn. 10 para arbitrariot, podemos determinar los valores det′yd′:

- -
- - oX+tdX
axoz+tdz − aX ooXz
t′d′X - -
aoy+tdy -
-t′d′- y =-
- yoz+tdz − ay ooyz - (12)
t′d′z
az+oz+tdzbz − az − bz
oz
- -
aX oz(oX+td(Xo)z−oX(oz+tdz)
+tdz)oz
- -
- oz(oy+tdy)−oy(oz+tdz)-
= -ay - (13)
- (oz+tdz)oz
-
bz o(zo−z(+otd
z+tdz)
z)oz

- ( )-
tdz dX−oX
- axoz+tdz (
dz oz
)-
- -
= -a tdz dy
− oy - (14)
-yoz+tdz dz oz -
tdz 1
- segundozoz+tdzoz

Factorizando una expresión común que depende solo detNos da:

tdz oz
t′= = 1− (15)
oz+tdz oz+tdz
- ( )-
dX
aX dz − oX
oz)-
- (
- -
d′= - dy
− oy -.
-ay
(dieciséis)
dz oz -
1
- segundozoz
NeRF: representación de escenas como campos de radiación neuronal para la síntesis de vistas 21

Tenga en cuenta que, como se desee,t′=0 cuandot=0. Además, vemos quet′→1 como t
→∞. Volviendo a la matriz de proyección original, nuestras constantes son:

norte
aX=− (17)
r
norte
ay=− (18)
t
F+norte
az= (19)
f-n
2fn
bz= (20)
f-n

Usando el modelo de cámara estenopeica estándar, podemos reparametrizar como:

Fleva
aX=− (21)
con2
Fleva
ay=− (22)
H/2

dóndeWyHson el ancho y el alto de la imagen en píxeles yFlevaes la distancia


focal de la cámara.
En nuestras capturas frontales reales, asumimos que el límite de la escena lejana es
infinito (esto nos cuesta muy poco ya que NDC usa elzdimensión para representar inverso
profundidad, es decir, disparidad). En este límite elzlas constantes se simplifican a:

az=1 (23)
bz=2norte (24)

Combinando todo junto:


- -
− FlevaoX
con2oz-
-
o′= - Flevaoy- (25)
-− H/2oz -
1 +2norte
oz
- ( )-
dX
− Fleva
d−
z oX o
-con2 ( )- -
- z
d′= -−Fleva dy oy -. (26)
-H/2 dz− oz -
− 2norteoz 1

Un último detalle en nuestra implementación: cambiamosoa la intersección del rayo con el


plano cercano enz=−n(antes de esta conversión NDC) tomandoonorte=o +tnorted paratnorte=−(
norte+oz)/dz. Una vez que convertimos al rayo NDC, esto nos permite simplemente
muestreart′linealmente de 0 a 1 para obtener un muestreo lineal en disparidad de nortea∞
en el espacio original.
Ground Truth NeRF (nuestro) LLFF [28] SRN [42] NV [24]

Fig. 8: Comparaciones en vistas de conjuntos de prueba para escenas del conjunto de datos
sintéticos DeepVoxels [41]. Los objetos en este conjunto de datos tienen una geometría simple y
una reflectancia perfectamente difusa. Debido a la gran cantidad de imágenes de entrada (479
vistas) y la simplicidad de los objetos renderizados, tanto nuestro método como LLFF [28]
funcionan casi a la perfección con estos datos. LLFF todavía presenta ocasionalmente artefactos al
interpolar entre sus volúmenes 3D, como en el recuadro superior de cada objeto. SRN [42] y NV
[24] no tienen el poder de representación para brindar detalles finos.

D Resultados adicionales

Desglose por escenaLas tablas 3, 4, 5 y 6 incluyen un desglose de los resultados


cuantitativos presentados en el documento principal en métricas por escena. El desglose
por escena es consistente con las métricas cuantitativas agregadas presentadas en el
documento, donde nuestro método supera cuantitativamente todas las líneas de base.
Aunque LLFF logra métricas LPIPS ligeramente mejores, instamos a los lectores a ver
nuestro video complementario donde nuestro método logra una mejor consistencia de
múltiples vistas y produce menos artefactos que todas las líneas de base.
NeRF: representación de escenas como campos de radiación neuronal para la síntesis de vistas 23

PSNR↑ SSIM↑ LPIPS↓


Silla Cubo de pedestal Florero Silla Pedestal Cubo Florero Silla Pedestal Cubo Florero

Voxeles profundos [41] 33.45 32.35 28.42 27.99 0.99 0.97 0.97 0.96 − − − −
SRN [42] 36.67 35.91 28.74 31.46 35.15 36 0.982 0.957 0.944 0.969 0.093 0.081 0.074 0.044
NV [24] .47 26.48 20.39 36.11 35.87 32. 0.980 0.963 0.916 0.857 0.096 0.069 0.113 0.117
LLFF [28] 58 32.97 42.65 41.44 39.19 37.32 0.992 0.983 0.983 0.983 0.051 0.039 0.064 0.039
Nuestro 0.991 0.986 0.996 0.992 0.047 0.024 0.006 0.017

Tabla 3: Resultados cuantitativos por escena del conjunto de datos DeepVoxels [41]. Las
"escenas" en este conjunto de datos son todos objetos difusos con geometría simple,
renderizados a partir de mallas mapeadas con textura capturadas por un escáner 3D. Las
métricas para el método DeepVoxels se toman directamente de su papel, que no informa
LPIPS y solo informa dos cifras significativas para SSIM.

PSNR↑
Silla Tambores Ficus Materiales de Lego para perritos calientes Micrófono Barco
SRN [42] 26.96 17.18 20.73 26.81 20.85 18.09 26.85 20.60 24.
NV [24] 28.33 22.58 24.79 30.71 26.08 22 27.78 23.93
LLFF [28] 28.72 21.13 21.79 31.41 24.54 20.72 27.48 23.22
Nuestro 33.00 25.01 30.13 36.18 32.54 29.62 32.91 28.sesenta y cinco

SSIM↑
Silla Tambores Ficus Hotdog Lego Materiales Micrófono Barco
SRN [42] 0.910 0.766 0.849 0.923 0.809 0.808 0.947 0.757
NV [24] 0.916 0.873 0.910 0.944 0.880 0.888 0.946 0.784
LLFF [28] 0.948 0.890 0.896 0.965 0.911 0.890 0.964 0.823
Nuestro 0.967 0.925 0.964 0.974 0.961 0.949 0.980 0.856

LPIPS↓
Silla Tambores Ficus Hotdog Lego Materiales Micrófono Barco
SRN [42] 0.106 0.267 0.149 0.100 0.200 0.174 0.063 0.299
NV [24] 0.109 0.214 0.162 0.109 0.175 0.130 0.107 0.276
LLFF [28] 0.064 0.126 0.130 0.061 0.110 0.117 0.084 0.218
Nuestro 0.046 0.091 0.044 0.121 0.050 0.063 0.028 0.206

Tabla 4: Resultados cuantitativos por escena de nuestro conjunto de datos sintéticos realistas. Las
"escenas" en este conjunto de datos son todos objetos con gometría más compleja y materiales que no
son Lambertianos, renderizados usando el trazador de rutas Cycles de Blender.
24 B. Mildenhall, PP Srinivasan, M. Tancik et al.

PSNR↑
Hojas Fortaleza Orquídeas Flor T-Rex Cuernos
habitación helecho
SRN [42] 27.29 21.37 18.24 26.63 17.37 24.63 22.87 24.33
LLFF [28] 28.42 22.85 19.52 29.40 18.52 25.46 24.15 24.70
Nuestro 32.70 25.17 20.92 31.16 20.36 27.40 26.80 27.45

SSIM↑
Habitación Hojas Fortaleza Orquídeas Flor T-Rex Cuernos
Helecho

SRN [42] 0.883 0.611 0.520 0.641 0.449 0.738 0.761 0.742
LLFF [28] 0.932 0.7530.697 0.872 0.588 0.844 0.8570.840
Nuestro 0.948 0.7920.690 0.881 0.641 0.827 0.8800.828

LPIPS↓
Habitación Hojas Fortaleza Orquídeas Flor T-Rex Cuernos
Helecho

SRN [42] 0.240 0.459 0.440 0.453 0.467 0.288 0.298 0.376
LLFF [28]0.155 0.247 0.216 0.173 0.313 0.174 0.222 0.193 0.
Nuestro 0.178 0.280 0.316 0.171 0.321 219 0.249 0.268

Tabla 5: Resultados cuantitativos por escena de nuestro conjunto de datos de imágenes reales. Todas las escenas
en este conjunto de datos se capturaron con un teléfono celular de mano orientado hacia adelante.
NeRF: representación de escenas como campos de radiación neuronal para la síntesis de vistas 25

PSNR↑
Silla Tambores Ficus Hotdog Lego Materiales Barco
Micrófono

1) Sin PE, VD, H 28.44 23.11 25.17 32.24 26.38 24.69 28.16 25.12 30.33
2) Sin pos. Codificación 24.54 29.32 33.16 27.75 27.79 30.76 26.55 23.41 25.91 32.
3) Sin dependencia de vista 30.06 65 29.93 24.96 28.62 25.72
4) Sin jerarquía 31.32 24.55 29.25 35.24 31.42 29.22 31.74 27.73
5) Muchas menos imágenes 30.92 22.62 24.39 32.77 27.97 26.55 30.47 26.57 32.19 23.70 27.45
6) Menos Imágenes 34.91 31.53 28.54 32.33 27.67
7) Menos frecuencias 32.1925.29 30.73 36.06 30.77 29.77 31.66 28.26
8) Más frecuencias 32.87 24.65 29.92 35.78 32.50 29.54 32.86 28.34
9) Modelo completo 33.0025.01 30.1336.18 32.5429.62 32.91 28.sesenta y cinco

SSIM↑
Silla Tambores Ficus Hotdog Lego Materiales Micrófono Barco
1) Sin PE, VD, H 0.919 0.896 0.926 0.955 0.882 0.938 0. 0.905 0.955 0.810
2) Sin pos. Codificación 918 0.953 0.956 0.903 0.948 0.906 0.938 0.933 0.968 0.824
3) Sin dependencia de vista 0.961 0.947 0.951 0.914 0.956 0.969 0. 0.912 0.962 0.828
4) Sin jerarquía 951 0.944 0.973 0.844
5) Muchas menos imágenes 0.956 0.895 0.922 0.966 0.930 0.963 0. 0.925 0.972 0.832
6) Menos Imágenes 911 0.948 0.971 0.957 0.941 0.979 0.847
7) Menos frecuencias 0.9590.928 0.965 0.972 0.947 0.952 0.973 0.853
8) Más frecuencias 0.967 0.921 0.962 0.973 0.961 0.948 0.980 0.853
9) Modelo completo 0.9670.925 0.9640.974 0.961 0.949 0.980 0.856

LPIPS↓
Silla Tambores Ficus Hotdog Lego Materiales Micrófono Barco
1) Sin PE, VD, H 0.095 0.168 0.084 0.104 0.178 0.076 0. 0.111 0.084 0.261
2) Sin pos. Codificación 104 0.050 0.124 0.128 0.075 0.148 0.113 0.079 0.041 0.261
3) Sin dependencia de vista 0.112 0.088 0.065 0.177 0.056 0.130 0. 0.102 0.073 0.220
4) Sin jerarquía 072 0.080 0.039 0.249
5) Muchas menos imágenes 0.058 0.173 0.082 0.123 0.081 0.051 0. 0.079 0.035 0.229
6) Menos Imágenes 166 0.057 0.121 0.055 0.068 0.029 0.223
7) Menos frecuencias 0.055 0.1430.038 0.0870.071 0.060 0.029 0.219
8) Más frecuencias 0.047 0.158 0.045 0.116 0.050 0.064 0.027 0.261
9) Modelo completo 0.046 0.0910.044 0.121 0.050 0.063 0.028 0.206

Tabla 6: Resultados cuantitativos por escena de nuestro estudio de ablación. Las escenas utilizadas aquí
son las mismas que en la Tabla 4.

También podría gustarte