Garbin FastNeRF 2021 Paper - En.es

Traducido del inglés al español - www.onlinedoctranslator.
com
FastNeRF: Representación neuronal de alta fidelidad a 200FPS
Stephan J. Garbin* marek kowalski* matthew johnson

jamie shotton julián valentín
icros
NeRF a 0.06FPS NeRF a 31 FPS FastNeRF a 200FPS

Figura 1.FastNeRFofrece vistas novedosas fotorrealistas de objetos de alta resolución a cientos de fotogramas por segundo. Los métodos existentes comparables,
como NeRF, son órdenes de magnitud más lentos y solo pueden generar imágenes de muy baja resolución a velocidades interactivas.
Resumen esfuerzo manual significativo en el diseño o preprocesamiento de la

escena para lograr calidad y velocidad. Recientemente, la
El trabajo reciente en Neural Radiance Fields (NeRF) representación neuronal [10,27,17,25,19] ha ofrecido una alternativa
mostró cómo las redes neuronales se pueden usar para disruptiva: involucrar una red neuronal en la tubería de renderizado
codificar entornos 3D complejos que se pueden para generar imágenes directamente [24,18,27] o para modelar
representar de manera fotorrealista desde puntos de vista funciones implícitas que representen una escena apropiadamente [5,23,
novedosos. La renderización de estas imágenes es muy 29,25,40]. Más allá del renderizado, algunos de estos enfoques
exigente desde el punto de vista computacional y las reconstruyen implícitamente una escena a partir de cámaras estáticas o
mejoras recientes todavía están muy lejos de permitir en movimiento [25,36,1], lo que simplifica enormemente las
velocidades interactivas, incluso en hardware de gama alta. canalizaciones de reconstrucción tradicionales utilizadas en la visión
Motivados por escenarios en dispositivos móviles y de artificial.
realidad mixta, proponemos FastNeRF, el primer sistema Uno de los avances recientes más destacados en la representación
basado en NeRF capaz de generar imágenes fotorrealistas neuronal es Neural Radiance Fields (NeRF) [25] que, dado un puñado de
de alta fidelidad a 200 Hz en una GPU de consumo de gama imágenes de una escena estática, aprende una representación volumétrica
alta. El núcleo de nuestro método es una factorización implícita de la escena que se puede representar desde puntos de vista
inspirada en gráficos que permite (i) almacenar en caché de novedosos. Las imágenes renderizadas son de alta calidad y conservan
forma compacta un mapa de radiación profunda en cada correctamente las estructuras delgadas, los efectos dependientes de la vista y
posición en el espacio, (ii) consultar de manera eficiente ese las superficies parcialmente transparentes. NeRF ha inspirado un importante
mapa usando direcciones de rayos para estimar los valores trabajo de seguimiento que ha abordado algunas de sus limitaciones, en
de píxeles en la imagen renderizada. particular las extensiones a escenas dinámicas [31,7,46], volver a encender [2,
3,37], e incorporación de la incertidumbre [22].
Un desafío común para todos los enfoques basados en NeRF

son sus altos requisitos computacionales para renderizar
1. Introducción
imágenes. El núcleo de este desafío reside en la representación
La representación de escenas en tiempo real con calidad fotorrealista ha sido volumétrica de la escena de NeRF. Se requieren más de 100
durante mucho tiempo un objetivo de los gráficos por computadora. Los enfoques llamadas de red neuronal para renderizar un solo píxel de imagen,
tradicionales, como la rasterización y el trazado de rayos, a menudo requieren lo que se traduce en varios segundos necesarios para renderizar
* Denota igual contribución

imágenes de baja resolución en GPU de gama alta. Exploraciones
recientes [35,15,28,dieciséis] realizado con el objetivo de mejorar
Sitio web del proyecto:https://microsoft.github.io/FastNeRF los requisitos computacionales de NeRF redujo el
14346
tiempo de renderizado hasta 50×. Si bien son impresionantes, estos avances NeRF también tiene grandes requisitos de memoria. Un solo pase hacia
todavía están muy lejos de habilitar la renderización en tiempo real en adelante de NeRF requiere realizar cientos de pases hacia adelante a
hardware de nivel de consumidor. Nuestro trabajo cierra esta brecha través de una capa de ocho256unidad oculta MLP por píxel. Si los
mientras mantiene la calidad, lo que abre una amplia gama de nuevas píxeles se procesan en paralelo por motivos de eficiencia, esto consume
aplicaciones para la representación neuronal. Además, nuestro método grandes cantidades de memoria, incluso a resoluciones moderadas.
podría formar el bloque de construcción fundamental para la representación Dado que muchos escenarios naturales (p.ej. una sala de estar, un
neuronal en altas resoluciones. jardín) son escasos, podemos almacenar nuestro caché escasamente.
Para lograr este objetivo, utilizamos el almacenamiento en caché para En algunos casos, esto puede hacer que nuestro método sea realmente
intercambiar memoria por eficiencia computacional. Como NeRF es más eficiente en memoria que NeRF.
fundamentalmente una función de posicionespags∈R3y direcciones de rayosd∈R2 En resumen, nuestras principales contribuciones son:
colorearC∈R3(RGB) y una densidad escalarσ, un enfoque ingenuo

• El primer sistema basado en NeRF capaz de generar vistas
sería construir una representación en caché de esta función en el
novedosas fotorrealistas en200FPS, miles de veces más
espacio de sus parámetros de entrada. Ya queσsolo depende de
rápido que NeRF.
pags,se puede almacenar en caché usando metodologías
existentes. El colorC, sin embargo, es una función de la dirección • Una factorización inspirada en gráficos que se puede almacenar en
del rayodyposiciónpags.Si este espacio de 5 dimensiones se caché de forma compacta y posteriormente consultar para calcular los
discretizara con 512 contenedores por dimensión, se requeriría valores de píxel en la imagen renderizada.
una caché de alrededor de 176 terabytes de memoria, mucho más
de lo que está disponible en el hardware de consumo actual. • Un plano que detalla cómo la factorización propuesta puede
Idealmente, trataríamos las direcciones y posiciones por separado y ejecutarse eficientemente en la GPU.
así evitaríamos la explosión polinomial en el espacio de caché

requerido. Afortunadamente, este problema no es exclusivo de NeRF; la 2. Trabajo relacionado
ecuación de renderizado (módulo la longitud de onda de la luz y el

FastNeRF pertenece a la familia de métodos Neural Radiance Fields [
tiempo) también es una función deR5y resolverlo de manera eficiente es
25] y está capacitado para aprender un mapa de radiación profunda
el principal desafío de los gráficos por computadora en tiempo real.
comprimido e implícito parametrizado por posición y dirección de la
Como tal, hay un gran cuerpo de investigación que investiga formas de
vista que proporciona estimaciones de color y densidad. Nuestro
aproximar esta función, así como medios eficientes para evaluar la
método difiere de [25] en la estructura del modelo implícito,
integral. Una de las aproximaciones más rápidas de la ecuación de
cambiándolo de tal manera que los componentes posicionales y
renderizado implica el uso de armónicos esféricos de modo que la
direccionales se puedan discretizar y almacenar en cuadrículas 3D
integral resulte en un producto escalar de los coeficientes armónicos
dispersas.
del modelo de material y el modelo de iluminación. Inspirándonos en
Esto también diferencia nuestro método de los modelos que utilizan una
esta aproximación eficiente, factorizamos el problema en dos funciones
cuadrícula discretizada en el momento del entrenamiento, como Neural
independientes cuyas salidas se combinan usando su producto interno
Volumes [18] o volúmenes de reflectancia profunda [3]. Debido a los
para producir valores RGB. La primera función toma la forma de un
requisitos de memoria asociados con la generación y el almacenamiento de
perceptrón multicapa (MLP) que está condicionado a la posición en el
volúmenes 3D en el momento del entrenamiento, la resolución de la imagen
espacio y devuelve un mapa compacto de radiación profunda
de salida de [18,3] está limitado por el tamaño de volumen máximo de1283.
parametrizado porDcomponentes La segunda función es una MLP
Por el contrario, nuestro método utiliza volúmenes tan grandes como10243.
condicionada a la dirección del rayo que produceDpesos para elD
Después de [18,3], el problema de la estimación de parámetros para
Componentes del mapa de radiación profunda.
un MLP con coordenadas de entrada de baja dimensión se abordó
utilizando codificaciones de características de Fourier. Después de su
Esta arquitectura factorizada, que llamamos FastNeRF, permite uso en [41], esto se popularizó en [25,49] y explorado en mayor detalle
almacenar en caché de forma independiente las salidas dependientes de la por [40].
posición y de la dirección del rayo. Asumiendo quekyyodenote el número de Campos de radiación neuronal (NeRF) [25] mostró por primera vez una
contenedores para posiciones y direcciones de rayos respectivamente, el compresión convincente de un campo de luz utilizando características de
almacenamiento en caché de NeRF tendría una complejidad de memoria deO Fourier. Usando un modelo completamente implícito, NeRF no está vinculado
(k3yo2). Por el contrario, el almacenamiento en caché de FastNeRF tendría una a ninguna cuadrícula voxelizada, sino solo a un dominio específico. A pesar
complejidad deO(k3∗(1 +D∗3) +yo2∗D). Como resultado de esta complejidad de de los impresionantes resultados, una desventaja de este método es que se
memoria reducida, FastNeRF se puede almacenar en caché en la memoria de debe llamar a un MLP complejo para cada muestra a lo largo de cada rayo, lo
una GPU de consumo de gama alta, lo que permite tiempos de búsqueda de que significa cientos de invocaciones de MLP por píxel de imagen.
funciones muy rápidos que, a su vez, conducen a un aumento espectacular Una forma de acelerar la inferencia de NeRF es escalar a
en el rendimiento del tiempo de prueba. múltiples procesadores. Esto funciona particularmente bien porque
Si bien el almacenamiento en caché consume una cantidad significativa cada píxel en NeRF se puede calcular de forma independiente. Por
de memoria, vale la pena señalar que las implementaciones actuales de un 800×800imagen de píxeles, JaxNeRF [6] logra una inferencia
14347
velocidad de 20,77 segundos en una GPU Nvidia Tesla V100, 2,65 más de 200 Hz en hardware de consumo de gama alta. La idea
segundos en8GPU V100 y 0,35 segundos en 128 unidades de central de nuestro enfoque (Sección3.2) consiste en factorizar NeRF
procesamiento de tensor de segunda generación. De manera similar, el en dos redes neuronales: una red dependiente de la posición que
dominio de integración volumétrica se puede dividir y usar modelos produce un mapa de radiación profunda y una red dependiente de
separados para cada parte. Este enfoque se toma en el método de la dirección que produce pesos. El producto interno de los pesos y
campos de radiación descompuestos [35], donde un dominio de el mapa de radiación profunda estima el color de la escena en la
integración se divide en celdas de Voronoi. Esto produce mejores posición especificada y visto desde la dirección especificada. Esta
puntajes en las pruebas y una aceleración de hasta3×. arquitectura, que llamamos FastNeRF, se puede almacenar en
Una forma diferente de aumentar la eficiencia es darse cuenta caché de manera eficiente (Sección3.3), mejorando
de que las escenas naturales tienden a ser escasas significativamente la eficiencia del tiempo de prueba mientras se
volumétricamente. Por lo tanto, se puede ganar eficiencia preserva la calidad visual de NeRF. Ver figura2para una
saltándose regiones vacías del espacio. Esto equivale a un comparación de las arquitecturas de red NeRF y FastNeRF.
muestreo de importancia de la distribución de ocupación del
3.1. Campos de radiación neuronal
dominio de integración. Un enfoque es usar una cuadrícula de
vóxeles en combinación con la función implícita aprendida por el Un campo de radiación neuronal (NeRF) [25] captura una
MLP, como se propone en Neural Sparse Voxel Fields (NSVF) [ representación 3D volumétrica de una escena dentro de los
dieciséis] y nivel de detalle geométrico neural [38] (solo para SDF), pesos de una red neuronal. La red neuronal de NeRFFNeRF: (p, d
donde se utiliza un octárbol disperso construido dinámicamente )7→ (c, σ)mapea una posición 3Dpags∈R3y una dirección de
para representar la ocupación de la escena. Sin embargo, como rayo d∈R2a un valor de colorCy transparenciaσ. Ver el lado
aún se debe consultar una red dentro de los vóxeles ocupados, los izquierdo de la figura2para un diagrama deFNeRF.
NSVF tardan entre 1 y 4 segundos en generar un 8002imagen, con Para renderizar un solo píxel de imagen, se proyecta un rayo
disminuciones a PSNR en el extremo inferior de esos tiempos. desde el centro de la cámara, que atraviesa ese píxel y entra en la
Nuestro método es mucho más rápido en un escenario similar. escena. Denotamos la dirección de este rayo comod. Varias
Otra forma de representar la distribución de importancia es a través posiciones 3D (pags1,··· ,pagsnorte)luego se muestrean a lo largo del
de la predicción de profundidad para cada píxel. Este enfoque se adopta rayo entre sus límites cercano y lejano definidos por los
en [28], que es concurrente con el nuestro y alcanza aproximadamente parámetros de la cámara. la red neuronalFNeRFse evalúa en cada
15FPS para8002imágenes con calidad reducida o aproximadamente la posiciónpagsiy dirección del rayodpara producir colorCiy
mitad de calidad comparable a NeRF. transparenciaσi. Estas salidas intermedias se integran de la
Ortogonal a esto, AutoInt [15] mostró que se puede usar una red siguiente manera para producir el color de píxel finalC:
neuronal para aproximar las integrales a lo largo de cada rayo con
∑norte
muchas menos muestras. Si bien es significativamente más rápido que C= Ti(1−Exp(−σidi))Ci, (1)
NeRF, aún no proporciona velocidades de cuadro interactivas. i=1
Lo que diferencia nuestro método de los descritos anteriormente es que la ∑yo−1
descomposición propuesta por FastNeRF y el posterior almacenamiento en caché
dóndeTi=Exp(− j=iσjdj)es la transmitancia y
di= (pagsi+1− pagsi)es la distancia entre las muestras. Ya queFNeRF
nos permiten evitar por completo las llamadas a un MLP en el momento de la
depende de las direcciones de los rayos, NeRF tiene la capacidad de
inferencia. Esto hace que nuestro método sea más rápido en términos absolutos
modelar efectos dependientes del punto de vista, como reflejos
incluso en una sola máquina.
especulares, que es una dimensión clave en la que NeRF mejora los
Vale la pena señalar que nuestro método no aborda la velocidad de
métodos de reconstrucción 3D tradicionales.
entrenamiento, como por ejemplo [39]. En ese caso, los autores proponen
El entrenamiento de una red NeRF requiere un conjunto de imágenes de
mejorar la velocidad de entrenamiento de los modelos NeRF al encontrar la
una escena, así como los parámetros extrínsecos e intrínsecos de las cámaras
inicialización a través del metaaprendizaje.
que capturaron las imágenes. En cada iteración de entrenamiento, se elige
Finalmente, existen estrategias de representación neuronal ortogonal
aleatoriamente un subconjunto de píxeles de las imágenes de entrenamiento
capaces de una inferencia rápida, como los gráficos basados en puntos
y para cada píxel se genera un rayo 3D. Luego, se selecciona un conjunto de
neuronales [11], Mezcla de Primitivos Volumétricos [19] o pulsar [12], que
muestras a lo largo de cada rayo y el color del píxel. Cse calcula usando la
utilizan formas de primitivas geométricas y rasterización. En este trabajo, solo
Ecuación (1). La pérdida de entrenamiento es la diferencia media cuadrática
tratamos con representaciones funcionales implícitas similares a NeRF
entreCy el valor de píxel de verdad del terreno. Para obtener más detalles,
combinadas con trazado de rayos.
consulte [25].
Si bien NeRF genera imágenes fotorrealistas, requiere
3. Método
llamarFNeRFun gran número de veces para producir una sola
En esta sección, describimos FastNeRF, un método que es imagen. Con el número predeterminado de muestras por píxel
3000 veces más rápido que el sistema Neural Radiance Fields norte=192propuesto en NeRF [25], casi 400 millones de
(NeRF) original [25] (Sección3.1). Este avance permite llamadas aFNeRFse requieren para calcular una sola imagen de
renderizar imágenes fotorrealistas de alta resolución en alta definición (1080p). Además, las salidas intermedias de
14348

( 1 1 1)
( , , ) ⋮ ( )

=1
( )
posición-
dependiente
( ) MLP
128-d
vector
( , ) ( 1, 2, . . , )
( , , ) ( , )
dirección-
dependiente
NeRF MLP FastNeRF
Figura 2. Izquierda: arquitectura de red neuronal NeRF. (x, y, z)denota la posición de la muestra de entrada, (θ, φ)denota la dirección del rayo y
(r, gramo, segundo, σ)son los valores de color y transparencia de salida. Derecha: nuestra arquitectura FastNeRF divide la misma tarea en dos redes neuronales
que se pueden almacenar en caché. La red dependiente de la posiciónFposicióngenera un mapa de radiación profunda (tu, v, w)que consiste enDcomponentes,
mientras que elFdirectoriogenera los pesos de esos componentes (β1, . . . , βD)dada una dirección de rayo como entrada.
este proceso requeriría cientos de gigabytes de memoria. Incluso en posicionespagsy otra que depende solo de las direcciones de los
en las GPU de consumo de gama alta, esto limita la ejecución del rayosd. De manera similar a la evaluación de la ecuación de renderizado
método original en varios lotes, incluso para una resolución media utilizando armónicos esféricos, nuestro dependiente de la posiciónF
(800×800)imágenes, lo que genera gastos generales de cálculo posicióny dependiente de la direcciónFdirectorioLas funciones producen
adicionales. salidas que se combinan usando el producto escalar para obtener el
valor de color en la posiciónpagsobservado desde la direcciónd.
3.2. Campos de radiación neuronal factorizados
Crucialmente, esta factorización divide una sola función que toma
Alejándonos un poco del renderizado neuronal por un momento, entradas enR5en dos funciones que toman entradas enR3yR2. Como se
recordamos que en los gráficos por computadora tradicionales, la ecuación explica en la siguiente sección, esto hace posible el almacenamiento en
de renderizado [9] es una integral de la forma caché de las salidas de la red y permite acelerar NeRF en 3 órdenes de
∫ magnitud en el hardware de consumo. Ver figura3para una

representación visual de la aceleración lograda.
Lo(p, d) = Fr(p, d, ωi)Li(pag, ωi)(ωi·norte)dωi,(2)
Ω Las funciones dependientes de la posición y de la dirección de
FastNeRF se definen de la siguiente manera:
dóndeLo(p, d)es el resplandor que sale del puntopagsen direcciond,
Fr(p, d, ωi)es la función de reflectancia que captura las propiedades Fposición:pags7→ {σ,(tu, tu, tu)}, (3)
del material en la posiciónpags,Li(pag, ωi)describe la cantidad de Fdirectorio:d7→ β, (4)
luz que llegapagsdesde la direcciónωi, ynortecorresponde a la
dóndetu, tu, tusonD-vectores dimensionales que forman un mapa de
dirección de la normal a la superficie enpags. Dada su importancia
radiancia profunda que describe la radiancia dependiente de la vista en
práctica, la evaluación eficiente de esta integral ha sido un tema de
la posiciónpags. la salida deFdirectorio,β, es unD-vector dimensional de
investigación activa durante más de tres décadas.9,42,8,33]. Una
pesos para elDcomponentes del mapa de radiación profunda. El
forma eficiente de evaluar la ecuación de renderizado es aproximar
producto interno de los pesos y el mapa de radiación profunda
Fr(p, d, ωi)yLi(pag, ωi)utilizando armónicos esféricos [4,45]. En este
caso, evaluar la integral se reduce a un producto escalar entre los ∑D
coeficientes de ambas aproximaciones de armónicos esféricos. C= (r, g, b) = βi(tui, vi,wi) =β T·(tu, tu, tu) (5)
i=1
Con esta idea en mente, podemos volver a la representación da como resultado el color estimadoC= (r, g, b)en la posiciónpags
neuronal. En el caso de NeRF,FNeRF: (p, d)también puede observado desde la direcciónd.
interpretarse como el retorno del punto de partida de la radiación Cuando las dos funciones se combinan usando la Ecuación (5),
pagsen direcciond. Esta idea clave nos lleva a proponer una nueva la función resultanteFFastNeRF(p, d)7→(c, σ)tiene la misma firma que
arquitectura de red para NeRF, a la que llamamos FastNeRF. Esta la funciónFNeRFutilizado en NeRF. Esto permite efectivamente usar
novedosa arquitectura consiste en dividir la red neuronal de NeRFF la arquitectura FastNeRF como un reemplazo directo para la
NeRFen dos redes: una que depende sólo arquitectura de NeRF en tiempo de ejecución.
14349
3.3. almacenamiento en caché 250FPS 238.1FPS
Dada la gran cantidad de muestras que deben evaluarse para 200FPS 172.4FPS
generar un solo píxel, el costo de la computaciónFdomina el costo total
del renderizado NeRF. Por lo tanto, para acelerar NeRF, se podría 150 FPS
intentar reducir el costo del tiempo de prueba deF almacenando en
100FPS
caché sus salidas para un conjunto de entradas que cubren el espacio
de la escena. El caché se puede evaluar en una fracción del tiempo que
50FPS
se tarda en calcularF. 15.0FPS
0.06FPS 0.18FPS 1.1FPS
Para un modelo NeRF entrenado, podemos definir un cuadro 0FPS
delimitadorVque cubre toda la escena capturada por NeRF. Entonces NeRF DeRF NSVF DONeRF nuestro 1k nuestro 512
podemos muestrear uniformementekvalores para cada una de las 3 escondite

coordenadas del espacio mundial (x, y, z) =pagsdentro de los límites deV Figura 3. Evaluación de la velocidad de nuestro método y trabajo previo [25,
35, dieciséis,28] en la escena Lego del Realistic 360 Synthetic [25] conjunto de
. De manera similar, muestreamos uniformementeyovalores para cada
datos, representado en800×800píxeles Para los métodos anteriores, cuando
una de las coordenadas de dirección del rayo (θ, φ) =dconθ∈ 〈0, π〉yφ
los números para la escena de Lego no estaban disponibles, usamos una
∈ 〈0,2π〉. Luego, el caché se genera computandoFpara cada
aproximación optimista.
combinación de muestraspagsyd.
El tamaño de tal caché para unestándarmodelo NeRF conk=yo=1024
y los valores de coma flotante de 16 bits densamente almacenados son características y configuraciones de tiempo, incluidas las redes gruesas/
de aproximadamente 5600 terabytes. Incluso para volúmenes muy finas y el recuento de muestrasnortesigue el trabajo original de NeRF [
escasos, en los que solo sería necesario conservar el 1 % de las salidas, 25] (consulte los materiales complementarios).
el tamaño de la memoria caché superaría con creces la capacidad de En el momento de la prueba, tanto nuestro método como NeRF
memoria del hardware de nivel de consumidor. Este enorme toman un conjunto de parámetros de la cámara como entrada que se
requerimiento de memoria es causado por el uso de ambosdypags utilizan para generar un rayo para cada píxel en la salida. Luego se
como entrada aFNeRF.Es necesario guardar una salida separada para producen varias muestras a lo largo de cada rayo y se integran
cada combinación dedypags, resultando en una complejidad de siguiendo la Sección3.1. Si bien FastNeRF se puede ejecutar utilizando
memoria del orden deO(k3yo2). su representación de red neuronal, su rendimiento mejora
Nuestra arquitectura FastNeRF hace posible el almacenamiento en considerablemente cuando se almacena en caché. Una vez que se
caché. Para k=yo=1024,D=8del tamaño de dos escondites densos que genera el caché, lo convertimos en una estructura de datos dispersa
contienen{σ,(tu, tu, tu))}yβserían aproximadamente 54 GB. Para usando OpenVDB [26], que mejora el rendimiento y reduce la huella de
volúmenes moderadamente escasos, donde se ocupa el 30 % del memoria. Para mejorar aún más el rendimiento, utilizamos el trazado
espacio, el requisito de memoria es lo suficientemente bajo como para de rayos acelerado por hardware [32] para omitir el espacio vacío,
caber en la memoria de la CPU o la GPU de las máquinas de consumo. comenzando a integrar puntos a lo largo del rayo solo después del
En la práctica, la elecciónkyyodepende del tamaño de la escena y de la primer golpe con una malla de colisión derivada del volumen de
resolución de imagen esperada. Para muchos escenarios, un caché más densidad, y visitando cada vóxel a partir de entonces hasta que se
pequeño dek=512, yo=256es suficiente, lo que reduce aún más los satura la transmitancia de un rayo. La malla de colisión se puede
requisitos de memoria. Consulte los materiales complementarios para calcular a partir de una función de distancia de signo derivada del
conocer las fórmulas utilizadas para calcular los tamaños de caché para volumen de densidad utilizando Marching Cubes [20]. Usamos los
ambas arquitecturas de red. mismos parámetros de malla e integración para todas las escenas y
conjuntos de datos, consulte el suplemento para obtener más detalles.
4. Implementación
5. Experimentos
Aparte de usar la arquitectura FastNeRF propuesta descrita en la
Sección3.2, entrenar FastNeRF es idéntico a entrenar NeRF [25]. Evaluamos nuestro método cuantitativa y cualitativamente en el Realistic
ModelamosFposiciónyFvistade FastNeRF utilizando MLP de 8 y 4 capas 360 Synthetic [25] y fusión de campo de luz local (LLFF) [24] (con adiciones de
respectivamente, con codificación posicional aplicada a las entradas [25 [25]) conjuntos de datos utilizados en el documento NeRF original. Mientras
]. El MLP de 8 capas tiene384 unidades ocultas, y usamos128para la red que el conjunto de datos sintético NeRF consiste en vistas de 360 grados de
de 4 capas de predicción de vistas. La única excepción a esto es elfi objetos complejos, el conjunto de datos LLFF consiste en escenas orientadas
porqueescena, donde encontramos un256unidad MLP dio mejores hacia adelante, con menos imágenes. En todas las comparaciones con NeRF
resultados que una 384unidad MLP. Si bien esto hace que la red sea usamos los mismos parámetros de entrenamiento que se describen en el
más grande que la línea de base, la velocidad de búsqueda de caché no artículo original [25].
se ve afectada por la complejidad de MLP. De manera similar a NeRF, Para evaluar la calidad de renderizado de FastNeRF,
parametrizamos la dirección de la vista como un vector unitario comparamos sus resultados con GT utilizando la relación pico
tridimensional. Otro entrenamiento- señal/ruido (PSNR), la similitud estructural (SSIM) [43] y perceptivo
14350
Lego
Barco Nuestro Nuestro

GT NeRF
Nuestro
sin caché caché grande pequeño caché
Figura 4. Comparación cualitativa de nuestro método vs NeRF en el conjunto de datos de [25] a8002píxeles utilizando 8 componentes.Caché pequeñose refiere a nuestro
método almacenado en caché en2563, ycaché grandea7683. Variar el tamaño de la memoria caché permite intercambiar computación y memoria por una calidad de imagen
similar a los niveles de detalle (LOD) en los gráficos de computadora tradicionales.
Tabla 1. Comparamos NeRF con nuestro método cuando no se almacena en caché en una cuadrícula, y cuando se almacena en caché a una resolución alta en términos de
PSNR, SSIM y LPIPS, y también proporcionamos la velocidad promedio en ms de nuestro método cuando se almacena en caché. LLFF denota el conjunto de datos de [24] a504×
378píxeles, el otro conjunto de datos es el de [25] a8002píxeles Usamos8componentes y un10243caché para las escenas NeRF Synthetic 360 y 6 componentes en7683para LLFF.
Consulte el material complementario para obtener resultados más detallados.
Escena NeRF Nuestro - Sin caché Nuestro - Caché Velocidad
PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓

Sintético Nerf 29.54dB 0.94 0.05 29.155dB 0.936 0.053 29.97dB 0.941 0.053 4.2milisegundo
LLFF 27.72dB 0.88 0.07 27.958dB 0.888 0.063 26.035dB 0.856 0.085 1.4milisegundo
LPIPS [48]. Usamos las mismas métricas en nuestro estudio de puts y entrenamiento de NeRF, mantenemos la compatibilidad con el trazado
ablación, donde evaluamos los efectos de cambiar la cantidad de de rayos [44,9] y la capacidad de especificar solo límites de volumen sueltos.
componentesDy el tamaño de la memoria caché. Todas las Al mismo tiempo, nuestra factorización y almacenamiento en caché no
comparaciones de velocidad se ejecutan en una máquina equipada afectan en gran medida el carácter de las imágenes renderizadas. Consulte la
con una GPU Nvidia RTX 3090. figura4y figura5para comparaciones cualitativas, y Tabla1para una evaluación
cuantitativa. Tenga en cuenta que pueden aparecer algunos artefactos de
Mantenemos el tamaño del caché dependiente de la vistaFcachevista
alias ya que nuestro modelo está almacenado en caché en una cuadrícula
lo mismo para todos los experimentos a una resolución base de3843. Es
despuéscapacitación. Esto explica la disminución en todas las métricas en
la resolución base de la caché RGBD.Fcacheeso representa la principal
posición
función de la resolución de la cuadrícula, como se ve en la Tabla1. Sin
compensación en la complejidad del tiempo de ejecución y la memoria
embargo, tanto NeRF como FastNeRF mitigan las inconsistencias de múltiples
frente a la calidad de la imagen. En todos los resultados, la resolución
vistas, las imágenes fantasma y otros artefactos similares de la
de la cuadrícula se refiere al número de divisiones del lado más largo
reconstrucción de múltiples vistas. Mesa1demuestra que a resoluciones de
del volumen delimitador que rodea el objeto de interés.
caché lo suficientemente altas, nuestro método es capaz
Calidad de representación:Debido a que adoptamos las entradas, salidas
14351
Hojas
Cuernos Nuestro Nuestro Nuestro

GT NeRF
sin caché caché grande pequeño caché
Figura 5. Comparación cualitativa de nuestro método vs NeRF en el conjunto de datos de [24] a504×378píxeles utilizando 6 factores.Caché pequeñose refiere a nuestro método
almacenado en caché en2563, ycaché grandea7683.
Tabla 2. Comparación de velocidad de nuestro método vs NeRF en ms. losSillayLegolas escenas están renderizadas en8002resolución,CuernosyHojas escenas en504×378.
Nuestro método nunca cae por debajo de 100FPS cuando se almacena en caché y, a menudo, es significativamente más rápido. Tenga en cuenta que nuestro método es más
lento cuando no se almacena en caché debido al uso de MLP más grandes; funciona de manera idéntica a NeRF cuando se usa256unidades ocultas. No calculamos la memoria
caché de mayor resolución para las escenas LLFF porque son menos dispersas debido al uso de coordenadas de dispositivo normalizadas.
Escena NeRF nuestro - Sin caché2563 3843 5123 7683 10243 Aceleración sobre NeRF
Silla 17.5k 28.2k 0.8 1.1 1.4 2.0 2.7 6468×-21828×

Lego 17.5k 28.2k 1.5 2.1 2.8 4.2 5.6 3118×-11639×
Cuernos* 3.8k 6.2k 0.5 0.7 0.9 1.2 - 3183×-7640×
Hojas* 3.9k 6.3k 0.6 0.8 1.0 1.5 - 2626×-6566×
de la misma calidad visual que NeRF. Figura4y figura5 muestran Resolución de caché:Como se muestra en la Tabla1, nuestro método
además que los cachés más pequeños aparecen 'pixelados' pero coincide o supera a NeRF en el conjunto de datos de objetos sintéticos
conservan las características visuales generales de la escena. Esto es en10243resolución de caché. Debido a que nuestro método es lo
similar a cómo se usan los diferentes niveles de detalle en los gráficos suficientemente rápido para visitar cada vóxel (a diferencia del recuento
por computadora [21], y una importante innovación en el camino hacia de muestra fijo que se usa en NeRF), a veces puede lograr mejores
mundos renderizados neuronalmente. puntajes al no perder ningún detalle. Observamos que un caché de5123
es un buen compromiso entre calidad perceptiva, memoria y velocidad
Escenarios desafiantes:Teorizamos que las superficies altamente de representación para el conjunto de datos sintético. Para el conjunto
reflectantes podrían ser un desafío para nuestro método, ya queβ podría de datos LLFF, encontramos un7683caché para que funcione mejor.
tener que cambiar con una alta frecuencia dependiendo de la dirección de la Para elBarcoescena, en la Tabla se muestra una ablación sobre el
vista. En la Sección 1.1 del suplemento. materiales discutimos situaciones en tamaño de la cuadrícula, la memoria y el PSNR.3. Para las vistas llenas
las que la red dependiente de la vista se sobreajusta a los datos de de escenas LLFF en504×378píxeles, nuestro método ve una ligera
entrenamiento y describimos una solución simple.
14352
Tabla 3. Influencia de la cantidad de componentes y la resolución de la cuadrícula en el PSNR y la memoria requerida para almacenar en caché la escena del barco. Observe cómo más factores
aumentan la dispersión de la cuadrícula. Encontramos que 8 o 6 componentes son un compromiso razonable en la práctica.
factores sin caché 2563 3843 5123 7683

PSNR↑ Memoria PSNR↑ Memoria PSNR↑ Memoria PSNR↑ Memoria PSNR↑ Memoria
4 27.11decibelios- 24.81dB0.34ES26.29dB0.61ES26.94dB1.09ES27.54dB2.51ES
6 27.12decibelios- 24.82dB0.5ES 26.34dB0.93ES 27.0dB 1.67ES 27.58dB4.1ES 27.72
8 27.24decibelios- 24.89dB0.71ES26.42dB1.41ES27.1dB 2.7ES dB7.15ES 9.dieciséis
dieciséis 27.68decibelios- 25.07dB1.2ES26.77dB2.08ES27.55dB3.72ES28.3dB ES
de una persona realizando expresiones faciales durante unos 20

segundos en un equipo multicámara que consta de 32 cámaras
calibradas. Luego ajustamos un modelo de cara 3D similar a FLAME [13]
para obtener parámetros de expresión para cada cuadro. Dado que la
escena capturada no es estática, entrenamos un modelo FastNeRF de la
escena junto con un modelo de deformación [30] condicionado a los
datos de expresión. El modelo de deformación toma las muestras. pags
Figura 6. Imágenes de rostros renderizadas usando FastNeRF combinadas con una como entrada y salida sus posiciones actualizadas que viven en un
red de campo de deformación [30]. Gracias al uso de FastNeRF, las imágenes marco de referencia canónico modelado por FastNeRF.
condicionadas por la expresión se pueden renderizar a 30 FPS.
Mostramos salidas de ejemplo producidas usando este enfoque en
la Figura6. Este método nos permite renderizar300×300imágenes de
píxeles de la cara a 30 fps en una sola GPU Nvidia Tesla V100, alrededor
disminución en las métricas cuando se almacenan en caché en7683, pero aún produce
de 50 veces más rápido que una configuración con un modelo NeRF.
resultados cualitativamente convincentes como se muestra en la Figura5, donde se
Con la resolución que logramos, la expresión de la cara es claramente
conservan claramente los detalles intrincados.
visible y la alta velocidad de fotogramas permite la representación en
Velocidad de representación:Cuando se utiliza una resolución de
tiempo real, lo que abre la puerta a los escenarios de telepresencia. La
cuadrícula de 7683, FastNeRF es en promedio más de3000×más rápido que
principal limitación en términos de velocidad y resolución de imagen es
NeRF con prácticamente la misma calidad de percepción. Ver tabla2 para un
el modelo de deformación, que debe ejecutarse para una gran cantidad
desglose de los tiempos de ejecución a través de varias resoluciones de la
de muestras. Empleamos un método de poda simple, detallado en el
memoria caché y la Figura3para una comparación con otras extensiones
material complementario, para reducir el número de muestras.
NeRF en términos de velocidad. Tenga en cuenta que registramos el tiempo
Finalmente, tenga en cuenta que si bien entrenamos este método de
que tarda nuestro método en llenar un búfer RGBA del tamaño de la imagen
prueba de concepto en un conjunto de datos capturado con varias
con los valores de píxeles finales, mientras que la implementación de la línea
cámaras, el enfoque se puede ampliar para usar una sola cámara, de
de base necesita realizar varios pasos para remodelar las muestras de nuevo
manera similar a [7].
en imágenes. Nuestros núcleos CUDA no están muy optimizados, lo que
Dado que FastNeRF usa el mismo conjunto de entradas y
favorece la flexibilidad sobre el máximo rendimiento. Es razonable suponer
salidas que las que se usan en NeRF, es aplicable a muchas de
que la optimización avanzada del código y una mayor compresión de los
las extensiones de NeRF. Esto permite acelerar los enfoques
valores de la cuadrícula podrían conducir a mayores reducciones en el tiempo
existentes para: reconstrucción de escenas dinámicas [30,34,14
de cómputo.
], reconstrucción de una sola imagen [39], mejora de la calidad
Número de componentes:Si bien podemos ver una mejora teórica
[35,47] y otros [28]. Con modificaciones menores, FastNeRF se
de aproximadamente0.5dB pasando de8adieciséiscomponentes,
puede aplicar a más métodos que permiten controlar la
encontramos que6o8los componentes son suficientes para la mayoría
iluminación [2] e incorporación de la incertidumbre [22].
de las escenas. Como se muestra en la Tabla3, nuestro caché puede
resaltar detalles finos que se pierden cuando solo se usa un recuento de
muestra fijo, compensando la diferencia. Mesa3también muestra que 7. Conclusión
más componentes tienden a ser cada vez más escasos cuando se
almacenan en caché, lo que compensa un poco el uso de memoria En este documento, presentamos FastNeRF, una extensión
adicional. Consulte el material complementario para obtener resultados novedosa de NeRF que permite la representación de imágenes
más detallados en otras escenas. fotorrealistas a 200 Hz y más en hardware de consumo. Logramos
aceleraciones significativas sobre NeRF y los métodos de la competencia
6. Aplicación al factorizar su aproximador de funciones, lo que permite un paso de

almacenamiento en caché que hace que la representación esté limitada
Demostramos una aplicación de prueba de concepto de Fast-NeRF para a la memoria en lugar de a la computación. Esto permite la aplicación
un escenario de telepresencia recopilando primero un conjunto de datos de NeRF a escenarios en tiempo real.
14353
Referencias [19] Stephen Lombardi, Tomas Simon, Gabriel Schwartz, Michael
Zollhoefer, Yaser Sheikh y Jason Saragih. Mezcla de primitivas
[1] Mojtaba Bemana, Karol Myszkowski, Hans-Peter Seidel y volumétricas para una representación neuronal eficiente,
Tobias Ritschel. Campos X: interpolación implícita de 2021.1,3
imagen neuronal, luz y tiempo.Transacciones ACM en
[20] William E. Lorensen y Harvey E. Cline. Cubos de marcha: un
gráficos (Proc. SIGGRAPH Asia 2020), 39(6), 2020.1
algoritmo de construcción de superficies 3D de alta resolución.
[2] Sai Bi, Zexiang Xu, Pratul Srinivasan, Ben Mildenhall, Kalyan
Cómputo SIG-GRAFICO. Grafico., 21(4):163–169, agosto de 1987.5
Sunkavalli, Miloš Hašan, Yannick Hold-Geoffroy, David
[21] David Luebke, Martin Reddy, Jonathan D. Cohen, Amitabh
Kriegman y Ravi Ramamoorthi. Campos de reflectancia
Varshney, Benjamin Watson y Robert Huebner.Nivel de
neuronal para la adquisición de apariencia, 2020.1,8
detalle para gráficos 3D. Morgan Kaufmann Publishers Inc.,
[3] Sai Bi, Zexiang Xu, Kalyan Sunkavalli, Miloš Hašan, Yannick Hold-Geoffroy,
San Francisco, CA, EE. UU., 2002.7
David Kriegman y Ravi Ramamoorthi. Volúmenes de reflectancia profunda:
[22] Ricardo Martin-Brualla, Noha Radwan, Mehdi SM Sajjadi, Jonathan
reconstrucciones que se pueden volver a encender a partir de imágenes
T. Barron, Alexey Dosovitskiy y Daniel Duckworth. Nerf en la
fotométricas de vistas múltiples, 2020.1,2
naturaleza: campos de resplandor neuronal para colecciones de
[4] Brian Cabral, Nelson Max y Rebecca Springmeyer. Funciones de
fotos sin restricciones, 2021.1,8
reflexión bidireccional a partir de mapas de relieve de superficie.
[23] Lars M. Mescheder, Michael Oechsle, Michael Niemeyer,
21(4):273–281, agosto de 1987.4
Sebastian Nowozin y Andreas Geiger. Redes de ocupación:
[5] Zhiqin Chen y Hao Zhang. Aprendizaje de campos implícitos para el Aprendizaje de reconstrucción 3d en espacio funcional.CoRR,
modelado generativo de formas.CoRR, abs/1812.02822, 2018.1 abs/1812.03828, 2018.1
[6] Boyang Deng, Jonathan T. Barron y Pratul P. Srinivasan. [24] Ben Mildenhall, Pratul P. Srinivasan, Rodrigo Ortiz-Cayon, Nima
JaxNeRF: una implementación JAX eficiente de NeRF, 2020. Khademi Kalantari, Ravi Ramamoorthi, Ren Ng y Abhishek
2 Kar. Fusión de campo de luz local: síntesis de vista práctica
[7] Guy Gafni, Justus Thies, Michael Zollhöfer y Matthias Nießner. con pautas de muestreo prescriptivas.ACM Trans. Grafico.,
Campos de radiación neuronal dinámicos para la reconstrucción 38(4), julio de 2019.1,5,6,7
de avatares faciales 4d monoculares. preimpresión de arXiv
[25] Ben Mildenhall, Pratul P Srinivasan, Matthew Tancik, Jonathan T
arXiv:2012.03065, 2020.1,8 Barron, Ravi Ramamoorthi y Ren Ng. Nerf: representación de
[8] Iliyan Georgiev, Jaroslav Křivánek, Tomáš Davidovič y Philipp escenas como campos de radiación neuronal para la síntesis de
Slusallek. Simulación de transporte ligero con conexión y vistas.preimpresión de arXiv arXiv:2003.08934, 2020.1,2,3,5, 6
fusión de vértices.ACM Trans. Grafico., 31(6):192:1– 192:10,
noviembre de 2012.4 [26] Ken Museth. Vdb: Volúmenes dispersos de alta resolución con
[9] James T. Kajiya. La ecuación de renderizado.Cómputo SIGGRAFICO. topología dinámica.ACM Trans. Grafico., 32(3), julio de 2013.5
Grafico., 20(4):143–150, agosto de 1986.4,6 [27] Oliver Nalbach, Elena Arabadzhiyska, Dushyant Mehta, HP Seidel y Tobias
[10] Tero Karras, Samuli Laine y Timo Aila. Un estilo basado Ritschel. Sombreado profundo: redes neuronales convolucionales para
Arquitectura generadora para redes antagónicas generativas, el sombreado del espacio de la pantalla. Enforo de gráficos por
2019.1 computadora, volumen 36, páginas 65–78. Biblioteca en línea de Wiley,
[11] María Kolos, Artem Sebastopolsky y Victor Lempitsky. Transpr: 2017.1
Renderizador de punto de escena 3D neural con acumulación de rayos [28] Thomas Neff, Pascal Stadlbauer, Mathias Parger, Andreas Kurz,
de transparencia, 2020.3 Chakravarty R. Alla Chaitanya, Anton Kaplanyan y Markus Steinberger.
[12] Christoph Lassner y Michael Zollhofer. Pulsar: representación Donerf: Hacia la representación en tiempo real de campos de radiación
neuronal eficiente basada en esferas, 2020.3 neuronal utilizando redes de Oracle de profundidad, 2021.1, 3,5,8
[13] Tianye Li, Timo Bolkart, Michael J Black, Hao Li y Javier Romero.
Aprendizaje de un modelo de forma y expresión facial a partir de [29] Jeong Joon Park, Peter Florence, Julian Straub, Richard A.
escaneos 4d.ACM Trans. Grafico., 36(6):194–1, 2017.8 Newcombe y Steven Lovegrove. Deepsdf: aprendizaje de
[14] Zhengqi Li, Simon Niklaus, Noah Snavely y Oliver Wang. Campos de flujo funciones de distancia con signo continuo para la representación
de escena neuronal para la síntesis de vista de espacio-tiempo de de formas. CoRR, abs/1901.05103, 2019.1
escenas dinámicas.preimpresión de arXiv arXiv:2011.13084, 2020.8 [30] Parque Keunhong, Utkarsh Sinha, Jonathan T Barron, Sofien
[15] David B. Lindell, Julien NP Martel y Gordon Wetzstein. Autoint: Bouaziz, Dan B Goldman, Steven M Seitz y Ricardo-Martin
integración automática para una rápida representación de Brualla. Campos de radiación neural deformable.
volumen neural.preimpresión de arXiv arXiv:2012.01714, 2020.1,3 preimpresión de arXiv arXiv:2011.12948, 2020.8
[16] Lingjie Liu, Jiatao Gu, Kyaw Zaw Lin, Tat-Seng Chua y Christian [31] Parque Keunhong, Utkarsh Sinha, Jonathan T. Barron, Sofien
Theobalt. Campos de vóxeles dispersos neuronales, 2021.1,3,5 Bouaziz, Dan B Goldman, Steven M. Seitz y Ricardo Martin-
[17] Stephen Lombardi, Jason M. Saragih, Tomas Simon y Yaser Sheikh. Brualla. Campos de radiación neural deformable.
Modelos de apariencia profunda para la representación de preimpresión de arXiv arXiv:2011.12948, 2020.1
rostros. CoRR, abs/1808.00362, 2018.1 [32] Steven G Parker, James Bigler, Andreas Dietrich, Heiko
[18] Stephen Lombardi, Tomas Simon, Jason Saragih, Gabriel Schwartz, Friedrich, Jared Hoberock, David Luebke, David McAllister,
Andreas Lehrmann y Yaser Sheikh. Volúmenes neuronales: aprendizaje Morgan McGuire, Keith Morley, Austin Robison, et al. Optix:
de volúmenes renderizables dinámicos a partir de imágenes. un motor de trazado de rayos de propósito general.
ACM Trans. Grafico., 38(4):65:1–65:14, julio de 2019.1,2 Transacciones Acm en gráficos (tog), 29(4):1–13, 2010.5
14354
[33] M. Pharr, W. Jakob y G. Humphreys.Renderizado basado en [47] Kai Zhang, Gernot Riegler, Noah Snavely y Vladlen Koltun. Nerf++:
la física: de la teoría a la implementación. Elsevier Science, analizando y mejorando los campos de radiación neuronal.
2016.4 preimpresión de arXiv arXiv:2010.07492, 2020.8
[34] Albert Pumarola, Enric Corona, Gerard Pons-Moll y Francesc Moreno- [48] Richard Zhang, Phillip Isola, Alexei A. Efros, Eli Shechtman y Oliver
Noguer. D-nerf: Campos de radiación neural para escenas dinámicas. Wang. La efectividad irrazonable de las características profundas
preimpresión de arXiv arXiv:2011.13961, 2020.8 como métrica de percepción.CoRR, abs/1801.03924, 2018.5
[35] Daniel Rebain, Wei Jiang, Soroosh Yazdani, Ke Li, Kwang
Moo Yi y Andrea Tagliasacchi. Derf: Campos de radiación [49] Ellen D. Zhong, Tristan Bepler, Joseph H. Davis y Bonnie Berger.
descompuestos.preimpresión de arXiv arXiv:2011.12490, Reconstrucción de distribuciones continuas de estructuras de
2020.1,3,5,8 proteínas en 3D a partir de imágenes criogénicas, 2020.2
[36] Gernot Riegler y Vladlen Koltun. Síntesis de vista estable,
2020.1
[37] Pratul P. Srinivasan, Boyang Deng, Xiuming Zhang, Matthew
Tancik, Ben Mildenhall y Jonathan T. Barron. Nerv: Campos de
visibilidad y reflectancia neuronal para reiluminación y
síntesis de vistas, 2020.1
[38] Towaki Takikawa, Joey Litalien, Kangxue Yin, Karsten Kreis, Charles
Loop, Derek Nowrouzezahrai, Alec Jacobson, Morgan McGuire y
Sanja Fidler. Nivel de detalle geométrico neuronal: representación
en tiempo real con formas 3D implícitas, 2021.
3
[39] Matthew Tancik, Ben Mildenhall, Terrance Wang, Divi
Schmidt, Pratul P. Srinivasan, Jonathan T. Barron y Ren
Ng. Inicializaciones aprendidas para optimizar las representaciones
neuronales basadas en coordenadas, 2020.3,8
[40] Matthew Tancik, Pratul P. Srinivasan, Ben Mildenhall, Sara

Fridovich-Keil, Nithin Raghavan, Utkarsh Singhal, Ravi
Ramamoorthi, Jonathan T. Barron y Ren Ng. Las características de
Fourier permiten que las redes aprendan funciones de alta
frecuencia en dominios de baja dimensión, 2020.1,2
[41] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit,
Llion Jones, Aidan N Gomez, Łukasz Kaiser e Illia Polosukhin.
La atención es todo lo que necesitas. En I. Guyon,
UV Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan
y R. Garnett, editores,Avances en sistemas de procesamiento
de información neuronal, volumen 30. Curran Associates,
Inc., 2017.2
[42] Eric Veach y Leónidas J. Guibas. Combinación óptima de
técnicas de muestreo para el renderizado de monte carlo. En
Actas de la 22ª Conferencia Anual sobre Gráficos por
Computadora y Técnicas Interactivas, SIGGRAPH '95, página
419–428, Nueva York, NY, EE. UU., 1995. Asociación de
Maquinaria Informática.4
[43] Zhou Wang, Alan C Bovik, Hamid R Sheikh y Eero P Simoncelli. Evaluación
de la calidad de la imagen: de la visibilidad del error a la similitud
estructural.Transacciones IEEE sobre procesamiento de imágenes,
13(4):600–612, 2004.5
[44] Turner Whitted. Un modelo de iluminación mejorado para visualización
sombreada. EnCursos ACM Siggraph 2005, páginas 4–es. 2005. 6
[45] Lifan Wu, Guangyan Cai, Shuang Zhao y Ravi Ramamoorthi.

Gradientes armónicos esféricos analíticos para renderizado en
tiempo real con muchas luces de área poligonal.ACM Trans.
Grafico., 39(4), julio de 2020.4
[46] Wenqi Xian, Jia-Bin Huang, Johannes Kopf y Changil Kim. Campos de
irradiación neural espacio-tiempo para video de punto de vista libre.
preimpresión de arXiv arXiv:2011.12950, 2020.1
14355

Garbin FastNeRF 2021 Paper - En.es

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Garbin FastNeRF 2021 Paper - En.es

Cargado por

Copyright:

Formatos disponibles

Traducido del inglés al español - www.onlinedoctranslator.

FastNeRF: Representación neuronal de alta fidelidad a 200FPS

Stephan J. Garbin* marek kowalski* matthew johnson

NeRF a 0.06FPS NeRF a 31 FPS FastNeRF a 200FPS

Resumen esfuerzo manual significativo en el diseño o preprocesamiento de la

Un desafío común para todos los enfoques basados en NeRF

* Denota igual contribución

colorearC∈R3(RGB) y una densidad escalarσ, un enfoque ingenuo

así evitaríamos la explosión polinomial en el espacio de caché

ecuación de renderizado (módulo la longitud de onda de la luz y el

( , , ) ⋮ ( )

∫ magnitud en el hardware de consumo. Ver figura3para una

podemos muestrear uniformementekvalores para cada una de las 3 escondite

Barco Nuestro Nuestro

sin caché caché grande pequeño caché

Escena NeRF Nuestro - Sin caché Nuestro - Caché Velocidad

PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓

Cuernos Nuestro Nuestro Nuestro

Silla 17.5k 28.2k 0.8 1.1 1.4 2.0 2.7 6468×-21828×

factores sin caché 2563 3843 5123 7683

de una persona realizando expresiones faciales durante unos 20

6. Aplicación al factorizar su aproximador de funciones, lo que permite un paso de

[40] Matthew Tancik, Pratul P. Srinivasan, Ben Mildenhall, Sara

[45] Lifan Wu, Guangyan Cai, Shuang Zhao y Ravi Ramamoorthi.

También podría gustarte