论文随记(2024.1.22)
1 GNeRF: GAN-based Neural Radiance Field without Posed Camera

GNeRF的管道。我们的管道分两个阶段联合学习辐射场和相机姿势。在阶段 A 中,我们从预定义的姿势采样空间中随机采样姿势,并使用 NeRF (G) 模型生成相应的图像。鉴别器 (D) 学习对真假图像块进行分类。反演网络(E)采用假图像补丁,学习输出它们的姿态。然后,随着反演网络的参数冻结,我们优化了数据集中真实图像的姿态嵌入。在 B 阶段,我们利用光度损失来联合细化辐射场和姿势嵌入。我们遵循模式‘A → AB … AB → A’ 的混合迭代优化策略,在训练过程中。
1.1 Overviwe
- Phase A
在阶段 A 中,对每张图像或预训练的辐射场没有合理的相机位姿估计。在这个阶段的目标是预测每个图像的粗略姿势,并学习场景的粗糙辐射场。使用对抗性学习来实现目标。我们的架构包含两部分:生成器 G 和鉴别器 D。以随机相机位姿 φ 作为输入,生成器 G 将通过查询神经辐射场并执行类似 NeRF 的体绘制
来合成视图中观察到的图像。来自许多采样相机姿势的合成图像集将被分解为补丁(patch)
,并与鉴别器 D 的真实补丁(patch)
集进行比较。使用patch的方法来进行辨别。我们将真实图像块 \(Pd(I)\) 与训练集I和生成的图像块 \(Pg(I|Θ)\) 之间的分布距离最小化,定义如下: \[ Θ^∗ = arg ~ \min _{\Theta} ~ Dist (Pg (I|Θ)||Pd(I)) \\Pg (I|Θ) =∫φG(φ; FΘ)P (φ)dφ \] 对于 GAN 训练过程,我们采用动态补丁采样策略,如图 2 的左下角所示。每个补丁在图像域中采样,固定大小为 16 × 16,但动态尺度和随机偏移。对于位姿优化过程,我们采用静态patch采样策略,如图2左上角所示。每个patch在整个图像域均匀采样,大小为64 × 64。我们还在开始时缩放相机内在函数以最大化感受野并逐步将其增加到原始值以专注于精细细节。在实践中,这些策略为 GAN 训练过程的稳定性带来了巨大的好处。
借用 Vision Transformer Network 来构建我们的反演网络 E ,该网络最后一层被修改以输出相机位姿。
- Phase B
该阶段通过最小化方程式中定义的光度重建误差 LN (Θ, Φ) 来优化姿势嵌入和 NeRF 模型。