论文随记（2024.1.4-1.5）

1. BallGAN: 3D-aware Image Synthesis with a Spherical Background

overview

BallGAN生成器概述和射线点的定义。我们将3D空间与球面上的不透明背景绑定在一起。（i） EG3D不分离背景。（ii）GIRAFFE-HD对前景的相同范围内的背景点进行采样。（iii）StyleNeRF对边界外的多个背景点进行采样。（iv）我们对球体上的单个背景点进行采样。它大大减少了背景中的深度模糊性。

通过设计，BallGAN在没有额外监督的情况下提供了清晰的前景-背景分离。
对于内容创建，它可以在不进行后处理的情况下将生成的3D前景插入任意视点。我们作为球面的背景表示通常适用于任何生成器架构或前台表示。
BallGAN允许StyleNeRF在更高分辨率的CompCars上进行训练，并实现大的FID提升，这一点值得注意，因为数据集由于其复杂的背景而具有挑战性。
更重要的是，与EG3D相比，BallGAN不仅增强了多视图一致性、姿态精度和深度重建，而且它还忠实地捕捉了3D空间中易于在2D图像中表示但难以在3D中建模的精细细节
我们假设生成无边界的3D场景过于复杂，无法依靠有限的指南来生成逼真的2D图像。为了解决这一挑战，BallGAN将场景界定为一个球，并将背景近似为不透明的球面。我们希望它能减轻产生正确形状背景的负担，因为形状是固定在球上的。我们的生成器由前景和背景的两个骨干网络组成。这些网络的表示通过我们修改的体积渲染方程进行渲染，以合成图像），并使用GAN目标和辅助规则进行训练。

前后景分离分别训练。将背景表示为球面，我们的方法自然地提供了仅前景的3D合成，便于更容易地创建3D内容。此外，它还提高了3D感知GANs的前景几何形状和在具有复杂背景的数据集上的训练稳定性

2. EpiGRAF: Rethinking training of 3D GANs

Project：https://universome.github.io/epigraf

overview

生成器（左）完全基于NeRF，并使用带有StyleGAN2解码器（F）的三平面主干（但没有2D上采样器）。
鉴别器（右）也基于StyleGAN2（D），但受小块位置和比例参数的调制。我们将逐片优化用于训练和我们提出的Beta尺度采样，这使我们的模型比基于上采样器的架构更快收敛2-3倍，尽管生成器建模几何结构为全分辨率。

1. 生成器：使用纯 NeRF 作为生成器G，并利用三平面表示作为骨干。

1）mapping network M：将随机噪声转换为潜在向量 z -> w (512)。

2）synthesis network S：将潜在向量 w 合成三个32维度的特征平面 P，w -> P。

3）tri-planes decoder network F：将空间坐标 x 和三平面 P 作为输入生成 RGB 颜色 c 和密度 sigma（tiny MLP）。

2. 辨别器：建立在 StyleGAN2 之上，采用超网格（Hypernetwork）H 调制鉴别器体系结构来操作具有连续不同尺寸的块。

1）两层MLP-tanh，输入为patch尺度 s 以及裁剪偏移量，输出为调制参数，然后将这些参数（A）与辨别器D相乘。

2）每次迭代，输入分辨率为 r * r 的随机尺度到辨别器D，并使用随机偏移提取块图像。

3）将均匀尺度采样分布替换为 Beta 尺度采样分布。

3. 重点:

首先，我们设计了一个对位置和尺度敏感的鉴别器，用于处理不同比例和空间位置的图像块。其次，我们基于退火的 Beta 分布修改了图像块采样策略，以稳定训练并加速收敛。
通过去除上采样器并使用一个简单的逐块优化方案，可以构建一个具有更好图像质量、更快训练速度且没有上述限制的3D生成器。（提高生成图像的分辨率）
改进GRAF中的基于nerf的使用 patch-wise 的GANs训练，不是在全尺寸图像上训练生成模型，而是在小型随机裁剪上训练生成模型。
EpiGRAF的改进：
- 通过使其更适合操作可变尺度和位置的图像块来重新设计鉴别器，使用==超网络调制==鉴别器的过滤器，该网络预测从给定的补丁尺度和位置抑制或强化哪些过滤器。
- 将随机尺度采样策略从退火均匀更改为退火的 beta 分布。（这种方式，模型从训练开始就立即学习高频细节，并在‘生长’结束后更加专注于结构）
在随机尺度 r * r 的块上训练模型，而不是使用 R * R 的完整图像，尺度 \(s \in [\frac{r}{R},1]\) 从时变分布 \(s \sim p_t(s)\) 中随机采样。
不使用视图方向条件，因为它会恶化 GAN 中的多视图一致性，这些一致性是在 RGB 数据集上训练的，每个实例都有一个视图。

3. What You See is What You GAN: Rendering Every Pixel for High-Fidelity Geometry in 3D GANs

overview

在这里，我们展示了我们提出的流程及其中间输出。从三维平面 T 开始，我们追踪均匀样本以探测场景，产生低分辨率的 \(I_{128}\) 和权重 \(P_{128}\)。这些被输入到一个 CNN 中，产生高分辨率的提议权重 \(\hat{P}_{512}\)（权重以均匀等级集的形式可视化）。我们执行稳健采样和体积渲染，以得到最终图像 \(I_{512}\) 和表面方差 B。

1. 结构：利用StyleGAN生成图像，并重构成三平面。然后通过分段来提升分辨率。

1）对 3D 场景进行低分辨率探测。

2）其次是高分辨率的 CNN 提议网络。

3）对结果提议的稳健采样方法。

4）接下来描述了稳定训练的规范化。

2. 重点：

High-Resolution Proposal Network

1）利用低分辨率渲染，从而以低成本探测3D表示（上图左侧所示），在低分辨率上（128*128）采样192个粗样本计算低分辨率RGB图像。\(I_{128} \in \mathbb{R}^{3 \times 128 \times 128}\) 和权重张量 \(P_{128} \in \mathbb{R}^{192 \times 128 \times 128}\) ，每个 192 维向量对应于具有 CDF Φ 的分段常数 PDF，\(ti = Φ^{−1}(u_i)\)

2）一低分辨率探测为条件，在高分辨率（512*512）预测提出的体绘制权重的张量： \[ \hat{P}_{512} = Softmax(CNN(P_{128}, I_{128})) ∈ R^{192×512×512} \] 其中，CNN是一个轻量级网络，可以对低分辨率权重进行上采样，softmax沿每条射线产生离散分布。注意：在128*128上分配192个样本相当于在512*512上分配12个样本。128*128*192=3145728=512*512*12。

Supervising the Proposal Network

从512*512的图像中探测192个粗略样本，用于一个小的 64*64 patch，从而得到一个体积渲染权重的真实张量 \(P_{patch} \in R^{192 \times 64 \times 64}\)，然后预测出块的权重： \[ \bar{P}_{patch} = Normalize(Suppress(Blur(P_{patch}))) \] 最后通过交叉熵损失函数来比较 64*64 的权重和实际 512*512 图像中截取的块的权重来进行优化： \[ L_{sampler} = CrossEntropy(\bar{P}_{patch},~\hat{P}_{patch}) \]

Sampling from the Proposal Network

TODO 暂时不太理解

简记

#简记

论文随记（2024.1.4-1.5）

http://seulqxq.top/posts/51769/

作者

SeulQxQ

发布于

2024年1月5日

许可协议

算法训练之 -- 蓝桥杯技巧上一篇

pi-GAN源码分析下一篇