Efficient Geometry-aware 3D Generative Adversarial Networks
Efficient Geometry-aware 3D Generative Adversarial Networks
一、提出的方法、贡献、相关工作
1.方法:
设计了一种混合显式-隐式3D感知网络,该网络使用内存高效的三平面表示显式地
存储由轻量级隐式特征解码器聚合
的轴对齐平面上的特征,以实现高效的体绘制,提高了3D基础渲染的计算效率。使用了一些偏离3D基础渲染的图像空间近似,同时引入了一种双重判别策略,该策略保持神经渲染和最终输出之间的一致性,以规范其视图不一致的趋势。
显式表示可以进行快速评估,但是需要很大的内存,使得这种方式难以扩展到高分辨率或复杂场景。隐式表示虽然在内存效率和场景复杂性方面有优势,但是这种方法使用大型的全连接网络进行评估,使得训练速度缓慢。因此,显式和隐式表示提供了互补的好处。

2.贡献:
- 引入了一个基于三平面的3D GAN框架,该框架既高效又富有表现力,以实现高分辨率几何感知图像合成。
- 开发了一种3D GAN训练策略,通过双重判别和生成器姿势条件促进多视图一致性,同时忠实地建模现实世界数据集中存在的姿势相关属性分布(例如表达式)。
- 展示了在FFHQ和AFHQ Cats数据集上无条件3D感知图像合成的最新结果,以及完全从2D野外图像中学习的高质量3D几何图形。
3.相关工作:
1)Neural scene representation and rendering(神经场景表示和渲染)
设计了一种新的混合显式隐式3D感知网络,该网络使用内存高效的三平面表示显式地存储由轻量级隐式特征解码器聚合的轴对齐平面上的特征,以实现高效的体绘制
2)Generative 3D-aware image synthesis(生成式3D感知图像合成)
具有基于3D的先验偏差的高效3D GAN架构对于成功生成高分辨率视图一致图像和高质量3D形状至关重要。所以作者采用了以下方法:
a. 直接利用基于2D CNN特征生成器,即StyleGAN2
。
b. 三平面表示使得该论文的方法能利用神经体渲染作为先验偏差,在计算上比完全隐式3D网络更有效。
c. 在神经渲染后采用基于2D CNN的向上采样,同时引入双重辨别器去避免上采样层带来的视图不一致。
二、模型与模块
1. Tri-plane hybrid 3D representation(Tri-plane混合3D表示)
思想:
hybrid explicit-implicit tri-plane representation(混合显式-隐式三平面表示)。
实现:
沿着三个轴对齐的正交特征平面对齐显式特征,每个特征平面的分辨率均为N×N×C,N为空间维度,C为通道数。通过将3D位置投影到三个特征平面中来查询任何3D位置点x
,通过双线性插值检索相应的特征向量\((F_{xy} ~,~ F_{xz}~ , ~ F_{yz})\),然后通过求和来汇总这三个特征向量。最后将这个汇总的特征F输入到一个小型解码器(MLP)来解码为颜色和密度。
模块:
小型MLP网络。
2. 3D GAN framework(3D GAN框架)
思想:
训练一个3D GAN,用于从2D照片中进行集合感知图像合成,而无需任何显式3D或者多视图监督。同时使用现成的姿态检测器,将每个训练图像与一组相机内参和外参相关联(Deep3DFaceReconstruction
)。
实现/Overview:

a. 一个基于姿态条件的StyleGAN2特征生成器和映射网络。
b. 一个具有轻量级特征解码器的三平面3D表示。
c. 一个神经体素渲染器。
d. 一个超分辨率模块。
e. 一个基于姿态条件的具有双重辨别的StyleGAN2辨别器。
这个架构巧妙地将特征生成和神经渲染解耦,使得可以利用强大的StyleGAN2生成器进行3D场景的泛化。此外,轻量级的三平面3D表示既能够表达丰富的信息,又能够在实时中实现高质量的3D感知视图合成。同时,采用两阶段训练策略加速训练速度。第一个阶段:使用减少\((64^2)\)神经渲染分辨率进行训练;第二个阶段:在完全\((128^2)\)神经渲染分辨率上的短期微调。
3. CNN generator backbone and rendering(CNN生成器主干和渲染)
思想:
由StyleGAN2 CNN生成器生成三平面表示的特征
。随机潜在代码和相机参数首先由映射网络处理以产生中间潜在代码,然后调制单独合成网络的卷积核。
实现:
改变StyleGAN2主干网络的输出形状,不是生成三通道RGB图像,而是生成一个256×256×96的特征图像。从三平面采样特征,并融汇从三个平面采样的特征,输入到轻量级解码器(MLP,64个神经元的单个隐藏层,激活函数:softplus)。
模块:
StyleGAN2、MLP
4. Super resolution(超分辨率)
思想:
使用中等分辨率\((128^2)\)进行体渲染,并依靠图像空间卷积上采样神经渲染到\((256^2 ~ or ~ 512^2)\)图像大小。
实现:
由StyleGAN2调制卷积层的两个块组成。1)上采样,将128×128×3分辨率提高到512×512×3的分辨率。2)调整32通道特征图到最终的RGB图像。
5. Dual discrimination(双重辨别器)
思想:
使用StyleGAN2的辨别器,并进行了两次修改。
实现:
1)将特征图解释为低分辨率RGB图像。双重辨别器确保低分辨率RGB图像与高分辨率图像的一致性,通过双线性上采样成同样512×512×3图像并与调整后的\((I^+_{RGB})\)进行连接变成6通道图像。2)将输入的3通道RGB图像与其适当模糊后的图像进行连接,变成6通道图像作为辨别器的输入。
模块:
StyleGAN2-ADA策略
StyleGAN2-ADA策略:将渲染相机的内外矩阵(P)传递给鉴别器作为条件标签。这种调节引入了额外的信息,指导生成器学习正确的3D先验。
6. Modeling pose-correlated attributes(建模姿态相关属性)
思想:
引入了generator pose conditioning(生成器姿势条件)
作为建模和解耦训练图像中观察到的姿势与其他属性之间的相关性的一种手段。
实现:
按照StyleGAN2-ADA条件生成策略,提出一个主干映射网络,不仅提供一个潜在代码z,同时提供相机参数P作为输入。
三、其他细节
1. Pose Estimators(姿态估计)
用水平翻转的方法来扩充数据集,并使用现成的姿态估计来提取近似的相机外部参数。
现成的姿态估计方法:
1)https://github.com/Microsoft/Deep3DFaceReconstruction,用来生成脸的数据集的姿态(FFHQ)。
2)https://github.com/kairess/cat_hipsterizer,用来生成猫的数据集的姿态(AFHQv2 Cats)。