Deep3DSketch+_ Rapid 3D Modeling from Single Free-hand Sketches

Deep3DSketch+: Rapid 3D Modeling from Single Free-hand Sketches

1 引言 & 相关工作

1. 引言

本文提出了一种名为Deep3DSketch+的新型3D建模方法，该方法可以从单个手绘草图中生成高保真度的3D模型。Deep3DSketch+采用了端到端的神经网络结构，包括==轻量级生成网络==和==结构感知的对抗训练方法==。该方法还引入了笔画增强模块==(SEM)==，以提高网络的结构特征提取能力。

2. 相关工作

现有的手绘草图3D建模方法可以分为两类：端到端方法和交互式方法。交互式方法需要进行顺序步骤分解或特定的绘画手势或注释。本文提出的Deep3DSketch+方法采用了端到端的神经网络结构，不需要输入多个草图或视图信息，可以从单个手绘草图中生成高保真度的3D模型。

基于手绘草图的建模和传统的单目3D重建有很大的区别，草图的稀疏性和抽象性以及缺乏纹理需要额外的线索来产生高质量的3D形状。需要解决。

2 方法 & 模型

1. Overview:

2. View-aware and Structure-aware 3D Modeling

Mesh Generation G: 主干为编码器-解码器结构

Encoder E: 由于草图是稀疏且模糊的输入形式，编码器E首先将输入的草图转换为 latent shape code $z_s$ ，这样可以在涉及语义类别和概念形状的粗略级别上概括草图。

Decoder D: 级联的上采样块组成的解码器D用于计算模板网格的顶点偏移，并通过以增加的空间分辨率逐渐推断3D形状信息来使其变形以得到具有精细细节的输出网格 $M_Θ = D{(z_s)}$。

接下来，利用可微分渲染器渲染所生成的网格 $M_Θ$，来生成轮廓 $S_Θ$。该网络是端到端的训练，通过近似梯度的微分渲染器的监督渲染。

3. Shape discriminator and Multi-view Sampling

由于草图的稀疏性质和单视图轮廓约束的唯一监督，编码器-解码器结构化生成器G不能有效地获得高质量的3D形状。必须使用额外的线索来关注细粒度和逼真的对象结构。因此引入==形状匹配与多视点采样==。

该辨别器为CNN网络，它在训练过程中==引入来自真实的数据集的3D形状==，以迫使网格生成器G生成逼真的形状，同时在推理过程中保持生成过程的效率。具体地说，将从预测网格生成的轮廓和从手动设计的网格渲染的轮廓输入到神经网络。同时，随机采样N个相机姿态从姿态分布p中，保证生成的网格细节合理、逼真。

4. Stroke Enhancement Module(新模块，但是大概率用不上)

由于输入草图和投影轮廓是单一颜色的，不能有效地获得深度预测结果。因此通过引入笔划增强模块（SEM）来充分利用单色信息进行特征提取。SEM由一个位置感知注意力模块组成，该模块将广泛的上下文信息编码到局部特征中以学习特征的空间相互依赖性。 \[ s_{i j}=\frac{\exp \left(B_{i} * C_{j}\right)}{\sum_{i=1}^{W} \exp \left(B_{i} * C_{j}\right)} \] 来自轮廓 $A R^{c×n×m} $ 的局部特征被送到卷积层形成两个局部特征 $B,~C \in R^{C\times W}$，其中 $W~ = ~M \times N$ 为像素的数量，而另一个卷积层用于形成特征图 $D R^{C N M} $ 。C和B的转置进行矩阵乘法，然后由 softmax 层生成注意力图 $S \in R^{W \times W}$ ，从而增强了利用由轮廓表示的关键结构信息的能力。注意力图用于通过原始特征和所有位置上的特征的加权和来产生输出F: \[ F_{j} ~ = ~ \lambda\sum_{i=1}^{W}(s_jD_j) ~ + ~ A_j \] 5. Loss Function

损失函数来自三个组件，包括有：multi-scale mIoU loss $\mathcal{L}_{sp}$，flatten loss，laplacian smooth loss $\mathcal{L}_{r}$，structure-aware GAN loss $\mathcal{L}_{sd}$。 \[ \mathcal{L}_{sp} ~=~ \sum_{i=1}^{N} \lambda_{si} \mathcal{L}^i_{iou} \\ \mathcal{L}_{iou}(S_1, ~ S_2) ~= ~1~ - ~\frac{\left \| S_1\otimes S_2 \right \|_1 }{\left \| S_1 \otimes S_2-S_1 \otimes S_2 \right \|_1 } \] S1和S2是渲染的轮廓。

非饱和GAN损失： \[ \begin{aligned} \mathcal{L}_{s d} & =\mathbf{E}_{\mathbf{z}_{\mathbf{v}} \sim p_{z_{v}}, \xi \sim p_{\xi}}\left[f\left(C N N_{\theta_{D}}(R(M, \xi))\right)\right] \\ & +\mathbf{E}_{\mathbf{z}_{\mathbf{v r}} \sim p_{z_{v r}}, \xi \sim p_{\xi}}\left[f\left(-C N N_{\theta_{D}}\left(R\left(M_{r}, \xi\right)\right)\right)\right] \\ & \text { wheref }(u)=-\log (1+\exp (-u)) \end{aligned} \] 总损失函数Loss计算为三个分量的加权和： \[ Loss = \mathcal{L}_{sp}+\mathcal{L}_{r}+\lambda_{sd}\mathcal{L}_{sd} \]