Paper and Codes Edited on Typora Zhuoyi Huang, 2020.7.14
总结
-
本文提出了一种新的全身人类神经渲染模型。
- 特点:
- new viewpoints(top), new body poses(bottom) 不同的身体姿势和不同的摄像机位
- 通过视频进行训练
- 可从表面几何或运动建模中分离纹理
- 采用的方法:explicit texture representation + rendering neural network
- 显式模型表面2D纹理估计+渲染神经网络(经典的计算机图形(Computer Graphics)方法与深度神经网络进行结合)
- 与其他方法的比较效果:
- 与直接从图像到图像的转化(Image-to-Image translation)方法相比,保留个性化的纹理映射可以实现更好的泛化。
- 避免了在3D中进行显式的形状建模。
- 特点:
相关工作
- 与标准的计算机图形学流水线对比:
- 估计用户个性化的中性位置的人体网格,执行skinning(中性姿势的变形),以及将生成的3D表面投影到图像坐标上,同时叠加特定于人的2D纹理。
- 本文:简化经典流水线的多个阶段,并用单个网络代替它们,该网络学习从
- 输入(人体关节的位置)——>输出(2D图像)的映射。
- 结合了经典计算机图形学中的思想,即使用深度卷积神经网络将几何形状和纹理分离。
- 保留2D纹理可增强在相机转换和人体关节之间有效转移人体碎片的外观的泛化能力。
- 卷积网络的作用:
- 在给定身体姿势和相机参数的情况下预测输出2D图像中各个像素的纹理坐标
- 预测人体foreground/background mask.
论文模型
数学抽象
输入输出:
一般来说,我们感兴趣的是根据一个人的姿势合成图像。姿势的形式: 在摄像机坐标系中定义的三维关节位置。
-
输入:
- 输出:
-
两种方法:
一些细节
- 遵循DensePose的方法。
- 依赖于ConvNets的泛化能力,并且将很少的领域特定知识纳入系统中。
- 我们使用带纹理的化身方法,该方法可显式估计身体部位的纹理,从而确保在变化的姿势和相机下,身体表面外观具有相似性。
- 将身体细分为n = 24个部分,其中每个部分都有2D参数化。每个身体部位还具有纹理 ,
-
该贴图为固定大小的彩色图像(在我们的实现中为256×256)。
-
纹理神经化身的训练过程估计个性化的body part参数和纹理。
-
与DensePose不同,DensePose的部位分配和身体部位坐标是从图像中得出的,我们在测试时的方法旨在仅基于姿态预测它们。
-
流程:
-
-
Part assignments
-
Part coordinates
-
通过Part assignment 和 Part coordinates得到image
-
损失函数:
- 为了学习纹理神经化身的参数,优化了生成图像和ground truth图像之间的损失:
-
优化用于测量ground truth背景与背景mask预测之间的差异的mask loss
-
网络的成功取决于初始化策略。
- 从多个视频序列进行训练时,我们使用DensePose系统[28]初始化TNA。
实验
对比Direct, Video-to-Video,和本文提出的方法。
- 网站进行用户研究
- SSIM score和Frechet distance
- 多视频比较+单视频比较
- 结果:
- 用户研究结果有优势。
- 定量指标上具有缺点,因为会从不同的角度对照明进行平均。
- 分析:
- Pros: 与直接映射方法相比,保留明确的形状和纹理分离有助于实现更好的泛化。
- Cons:
- 泛化能力仍然受到限制,因为当以与训练集显着不同的比例渲染某个人时,泛化能力无法很好地泛化。
- 此外,在手和脸上存在姿势估计错误的情况下,纹理化身会表现出强烈的伪影。
- 最后,本方法假定表面颜色恒定,并忽略照明效果。
- Solutions:
- 可以通过在渲染之前重新缩放比例,然后进行裁剪/填充后处理来部分解决泛化能力问题。
- 通过使本方法的纹理依赖于视图和光照来解决第三个问题。