ANIM: Accurate Neural Implicit Model for Human Reconstruction from a single RGB-D image
研究背景
随着3D虚拟世界创建的兴起,对易于访问的3D重建解决方案的需求显著增加。3D人体重建在虚拟和增强现实、游戏、医学和电子购物等领域有着广泛的应用。然而,现有的基于单目RGB图像的方法在恢复精细几何细节(如面部、手部或衣物褶皱)方面仍面临挑战,且容易受到深度歧义的影响,导致沿相机光轴方向出现几何畸变。因此,研究如何更准确地从有限视角或单张图像中重建3D人体形状具有重要意义。
研究意义
本文提出的ANIM方法通过结合深度信息,实现了从单张RGB-D图像中重建任意3D人体形状,且达到了前所未有的精度。这一研究不仅提升了3D人体重建的技术水平,还为相关领域(如虚拟现实、增强现实)提供了更高质量的3D模型生成方案。此外,通过引入多模态数据集ANIM-Real,本文还解决了使用消费级RGB-D相机进行高质量重建的问题,进一步推动了3D重建技术的实用化进程。
文献综述
单视图3D人体重建
传统方法:包括基于体素、双向深度图、视觉外壳和参数化模型的方法,但这些方法难以重建高质量、高保真度的3D人体形状。
隐函数表示:近年来,隐函数表示在单视图3D人体数字化方面显示出巨大潜力。例如,PIFu通过像素对齐的图像特征来预测3D点的占用情况,从而保留输入图像的局部细节。
基于RGB-D和点云的重建
单张RGB-D图像:现有方法要么无法达到高质量和准确性,要么需要融合多个部分和噪声观测值来形成连贯的模型。
点云:作为另一种表示形式,点云也被用于3D人体重建。然而,这些方法在处理单视图输入时仍面临形状完成的问题。
具体方法
网络架构
2D特征提取器:提取高分辨率(HR)和低分辨率(LR)特征,分别用于编码高频细节和保持整体推理。
3D特征提取器:采用SparseConvNet U-Net(VFE)从由深度图创建的3D体素中提取几何特征,并与LR图像空间特征相结合。
多层感知机(MLP):将2D像素对齐特征和3D体素对齐特征拼接后,通过MLP预测重建主体的隐式表面表示(SDF)。
深度监督策略
为了改进重建表面SDF的学习,本文提出了利用RGB-D输入的深度通道来估计输入稀疏点云的隐式表示。通过深度监督,网络显著提高了估计表面点SDF的能力。
扩展到消费级RGB-D相机
由于消费级RGB-D相机捕获的数据包含噪声,直接应用ANIM会导致严重的重建伪影。因此,本文创建了新的多模态数据集ANIM-Real,并通过在该数据集上微调ANIM来学习典型的消费级传感器噪声,从而显著提高了3D形状重建的质量。
图1: ANIM的优势
- 内容:展示了ANIM相较于基于单目RGB或RGB-D输入的其他最先进方法在人体重建方面的优势。ANIM能够从单个RGB-D图像中重建出更准确且没有形状扭曲的3D人体模型。
- 关键点:输入:单目RGB图像或RGB-D图像。输出:3D人体模型。优势:ANIM能够恢复更精细的几何细节(如面部、手部或衣物褶皱),且不易受到深度模糊的影响。
图2: ANIM架构
- 内容:阐述了ANIM框架的三个主要组成部分:多分辨率外观特征提取器、体积特征提取器(VFE)和多层感知机(MLP)。
- 关键点:多分辨率外观特征提取器:包括低分辨率特征提取器(LR-FE)和高分辨率特征提取器(HR-FE),用于从输入图像和法线中提取特征。体积特征提取器(VFE):一个基于SparseConvNet的U-Net架构,用于从深度图创建的3D体素中提取几何特征。多层感知机(MLP):用于估计重建主体的隐式表面表示(SDF)。
公式1定义了隐式表面函数f的零水平集,即所有满足f(x) = 0的点x的集合构成了要重建的3D人体表面。
公式2表示了高保真隐式表面s_HF^的计算方式,它依赖于高分辨率像素对齐特征φ_HR、深度值z(x)和从深度图D中提取的体积特征γ(D)。
公式3用于估计输入点云ζ的隐式表示s_ζ^,其中f_ζ是与主隐式函数f共享权重的另一个隐式函数。
公式4定义了用于训练隐式函数f的Huber损失,其中s_HF^是预测的SDF值,s_{HF}是真实的SDF值,δ是估计正确性的阈值。
公式5定义了深度监督策略的Huber损失,用于改进对位于重建表面上的点的SDF估计。s_ζ^是预测的输入点云的SDF值,s_ζ是真实的SDF值(对于表面上的点应为0)。
图3: 从消费级RGB-D相机进行真实世界捕获的ANIM重建
- 内容:展示了在使用和未使用ANIM-Real数据集对ANIM进行微调前后,从Azure Kinect捕获的数据中重建的3D人体模型。
- 关键点:微调前:重建的3D模型存在明显的噪声和形状扭曲。微调后:重建质量显著提高,接近高分辨率扫描的质量。数据集:ANIM-Real数据集包含由高分辨率多视图相机系统重建的高质量3D扫描,以及与消费级RGB-D相机捕获的数据对齐。
图4: 语义感知采样
- 内容:比较了均匀采样和语义感知采样在人体特征学习上的差异。
- 关键点:均匀采样:在整个人体上均匀分布采样点。语义感知采样:在特定区域(如头部和手部)增加采样点,以更精细地学习这些区域的特征。优势:语义感知采样能够提高在这些关键区域上的重建细节。
表1:网络架构修改后的定量结果
- 实验目的:验证提出的网络架构的有效性。
- 修改方式:2D特征仅:仅使用RGB和法线,不实现VFE。3D特征仅:仅处理深度图,不实现HR-FE和LR-FE。随机特征:将随机特征链接到体素作为SparseConvNet的输入,而不是使用从输入2D图像和法线中提取的特征。
- 结果分析:提出的配置(ANIM)获得了最低的错误率,证明了结合2D和3D编码器以及将LR特征链接到体素的有效性。
表2:高质量细节学习的影响因素
- 实验目的:展示框架中每个组件对创建精细细节的影响。
- 修改方式:无法线:不在重建中考虑法线。无LR特征:不实现LR-FE,使用HR-FE的输出替换原始方法中的HR嵌入。无HR特征:不实现HR-FE。无语义感知采样:不在面部和手部区域增加采样点。无深度监督:仅使用L_sdf损失进行训练。
- 结果分析:省略任何组件都会导致性能下降,证明了每个组件在提升重建结果质量方面的重要性。
表3:与最先进方法的定量比较
- 实验目的:展示ANIM相比其他使用不同输入数据的方法的优势。
- 比较对象:包括仅使用RGB图像、表面法线和参数化模型、点云以及单张RGB-D图像的方法。
- 结果分析:ANIM在RenderPeople和THuman2.0数据集上均取得了显著优势,证明了结合RGB、法线和深度信息的完整信息提取的有效性,以及ANIM网络架构的高性能。
图5: ANIM重建的精细衣物细节
- 内容:展示了ANIM在重建衣物细节(如衣物褶皱)方面的能力,即使输入是带有噪声的消费级RGB-D相机数据。
- 关键点:输入:带有噪声的Azure Kinect RGB-D数据。输出:具有高精度衣物细节的3D人体模型。细节:能够准确重建衣物上的褶皱等精细特征。
图6:定性比较(Qualitative Comparisons)
- 描述:图6展示了ANIM方法与其他几种先进方法在RenderPeople数据集上的定性比较结果。这些方法使用不同的输入数据(如仅RGB图像、表面法线、点云或RGB-D图像)来重建3D人体形状。
- 内容:列:从左到右依次为输入图像、SuRS、PHORHUM、ECON、SuRS+Normals、ICON、PIFuHD、PIFu+D、PIFu+D+Normals、PIFu+VFE、PIFu+VFE+Normals、IF-Net+HR、IF-Net+HR+Normals、ANIM方法的重建结果。行:展示了不同人体姿势和服装的重建效果。
- 关键点:ANIM方法能够重建出更高保真度和更多细节的人体形状,尤其是在面部和手部等精细区域。相比其他方法,ANIM的重建结果更加真实,减少了形状扭曲和深度歧义。
图7:基于RGB-D输入的定性比较(Qualitative Comparisons Given RGB-D Input)
- 描述:图7展示了在THuman2.0数据集上,使用RGB-D图像作为输入时,ANIM方法与其他先进方法的定性比较结果。
- 内容:列:从左到右依次为输入图像、NormalGAN、OcPlane、PIFu+D、PIFu+D+Normals、PIFu+VFE、PIFu+VFE+Normals、IF-Net+HR、IF-Net+HR+Normals、ANIM方法的重建结果。行:展示了不同人体姿势和服装的重建效果。
- 关键点:ANIM方法在处理RGB-D输入时表现出色,能够重建出更精细的人体形状细节。相比其他RGB-D方法,ANIM的重建结果具有更高的保真度和准确性。