该作品的功能性指标主要通过 CLIP 文本相似度、CLIP 图像相似度、SSIM、LPIPS 等进行评估,以衡量模型在文本到 3D 生成、图像到 3D 生成等方面的性能。
技术方法上,利用在大量文本、图像和视频上训练的视频扩散模型 EMU Video 作为 3D 数据生成器,经 100K 3D 数据渲染的多视图视频微调后,使其能生成多视图视频,解决 3D 数据稀缺问题。同时,通过从 Web 规模数据收集文本提示生成合成多视图数据集,以 LRM 为基础,运用多阶段训练、图像级监督、不透明度损失和摄像机噪声注入等策略训练 3D 生成模型,训练后再用 3D 数据集中的渲染进行微调。
使用的工具包括 EMU Video、LRM、Lama2 - 13B、Cap3D、DINO、支持向量机、MLP 以及显著性检测模型等。其中,EMU Video 用于生成视频,LRM 用于单图像 3D 重建,Lama2 - 13B 和 Cap3D 用于收集提示,DINO 用于提取特征,支持向量机和 MLP 用于分类和预测,显著性检测模型用于获取掩码。