405 / 2024-09-14 21:22:18
图像升维计算模型:EMU Video的衍生尝试
全文待审
张雨欣 / 长春建筑学院
孙湘婷 / 长春建筑学院
刘畅 / 长春建筑学院
万国豪 / 长春建筑学院
该作品的功能性指标主要通过 CLIP 文本相似度、CLIP 图像相似度、SSIM、LPIPS 等进行评估,以衡量模型在文本到 3D 生成、图像到 3D 生成等方面的性能。

技术方法上,利用在大量文本、图像和视频上训练的视频扩散模型 EMU Video 作为 3D 数据生成器,经 100K 3D 数据渲染的多视图视频微调后,使其能生成多视图视频,解决 3D 数据稀缺问题。同时,通过从 Web 规模数据收集文本提示生成合成多视图数据集,以 LRM 为基础,运用多阶段训练、图像级监督、不透明度损失和摄像机噪声注入等策略训练 3D 生成模型,训练后再用 3D 数据集中的渲染进行微调。

使用的工具包括 EMU Video、LRM、Lama2 - 13B、Cap3D、DINO、支持向量机、MLP 以及显著性检测模型等。其中,EMU Video 用于生成视频,LRM 用于单图像 3D 重建,Lama2 - 13B 和 Cap3D 用于收集提示,DINO 用于提取特征,支持向量机和 MLP 用于分类和预测,显著性检测模型用于获取掩码。

 
重要日期
  • 会议日期

    10月30日

    2024

    10月31日

    2024

  • 11月30日 2024

    初稿截稿日期

主办单位
中国虚拟现实大赛组委会
中国虚拟现实大赛指导委员会
承办单位
长春大学
VR中国
联系方式
历届会议
移动端
在手机上打开
小程序
打开微信小程序
客服
扫码或点此咨询