摘要详情

ID / 提交时间

405 / 2024-09-14 21:22:18

标题

图像升维计算模型:EMU Video的衍生尝试

关键字

主题及专题

（2）智能内容生成

状态

全文待审

作者

张雨欣 / 长春建筑学院

孙湘婷 / 长春建筑学院

刘畅 / 长春建筑学院

万国豪 / 长春建筑学院

摘要

该作品的功能性指标主要通过 CLIP 文本相似度、CLIP 图像相似度、SSIM、LPIPS 等进行评估，以衡量模型在文本到 3D 生成、图像到 3D 生成等方面的性能。

技术方法上，利用在大量文本、图像和视频上训练的视频扩散模型 EMU Video 作为 3D 数据生成器，经 100K 3D 数据渲染的多视图视频微调后，使其能生成多视图视频，解决 3D 数据稀缺问题。同时，通过从 Web 规模数据收集文本提示生成合成多视图数据集，以 LRM 为基础，运用多阶段训练、图像级监督、不透明度损失和摄像机噪声注入等策略训练 3D 生成模型，训练后再用 3D 数据集中的渲染进行微调。

使用的工具包括 EMU Video、LRM、Lama2 - 13B、Cap3D、DINO、支持向量机、MLP 以及显著性检测模型等。其中，EMU Video 用于生成视频，LRM 用于单图像 3D 重建，Lama2 - 13B 和 Cap3D 用于收集提示，DINO 用于提取特征，支持向量机和 MLP 用于分类和预测，显著性检测模型用于获取掩码。

重要日期

会议日期

10月30日

2024

至

10月31日

2024
11月30日 2024

初稿截稿日期

主办单位

中国虚拟现实大赛组委会
中国虚拟现实大赛指导委员会

承办单位

长春大学
VR中国

联系方式

Ccvr2024
cc******@chinavr.org
043*********

登录查看完整联系方式

历届会议

2025年08月21日哥伦比亚波哥大
“智链中哥·数创未来”——中国虚拟现实大赛八周年国际展暨中哥建交45周年数字文明对话
2023年11月17日中国 Suzhou
2023年第六届中国虚拟现实大赛
2022年11月18日中国昆明市
2022年第五届中国虚拟现实大赛
2021年10月17日中国南昌市
中国虚拟现实大赛

移动端

在手机上打开

小程序

打开微信小程序

客服

扫码或点此咨询

2024年第七届中国虚拟现实大赛（CCVR 2024）