只需2张照片就能2D变3D,这个AI能自己脑补蜡烛吹灭过程,一作二作均为华人
2张废片啪地一合!
看,小男孩可爱的笑容马上跃然浮现:
吹灭生日蛋糕蜡烛的瞬间也被还原了出来:
咧嘴笑起来的过程看着也太治愈了吧~
咱就是说,这回相机里熊孩子/毛孩子的废片终于有救了!
而且完全看不出是后期合成的效果,仿佛是原生拍摄的一般。
这就是谷歌、康奈尔大学、华盛顿大学最近联合推出的成果,能只用2张相近的照片还原出3D瞬间,目前已被CVPR 2022收录。
论文作者一作、二作均为华人,一作小姐姐本科毕业于浙江大学。
用2张照片正反向预测中间场景
这种方法适用于两张非常相似的照片,比如连拍时产生的一系列照片。
方法的关键在于将2张图片转换为一对基于特征的分层深度图像 (LDI),并通过场景流进行增强。
整个过程可以把两张照片分别看做是“起点”和“终点”,然后在这二者之间逐步预测出每一刻的变化。
具体来看,过程如下:
首先,将两张照片用单应矩阵(homegraphy)对齐,分别预测两张照片的稠密深度图。
然后将每个RGBD图像转换为彩色的LDI,通过深度感知修复背景中被遮挡的部分。
其中,RGB图像即为普通RGB图像+深度图像。
之后用二维特征提取器修复LDI的每个颜色层,以获取特征层,从而生成两份特征图层。
下一步就到了模拟场景运动部分。
通过预测两个输入图像之间的深度和光流,就能计算出LDI中每个像素的场景流。
而如果想要两张图之间渲染出一个新的视图、并提升到3D,在此需要将两组带特征值的LDI提升到一对3D点云中,还要沿着场景流双向移动到中间的时间点。
然后再将三维的特征点投影展开,形成正向、反向的二维特征图及对应深度图。
最后将这些映射与时间线中对应时间点的权重线性混合,将结果传给图像合成网络,就能得到最后的效果了。
实验结果
从数据方面来看,该方法在所有误差指标上,均高于基线水平。
在UCSD数据集上,这一方法可以保留画面中的更多细节,如(d)所示。
在NVIDIA数据集上进行消融实验表明,该方法在提高渲染质量上表现也很nice。
不过也存在一些问题:当两张图像之间的改变比较大时,会出现物体错位的现象。
比如下图中酒瓶的瓶嘴移动了,不该发生变化的酒杯也摇晃了起来。
还有照片如果没有拍全的地方,在合成的时候难免会出现“截肢”的情况,比如下图中喂考拉的手。
论文地址:
https://3d-moments.github.io/
您可能也感兴趣:
官方微博/微信

每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。

想在手机上看科技资讯和科技八卦吗?
想第一时间看独家爆料和深度报道吗?
请关注TechWeb官方微信公众帐号:
1.用手机扫左侧二维码;
2.在添加朋友里,搜索关注TechWeb。
为您推荐
华为P60系列支持数字人民币无电支付:没电没网也不怕
OpenAI宣布为ChatGPT引入插件功能 解锁更多技能
苹果计划每年在电影业务上投入10亿美元 制作更多院线电影
特斯拉柏林超级工厂Model Y交付已满一年 产量仍在稳步提升
春季旗舰新品发布会,华为影像与通信创新不止
2022年营收、净利双降 猫眼娱乐:公司整体表现优于大盘
东芝同意接受由JIP牵头的财团以2万亿日元收购
特斯拉一季度交付量有望再创新高 机构高管预计超过42.5万辆
3月86款国产网络游戏获批 腾讯、网易等在列
更多
- OceanBase 4.1版本正式发布 持续降低使用门槛
- 第六届中国“网络文学+”大会优秀网络文学作品揭晓:《何日请长缨》等3部阅文作品入选
- 阿维塔11单电机版发布:全系标配HI华为全栈智能汽车解决方案31.99万元起售
- 速腾聚创激光雷达MEMS振镜模组获得AEC-Q100可靠性认证
- 原汽车之家高管团队创办“锋巢集团”聚焦数智化营销、他经济等4大业务
- 虚拟偶像厘里担任淘麦VIP品牌代言人 未来将尝试参演电影
- 舜源科技推出全新2U机架式服务器 搭载兆芯开胜KH-40000系列处理器
- IBM Cloud在中国要拼“出海”服务
- CNNIC报告:截至去年12月我国网民规模10.67亿 互联网普及率达75.6%
- NVIDIA、瑞芯微等13家国内外硬件厂商推出飞桨生态发行版