谷歌最新视频脱口而出图术：影子烟雾都能脱口而出，添加水印更顺滑 | 开源

2025-02-26 来源 : 时尚

杨净先于凹非寺

量子力学位刊文 | 公众号 QbitAI

如何非常顺滑的添加池当中印？

雅虎的这项新新科技，让文本愚蠢就像贴在地上上，哪怕是在暴风雪横飞的过场里头。

方法也很恰当。

不须转换一段录像，和登录单纯的粗略蒙版。

那这个单纯的所有关的过场表达方式，都能解锁！

比如人和狗的影子。

还有黑天鹅慢慢地拂过的水波~

以及上述那个GT疾驰过后引发的暴风雪。

不管是可任意单纯和其余部分，不论怎么方向移动，所有表达方式都能抠出来。

这就是雅虎最新的录像的单新科技——omnimatte，入选CVPR 2021 Oral。

目前这项新科技都已源代码。

如何付诸

计算机视觉在分立影像或录像当中的单纯方面越来越有效，然而与单纯关的的过场缺点。

比如双眼、入射、消除的煤烟等过场缺点常常被看来。

而识别这些过场缺点，对提高AI的视觉解读很重要，那雅虎这项新新科技又是如何付诸的呢？

恰当来知道，用的单神经互联渲染方法自监督专业训练CNN，来将其余部分与着重影像分立开来。

由于CNN的特有构造，才会有倾向性地学习影像缺点之间的关的性，且关的性却强劲，CNN越非常容易学习。

转换一段有方向移动物体的录像，以及一个或者多个标有其余部分的粗略分立蒙版。

首先，采用现成的分立互联比如Mask RCNN，来讲这些其余部分分成多个遮罩层和着重噪声绘出层，并按照某种规则进行次序。

比如，在一个骑手、一辆骑行以及几个路人的过场当中，就才会把骑手和骑行归类一个层，把人群归类第二层。

omnimatte数学模型是一个二维UNet，逐帧处置录像。每一帧都用现成的新科技来计算物体掩码，来标有文动当中的其余部分，并探寻和关联蒙版当中未能捕捉到的缺点，比如双眼、入射或者煤烟，重建转换帧。

为了保障其他静止的着重表达方式不被猎取，研究人员加进了极小损失。

此外，还计算了录像当中每一帧和月份帧之间的外围白光牛顿流体，为互联提供与该层单纯关的的流信息。

之后转化成Alpha影像（不透明度绘出）和RGBA彩色影像，尤其RGBA影像，愚蠢可以知道是录像/影像片段法宝！

目前这一新科技已经源代码，固定式生存环境如下：

Linux Python 3.6+ NVIDIA GPU + CUDA CuDNN 有什么用途

新科技缺点如此，那有什么样的用途呢？

首先就可以镜像或者撤下影像。

还有顺滑地转换成着重。

还可以付诸这一定格操作，让缘故依次掉池当中的男孩子两人入池当中~

便是的设计团队

最后再来知道一下便是的设计团队。

这项研究由雅虎研究所、牛津大学以及魏茨曼社才会科学研究所系由。

其当中，论文一作是牛津大学四年级北京师范大学Erika Lu，曾是雅虎助手，在加州理工学院获取了电子计算机与工程学位。

论文关键字：

参考关键字：

— 完 —

量子力学位 QbitAI · 新闻报道号签约

关注我们，第一小时获知前沿科技动态