slic 查看(slc数据下载)

none

岳槐来自奥菲寺。

量子比特制作|微信官方账号QbitAI

你看过《摩登原始人》吗?

这是一个年龄暴露问题。

《安微,摩登原始人》是一部喜剧卡通片,于1960年首次播出。第一季有2.2万用户在豆瓣上打了8.7分。

现在,这部充满想象力的漫画已经被用来训练一个拥有惊人想象力的AI。有多神奇?看过的人都说鹅女~

只要给个剧本,或者文字描述,AI就能脑补生成动漫补丁。立正!这些动漫片段是你从未见过的全新版本。

生成方法是AI根据描述从原漫画中找到相应的元素并提取出来。然后调整大小、比例、位置、角度、道具、前景、背景等。然后再拼接起来~

来,直接看节目。

对了,弗雷德,威尔玛等。都是这部动漫的英雄名字。

脚本:

弗雷德戴着一顶红帽子,在客厅里走着。

这是AI生成的视频:

脚本:

贝蒂和威尔玛正在客厅聊天。他们坐在沙发上,互相抱着。

视频:

脚本:

弗雷德在开车时心里想。

视频:

脚本:

贝蒂正在厨房打电话。

视频:

最近怎么样?是不是很棒?

下面的视频,有比较集中的展示。

数据集和模型

AI是怎么做到的?简单来说,我们首先要构建一个《摩登原始人》的数据集,这个数据集包括25000个漫画片段(75帧,约三秒)。

每一小段都做了密集的标记。

信息包括场景,主要角色的名字:弗雷德,威尔玛等。对于不常出现的配角,会有手动添加的简单评论:警察、红衣老头等。

然后需要使用SLIC算法(简单线性迭代聚类)、GrabCut自动图像分割算法、PatchMatch算法等对图片进行分割和重建。

经过这一系列处理,就构成了AI可以使用的原始素材。

当然最重要的还是AI模型的构建。

该模型被称为craft(组合、检索和融合网络)。从结构上看,该模型如下所示:

它由三部分组成:布局编辑器、实体检索器和背景检索器。

“脑补”动漫补丁时,Craft从空视频开始,按照脚本描述依次添加场景中的实体。并且实体背景检索器会从数据集中搜索合适的素材,而版面编排器会调整位置和比例。

最后,上述所有的东西融合在一起,形成一个全新的作品。

上图是版面编排器的工作原理。

当然这里面涉及到很多数学公式,实验等等。如果你对这些细节感兴趣,可以直接去论文。

地址:https://arxiv.org/abs/1804.03608

这项研究是由来自AI2、UIUC和其他机构的几位学者完成的。

还不完美

当然,当然,在现阶段,这项研究远非完美无瑕。

比如画面的重建还是比较粗糙的,拼贴的痕迹可以清晰的看到。

还有,AI有时候在理解脚本和重构视频方面也有问题。

比如姿势不对(站->:坐)、打电话时听筒位置不对、背景和人物动作不同步等。还有下面这种情况。

剧本:威尔玛和弗雷德聊天,而他正坐在餐桌旁看书。弗雷德全神贯注于阅读,没有听威尔玛说话。

如果你仔细看,你会发现这两个角色的关系是颠倒的。

还有更糟的。

对于极其复杂的场景,比如包括三个或三个以上的稀有实物,Craft的大脑编造的漫画秘籍可以称之为“灾难”。

就像这样。

但这项研究的意义在于AI对文本的理解以及基于此的视频生成。一切都进步了空。

更进一步,也许未来动画工作室里不会再有天才的动画师,取而代之的是可以快速生成动画片的AI。

—结束—

真诚招聘

量子正在招聘编辑/记者,工作地点在北京中关村。期待有才华有热情的同学加入我们!详情请在QbitAI对话界面回复“招聘”二字。

量子qbitai头条签约作者

追踪AI技术和产品的新趋势。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/253357.html

发表回复

登录后才能评论