clip(音乐中clip的意思)

一个起源于奥菲寺庙。量子比特|微信官方账号QbitAI你玩过全网流行的AI画吗?女娲无极限版、DALL E2、Imagen……这些通过文字生成图像的AI绘画工具

一个起源于奥菲寺庙。

量子比特|微信官方账号QbitAI

你玩过全网流行的AI画吗?

女娲无极限版、DALL E2、Imagen……这些通过文字生成图像的AI绘画工具背后的原理是一种叫做“CLIP”的模型,这是AI如何“理解”人类语义的关键。

clip(音乐中clip的意思)插图

clip(Contrastive Language–Image Pre-Training)是OpenAI于去年1月发布的基于对比的图文学习跨模态预训练模型。

很好用,但是一个很大的问题就是数据需求太大:4亿个图文对,256个GPU,对很多公司和个人都很不友好。

对此,美国南加州大学的最新研究发现了一种基于本体的课程学习算法,可以用不到1%的训练数据达到和CLIP一样的效果,甚至在图像检索中表现更好。

新方法名为TONICS(利用基于本体的对比采样进行训练),相关论文已上传至arXiv。

clip(音乐中clip的意思)插图(1)

原理介绍

在介绍新方法之前,我们需要先回顾一下CLIP。

CLIP的模型结构其实很简单:它包括两个部分,即文本编码器和图像编码器。

分别编码后,文字和视觉嵌入映射到同一个空房间。利用比较学习的思想,缩短了匹配图文嵌入的距离,扩展了不匹配嵌入。

在此基础上,TOnICS没有选择从零开始训练图像和文本编码器,而是使用单模预训练模型BERT进行文本编码,使用微软VinVL进行图像编码,并使用InfoNCE loss函数将它们相互对齐。

clip(音乐中clip的意思)插图(2)

这是一个基于本体的课程学习算法,从简单的样本开始。方法是随机抽取小批量样本,通过在图像和文本输入中加入相似的小批量数据,逐渐增加比对任务的难度。

比如,在随机抽样生成的小批量数据中,如果你想找到“一只嘴里叼着飞盘在草地上跑的狗”,你只需要先在图片中寻找一张狗的图片,因为随机生成的图片中包含狗的概率非常小。

也就是说,随机小批量抽样将比对任务简化为对象匹配。

clip(音乐中clip的意思)插图(3)

但是在采样小批量样本时,会抓拍到很多类似狗狗的图片。所以,仅仅通过识别图片中是否有狗已经不能解决问题了。模型必须共享上下文级信息的语言和视觉表示,从而产生更细粒度的对齐。

clip(音乐中clip的意思)插图(4)

此外,与CLIP从互联网上收集的4亿个图文对的数据集不同,BERT-VinVL模型只需要不到1%的训练,但效果不打折扣。

clip(音乐中clip的意思)插图(5)

研究人员在MS-COCO和概念字幕上训练BERT-VinVL模型,并在下游检索任务上与CLIP进行比较。

实验结果表明,BERT-VinVL模型同样可以达到零样本学习效果,甚至在图像检索中表现更好(R@1提高了1.5%)。

clip(音乐中clip的意思)插图(6)

研究团队

这篇论文来自南加州大学的研究团队。作者是特哈斯·斯里尼瓦桑、任翔和杰西·托马森。

第一作者Tejas Srinivasan是南加州大学GLAMOR实验室的一年级博士生。他正在和助理教授Jesse Thomason一起学习多模态机器学习和语言基础。

clip(音乐中clip的意思)插图(7)

他在微软研究院实习,并在人工智能基金会短暂担任NLP研究科学家。

之前在卡内基梅隆大学语言技术学院完成硕士学位,毕业于印度孟买理工学院,主修机械工程,辅修计算机科学。

参考链接:
[1]https://tejas 1995 . github . io/
[2]https://twitter.com/tejubabyface _/status/1554152177035186178
[

—结束—

量子qbitai头条号签约

关注我们,第一时间获悉前沿科技动态。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/82694.html

发表回复

登录后才能评论