clip(音乐中clip的意思)

一个起源于奥菲寺庙。

量子比特|微信官方账号QbitAI

你玩过全网流行的AI画吗？

女娲无极限版、DALL E2、Imagen……这些通过文字生成图像的AI绘画工具背后的原理是一种叫做“CLIP”的模型，这是AI如何“理解”人类语义的关键。

clip(Contrastive Language–Image Pre-Training)是OpenAI于去年1月发布的基于对比的图文学习跨模态预训练模型。

很好用，但是一个很大的问题就是数据需求太大:4亿个图文对，256个GPU，对很多公司和个人都很不友好。

对此，美国南加州大学的最新研究发现了一种基于本体的课程学习算法，可以用不到1%的训练数据达到和CLIP一样的效果，甚至在图像检索中表现更好。

新方法名为TONICS(利用基于本体的对比采样进行训练)，相关论文已上传至arXiv。

原理介绍

在介绍新方法之前，我们需要先回顾一下CLIP。

CLIP的模型结构其实很简单:它包括两个部分，即文本编码器和图像编码器。

分别编码后，文字和视觉嵌入映射到同一个空房间。利用比较学习的思想，缩短了匹配图文嵌入的距离，扩展了不匹配嵌入。

在此基础上，TOnICS没有选择从零开始训练图像和文本编码器，而是使用单模预训练模型BERT进行文本编码，使用微软VinVL进行图像编码，并使用InfoNCE loss函数将它们相互对齐。

这是一个基于本体的课程学习算法，从简单的样本开始。方法是随机抽取小批量样本，通过在图像和文本输入中加入相似的小批量数据，逐渐增加比对任务的难度。

比如，在随机抽样生成的小批量数据中，如果你想找到“一只嘴里叼着飞盘在草地上跑的狗”，你只需要先在图片中寻找一张狗的图片，因为随机生成的图片中包含狗的概率非常小。

也就是说，随机小批量抽样将比对任务简化为对象匹配。

但是在采样小批量样本时，会抓拍到很多类似狗狗的图片。所以，仅仅通过识别图片中是否有狗已经不能解决问题了。模型必须共享上下文级信息的语言和视觉表示，从而产生更细粒度的对齐。

此外，与CLIP从互联网上收集的4亿个图文对的数据集不同，BERT-VinVL模型只需要不到1%的训练，但效果不打折扣。

研究人员在MS-COCO和概念字幕上训练BERT-VinVL模型，并在下游检索任务上与CLIP进行比较。

实验结果表明，BERT-VinVL模型同样可以达到零样本学习效果，甚至在图像检索中表现更好(R@1提高了1.5%)。

研究团队

这篇论文来自南加州大学的研究团队。作者是特哈斯·斯里尼瓦桑、任翔和杰西·托马森。

第一作者Tejas Srinivasan是南加州大学GLAMOR实验室的一年级博士生。他正在和助理教授Jesse Thomason一起学习多模态机器学习和语言基础。

他在微软研究院实习，并在人工智能基金会短暂担任NLP研究科学家。

之前在卡内基梅隆大学语言技术学院完成硕士学位，毕业于印度孟买理工学院，主修机械工程，辅修计算机科学。

参考链接:
[1]https://tejas 1995 . github . io/
[2]https://twitter.com/tejubabyface _/status/1554152177035186178
[

—结束—

量子qbitai头条号签约

关注我们，第一时间获悉前沿科技动态。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。

作者：美站资讯，如若转载，请注明出处：https://www.meizw.com/n/82694.html