已经是什么词性的词(已经是什么词性现代汉语)

作者|杨晓帆编辑|簇尾在自然语言处理技术的整个发展历史中,如何数字化表示最小的语义元素“词”一直是研究热点。近年来,由海量未标记文本数据训练的低维单词表示向量,

已经是什么词性(已经是时间副词吗)

作者|杨晓帆

编辑|簇尾

在自然语言处理技术的整个发展历史中,如何数字化表示最小的语义元素“词”一直是研究热点。

近年来,由海量未标记文本数据训练的低维单词表示向量,即单词嵌入,在包括词性标注、句法分析、命名实体识别、语义角色标注、机器翻译等多项任务中显示出其有效性。但这种单词嵌入是静态的,因为一旦训练过程完成,它们就不再随着新的语境而变化。

静态单词嵌入虽然效率高,但是它的静态性使得一词多义的处理比较困难,因为一个单词的意义依赖于它的上下文。为了解决这个问题,研究人员最近提出了许多根据上下文动态学习单词含义的方法。

比如两个句子,“苹果卖手机”和“我吃了一个苹果”,静态单词嵌入无法区分这两个“苹果”的语义区别,而动态单词嵌入可以根据上下文给出不同的表达。显然,从预训练语言模型中提取的这种动态单词嵌入在许多自然语言处理任务中可以比之前的静态单词嵌入表现得更好。

那么,单词嵌入是如何从静态发展到动态的呢?现状如何?以及未来有什么样的趋势?

最近,哈工大的王雨轩、侯玉泰、车万祥和刘婷在《国际机器学习和神经力学杂志》上发表了一篇关于单词嵌入的综合论文,回答了这个问题。

期刊源地址:https://doi.org/10.1007/s13042-020-01069-8

下载地址:http://ir.hit.edu.cn/~car/papers/icmlc2020-wang.pdf

这篇综述从一个全新的角度对词表征模型进行了全面的回顾——词嵌入从静态到动态的发展。内容详实,值得收藏,是一份可以随时查阅的文件。

1、静态表征

静态词表征的发展大致可以分为两个阶段。

第一阶段主要用稀疏高维向量来表示单词。经典的表达方式是“One hot”,其中每个单词对应一个高维向量,向量中除了一位以外的所有位都是“0”。这样的词向量都是相互正交的,自然无法衡量不同词之间的语义距离是否接近。这种嵌入式系统存在数据稀疏、维数高的问题。通常情况下,词向量的维数和系统的词汇量一样大,所以很难使用。

为了解决这些问题,在第二阶段,人们使用大量的文本数据来训练密集的低维向量,而不是高维向量。以下是这一阶段的一些代表词:

神经语言模型。深度神经网络生成分布式词向量开创了一个新时代,解决了第一阶段的数据稀疏问题(即训练集中不存在的词序列可能出现在测试集中)。该模型的训练目标是预测给定单词序列后的下一个可能单词。

塞纳.SENNA也是基于神经网络的模型,但是它的训练目标是判断一个文本的可接受性。这个目标比预测单词出现的概率更简单可行。

CBOW和Skip gram。经过创新设计和简化网络架构,CBOW和Skip-gram模型的计算复杂度大大降低,成为分布式表示发展史上的里程碑。熟悉的Word2Vec是CBOW和Skip gram最流行的实现。

手套和快速文本。GloVe和fastText对爆词嵌入模型留下了很大的影响。前者捕捉了更多的全局信息,更好地利用了一些词经常一起出现的特点;后者考虑了不同单词之间的拼写相似性,再次大大提高了训练速度。

尽管上述这些低维稠密分布表明在自然语言处理领域已经取得了巨大的成功,但是对于一词多义却几乎无能为力。显然,一个词是由一个原型向量来表示的,它不随上下文而变化。

解决这个问题的一个直观的方法就是用多个原型向量来表示一个词。根据这一思想,雷辛格和穆尼提出了多原型向量空模型,通过聚类为每个词生成多个具有特定含义的向量。这种多原型思想在意义级嵌入中也得到了广泛的应用,黄等人在SENNA架构中使用了这种技术,取得了良好的效果。

2、动态表征

解决一词多义问题的另一种方法(可能也是更有效的方法)是使用动态表征,即所谓的“语境嵌入”,其表征随着语境的变化而变化。

小海湾.这是第一次尝试根据不同的上下文生成不同的单词表示。他们在序列到序列的机器翻译任务上训练了一个深度LSTM编码器,然后用它来生成根据上下文变化的单词嵌入,然后在下游任务中应用这些单词嵌入。这个模型的设计简单直接,但却带来了很多任务的改进,也开启了动态表示的路线。

埃尔莫.与CoVe相比,ELMo的训练不再需要双语数据,从而可以直接使用几乎无限制的无标记文本。它在下游任务中的巨大成功也引起了整个NLP研究领域的关注。从技术角度来说,在大规模无标签语料库上训练深度双向语言模型,然后从其内部各层提取表示,就是EMLo表示。

乌尔姆菲特.ULMFit是基于LSTM的改进尝试。其技术亮点在于有区别的微调、倾斜的三角形学习率、逐步解冻,可以帮助模型在微调阶段更好地适应目标任务,从而以极大的优势领先于当时的其他模型。

GPT .LSTM的学习能力有限,所以使用LSTM的ELMo和ULMFit不能很好地处理长序列中的依赖关系。基于注意力的Transformer模型提出后,以Transformer为核心的GPT模型表现出了优异的性能,进一步证明了语言模型预训练和基于上下文的单词表征的有效性。

伯特.同样基于Transformer并兼顾了从左到右和从右到左序列的预训练模型BERT无疑是2019年最常被比较和讨论的模型。它不仅表现得极其出色,还提出了两个新的无监督的预训练任务,单词掩码和句子预测,这也给后来的研究者带来了很多启发。还有大量基于BERT的改进模型。

XLNet .有研究者认为BERT的mask方法带来了新的缺点,也有人认为BERT存在训练不足(收敛不足)的问题。XLNet重新设计了预训练过程中的诸多细节,再次刷新了预训练单词嵌入的性能记录。

3、评价方法和数据集

现有的词嵌入评价指标分为两类,即内部评价和外部评价。

内部评价是在人工评价的基础上,对词与词之间的句法或语义关系的直接评价。根据评价方法的不同,可分为绝对内部评价法和比较内部评价法。第一类,事先收集人的评价,然后作为嵌入方法的基准。在比较内在评价法中,accessor根据其在特定单词关系任务上的结果直接评价单词嵌入的质量。绝对内在评估比相对内在评估更常用,因为它们不需要人类参与测试。流行的评估方法包括:

外部评估使用单词嵌入作为下游任务的输入,并使用这些任务的特定度量来测量变化。因为单词嵌入几乎适用于所有的NLP任务,所以理论上所有的任务都可以看作是外部评价。

在外部评价下,隐含的假设是,单词嵌入一个任务会有好的结果,它们也会嵌入另一个任务。但这种假设是不正确的。实验结果表明,不同的自然语言处理任务对不同的单词嵌入有不同的偏好。所以,一些外部评价虽然对具体任务上的文字嵌入有用,但不能作为一般评价的指标。

4、跨语言词嵌入

世界上大约有7000种不同的语言,但只有少数几种语言具有丰富的人类注释资源。这就需要跨语言的单词嵌入迁移学习。以资源丰富的语言为训练对象,向资源少的语言转移。输入嵌入被投影到一个共享的语义空。这种嵌入称为跨语言单词嵌入。

根据培养目标的不同,也可以分为线上和线下两种方式。一般在线方法联合优化单语和跨语言目标,离线方法嵌入预先训练好的不同语言的单语单词作为输入,投射到共享语义空。

根据单语词嵌入类型的不同,跨语言嵌入学习方法可以分为静态嵌入和动态嵌入。

静态嵌入式在线方法通常学习源语言和目标语言的语言模型,并通过跨语言目标优化它们的目标。静态嵌入的离线方法是学习一个映射(多为线性转移矩阵),将源语言的vector 空转换为目标语义的vector 空。

受单语动态词嵌入的启发,最近有人开始研究跨语言动态词嵌入。在线方法中,Mulcaire等人通过从多语言数据中获取字符级信息,提出了基于ELMo模型的多语言上下文表示模型。Lample和Conneau采用了BERT的目标,并使用来自并行数据的跨语言监督来学习跨语言语言模型(XLMs)。这些模型已经在许多跨语言任务中获得了最新的结果。对于离线方法,Mulcaire等人通过线性映射将预训练的上下文单词嵌入对齐中。王等人提出直接在语义空中学习这种转换,从而获得一种能够保留词义的跨语言动态嵌入。

除了通过映射将资源丰富的语言嵌入到资源贫乏的语言中,还可以尝试同时训练不同语言的嵌入。Devlin等人对来自104种语言的单语维基百科语料库预训练了一个单语模型(Multi-BERT ),在zero-shot的跨语言模型迁移中表现出惊人的优势。

5、总结

尽管动态单词嵌入在大多数自然语言处理任务中取得了惊人的成功,但该领域仍有许多问题值得探索。在文章中,作者讨论了八个具有挑战性的方面,包括自我监督学习、多任务学习、多模态学习、小样本学习、语言生成、可解释性、对抗攻击和训练过程的简化。这里不再赘述,有兴趣的读者可以阅读原文。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/347562.html

发表回复

登录后才能评论