论文检索是什么意思(全文检索是什么意思)

搜索功能作为产品设计中一个基本而重要的功能,随着产品的发展已经走过了几十年。作者向我们分析了整个搜索过程,并做了简单的概述。第一部分:什么是搜索功能?通过用户的

搜索功能作为产品设计中一个基本而重要的功能,随着产品的发展已经走过了几十年。作者向我们分析了整个搜索过程,并做了简单的概述。

论文检索是什么意思(全文检索是什么意思)

第一部分:什么是搜索功能?通过用户的输入,从海量数据中找到匹配信息的功能称为搜索。

搜索诞生的原因是信息过载。只有有了大量的数据,搜索才能发挥其应有的价值。假设全世界只有10条新闻。想知道标题中有“中国”的新闻,一看就知道结果,但是搜索的功能比较琐碎。

搜索功能是过滤++排名,根据用户的输入确定过滤条件,然后按照一定的策略进行排名。信息爆炸,用户人群细分,千人千面搜索。结果列表的来源不仅与你的输入有关,还会考虑用户的画像,比如你最近的行为带来的一些标签。

为什么需要千人千面?

因为搜索获得的数据量太大,如果不同的人看到的结果一样,效率极低。想象一下,一个输入条件有10W个结果,大部分人极难看到前三页。

此时,用户要么选择放弃搜索;要么选择条件更精确的搜索。第二种方法不是很人性化,因为用户不知道输入什么,不会表达等等。如果机器能够根据用户的历史进行预测和推荐,那么用户的体验会有很大的提升。

第二部分:搜索流程

下图是搜索的流程图,虚线框内的工作主要在后台,需要产品经理有适当的技术积累;剩下的就是会和产品以及前端交互的部分,这就需要产品经理来设计产品了。

接下来我们就来一一说说:

第一节:功能确认第一步:需要确认是否需要这个功能【要不要做?】

请回头看看搜索的原因——信息过载,实际上暗示了哪些产品需要具备搜索功能。重点:信息。

所以任何一个涉及信息,拥有大量数据的人,都可以有搜索功能。比如看视频,视频有发布者,视频名称,参与者等等;比如商品有款式、品牌、类型等等;比如新闻网站有更直观的信息,也可以有搜索功能。

那么哪些产品不需要有呢?常见产品是工具属性强,主要操作信息少的产品,如闹钟、相机产品等。

第二步:确认重要性【入口确定,资源确定等。]

非常重要:数据量过大,用户目的比较明确,有一定的主题或者比较具体的需求。搜索可以大大改善用户体验,比如搜索引擎和电子商务网站。

次要重要性:用户比较随意,没有很强的目的性,比如新闻资讯类网站,对有效性的要求比搜索高得多。

第三步:确认目的【搜索形式,搜索算法】

分析用户使用搜索的目的和结果的定义。

总结这几点:决策、输入(类型)、形式、输出(主观准确性?大师回忆?)。

这里,我们简单介绍一下准确率和召回率的含义:

下图中,0和1分别代表否和是:Actual是实际数据,Predict是机器预测的数据。

准确率=机器预测在所有数据中的正确比例;换句话说,机器对所有数据的正确程度是多少?

召回率=机器预测在所有精确数据中的正确比例;换句话说,机器找到了多少正确的数据?

第二节:输入类型:文字、语音、图片、二维码等。由于输入内容不同,我们对信息的分析和后续检索的排序方法也不同。本文主要讨论基于文本的内容。

这里简单说一下其他的:

如果用户输入的是语音,那么第一步就是把语音转换成文本语言,然后继续走NLP相关的路径。

如果用户输入一张图片,那么就需要对图片进行特征提取、理解和搜索。如果是二维码,直接跳转到页面,或者直接给出结果。

输入优化

在用户输入的时候,为了方便用户收入或者明确用户的搜索意图,我们可以采用以下方法,可以根据实际的产品形态选择适合自己的。相信每个方法带来的效果大家都能理解,这里就不详细解释了。

搜索框内展示搜索格式内容的帮助;提供搜索建议(自动填充可能搜索的内容);将部分详情展示出来(多用于电商类产品);自动纠错;有搜索结果的相似词;热门搜索词语;基于该用户推荐的词语。第三节:意图识别

判断类型

结果型,搜索的内容有明确的结果的,比如:爱因斯坦出生于什么时候?段落型,搜索的结果需要用大段文字来表述,比如:人工智能是什么?展示型,搜索的结果是一些信息的展示,比如商品,职位……

判断意图

意图通常是知识地图或字典的补充。

词典一般包括:词干、停用词、同义词、多义词、下义词和下义词。

其中,词干经常出现在英文信息中,在中文中不太常见;停词是指词没有明确的意义,如:了,了;同义词,如自然语言处理、NLP;这个词有歧义,比如:苹果[公司/水果];网络等下位词是网络游戏的最高级。

那么字典是用来做什么的呢?用最通俗的理解,就是撞词。如果这个词出现在词汇表中,那么这个词所代表的意思就会被我们知道(知识图谱就更厉害了,可以知道这个词和其他词的关系。后面会讲到知识图谱)。

通过对单词的理解,我们可以对信息进行搜索和排序。当然,在实际应用中,不仅仅是打单词那么简单,还有更多更深入的算法来提高意图识别的准确率。

第四节:检索和排序

恢复

在基于向量的信息检索中,标准的做法是余弦相似度,通过计算两个向量的余弦来确定两个文本的相似度。

结果类型

这类问题一般依靠知识图谱查询相关结果,我们会在知识图谱中详细讲这部分。

段落类型

根据用户的输入,通过查找文档-->查找段落-->根据要求决定是否需要段落摘要。

最简单的段落摘要就是高亮,把命中前后的字数作为段落摘要的内容。对于复杂点的,可以通过AI自动生成部分段落摘要。

显示类型:确定搜索范围并进行搜索。

分类

在整个过程中,排序可以分为两种:一种是算法排序,在信息筛选时,算法已经给出了每个结果的数值;二是人工干预排序,主要表现在页面中的排序。

算法的排名结果是机器给的,算法技巧会对不同产品时期的排名产生影响。作为PM,你可以给出期望的结果和一些坏的情况来优化算法。

在页面中的排名主要由PM根据需求来决定。通过对业务的了解和对用户需求的把握,筛选出合理的排名条件。

第五节:输出

有结果:

对于结果,作为项目经理,您只需要定义输出字段。目前,有三种类型的展览形式:

(1)卡片显示:

卡片适合每块信息量较少的情况;整体来看,卡片的展示数量较列表来说是多的。在卡片中,用户操作不宜过多。

(2)列表显示:

由于列表占用空间较多,因此如果有更多的操作或者信息的展示,可以列表来展示;整体来看,展示数量少于卡片的展示。

(3)个性展示:比如用地图找房子。

没有结果:

最简单直观的方式:显示没有任何结果的页面,加上提示“对不起,没有你要搜索的内容,请换个词试试”。

全过程优化法:

1.预防:防止不确定情况的发生。

可用方法:

搜索框内展示搜索格式内容的帮助;提供搜索建议(自动填充可能搜索的内容);更好的理解用户的输入,建立自己的字典(停用词、同义词等,详见意图识别部分);将部分详情展示出来(多用于电商类产品)。

2.恢复:帮助用户在没有结果的情况下回到正轨。

可用方法:

自动纠错;提示有搜索结果的相似词;帮助文档,应当如何搜索。

灵活性:把错误变成新的机会。

可用方法:

展示类似的结果;热门搜索词语;基于该用户推荐的词语;提供用户反馈;允许用户贡献内容(常见UGC产品);当有内容时告知用户(常见于实效性不强且用户在某方面敏感型的产品,比如地产类、机票低价提醒)第六节:结果优化【产品层】

我们讲的是搜索时如果结果不尽如人意,如何让用户停留在页面上,找到自己想要的结果。

筛选是一个强大的交互过程,这意味着用户的需求是明确的,需要的结果也更准确。我们最怕的是用户不知道自己想要什么,所以我们希望通过一系列的小功能,比如过滤、提示,让用户知道自己的需求。

一般方法:可以通过切换Tab键或筛选框对结果进行初步筛选。

Pinterest筛选:这个我想单独说一下。这真的是我很喜欢的一个设计。你输入查询条件,它会自动弹出你输入+另一个组合词,真的比普通筛选好很多。

页面比其他页面就筛选而言,空间占用更少,更多的留给信息展示。组合词比结构化的筛选更多,有些词是用户更常用更多搜索的,但比较难归类到某个类别进行展示。组合词的更新可以在后台完成,不需要对页面做过多更改。

当然你也可以说输入的时候会自动出来供用户选择,这当然没问题。面对一些未知的、模糊的搜索,用户的输入会从大到小开始。Pinterest的做法相当于结果-反馈-新结果,不断循环,让用户的感知更加顺畅和友好,用户自身对事物的掌控并没有被削弱。

投入产出改善

详见上文第二节:输入;第四节:输出——没有结果——优化全过程的实践。

第七节:结果评估&优化【数据算法层】

我们讲的是搜索时如果结果不尽如人意,如何让用户停留在页面上,找到自己想要的结果。

分析输入,了解用户。

我们可以对门户进行分析,对查询进行分析,结合用户画像和用户分类对输入进行分析,从而知道用户在我们的产品上输入更多的是哪些类别和内容。下面的算法策略可以根据这部分做一些参考。

评估输出并优化算法

有三种常用方法来评估输出:

通过业务指标来评估,比如CTR、业务指标的转化率等。通过A/B testing来做不同算法间的比较。通过人工来评估。

因为A/B测试需要大量的技术资源,你可以根据自己公司的进度和资源水平来决定是否做。剩下的两个建议一起做。业务指标看整体效果,人工评价找一些明显的典型案例。

结束语

由于时间关系,在本文中,我们主要对整个搜索过程进行简单的概述。至于里面的细节,可以参考其他文献补充知识。欢迎大家一起探讨。

备注:关于第四节:输出-无结果-全过程优化,我是参考woshipm上的一个朋友写的。因为时间久远,找不到链接。如果有人知道,可以在评论里贴链接。

本文由@杜Cathy原创发布。每个人都是产品经理。未经许可,禁止复制。

来自Unsplash的图像,基于CC0协议。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/398103.html

发表回复

登录后才能评论