网上苏宁易购(苏宁易购还能活过来吗)

一.搜索系统概述在互联网崛起的过程中,搜索起到了至关重要的作用。我们熟悉的谷歌和百度都是全网搜索引擎,对互联网的发展起到了强大的推动作用。在电商垂直领域,搜索是

一.搜索系统概述

在互联网崛起的过程中,搜索起到了至关重要的作用。我们熟悉的谷歌和百度都是全网搜索引擎,对互联网的发展起到了强大的推动作用。在电商垂直领域,搜索是一个无处不在的工具,是每个电商平台的主要流量入口。它集成了海量数据处理和查询、机器学习、深度学习等技术。对时效性和并发性要求非常高。Suning.cn搜索是一个集商品、推荐、金融、虚拟商品+功能于一体的垂直电商搜索引擎。

苏宁的搜索体系主要经历以下三个阶段:一是2008-2011年的商业搜索引擎;二是2011-2015年基于开源搭建的搜索引擎;2016年将走向自主研发,打造符合苏宁商业模式的高性能搜索引擎。无论是基于开源还是自主研发,搜索系统都经历了历年数千万UV、上亿PV(如苏宁818、苏宁11.11 O2O购物节),实现了零问题、零事故,是大促完美的有力保障。

二:搜索系统架构

搜索主要分为离线计算和在线实时计算两部分。离线计算主要包括数据处理、加工和数据索引生成。在线计算主要包括流计算、准实时增量索引、实时用户查询分析、查询响应、排序等功能。整个架构如下:

网上苏宁易购(苏宁易购还能活过来吗)插图

该架构的特点:

1.采用轻型倒排机制实现倒排索引的准实时更新。

2.定期切换在线状态,在周期内同步索引,减少SMART-SHARD倒排队列的长度。

3.采用大量前向缓存,实现无索引数据的准实时更新,提升排序的时效性。

4.增加缓存机制,在发动机机器故障时缓冲机舱。降低有效机房的事故率。

5.搜索支持系统提供了对外围系统接口信息的统一访问,减少了过多请求的数量。

6:查询分析执行中心词识别、类别预测、组件识别、纠错、扩展、个性化标签等一系列查询分析功能。供用户查询。个性化标签内容单独在个性化服务系统中处理,需要查询分析系统调用和打包。

基于以上特点,搜索采用短链+前排的方式实现索引更新的秒级更新,保证了流入搜索的数据能够被快速索引并及时响应用户。今年11月11日,苏宁O2O购物节实现了在无缓存亿级接入的情况下,数亿价格变化的更新。在排名层面,目前电商的底层排名主要基于规则和机器学习(LTR)。在上层,有针对店铺、品牌、品类多样性的政策、营销策略、排序规则(当然,像上层那样的排序会在单独的排序系统中处理,这在上层结构中没有体现)。其中,机器学习和训练的数据是半年的数据。这里数据是差异化的,不是一般的半年数据。有些数据其实只有一个季度的数据,一些快消品和季节相关的商品。苏宁搜索在选取数据时做了更细致的选择。如果使用太一般的数据,实验结果表明效果与人工拟合权重排序没有特别大的区别。下面重点介绍搜索工具:

1.搜索工具-用户反馈系统

然后,当用户访问搜索系统时,苏宁搜索系统需要了解用户的点击、访问、购买等情况。如果没有这些数据,搜索只是一个静态的输出引擎,当然不是我们的目标。我们期待的是一个可以和用户互动的系统。通过用户过去的行为数据和现在的行为数据,调整搜索排名,保证给用户更合理的排名结果。系统的整体架构如下:

网上苏宁易购(苏宁易购还能活过来吗)插图(1)

系统功能:

1:实时收集用户行为(点击,翻页,收藏,购买,...等等。)

2.数据流方向,将实时用户行为数据与历史数据相结合,生成产品/运营的报告。

3.实时数据处理用于反馈以影响在线分类。

4.因为底层的排序规则是由不同的模块组成的,所以这里需要有一个路由规则,通过路由规则将一定比例的用户分配给不同的排序规则。

2.搜索工具-用户意图识别系统

分析的总体结构如下:

网上苏宁易购(苏宁易购还能活过来吗)插图(2)

该系统结合了用户行为采集、商品数据、人工序列标注(包括机器自动序列标注)、品类关系模型和商品信息组。实现分类预测、类别扩展、组件识别等功能。核心算法使用条件随机场来识别中心词。经过多年的语料积累和数据规整,在线识别率达到98%以上。当然,机器学习的结果过于依赖数据,也会导致模型预测的分类出现马太效应。还是要在机器学习的上层制定人工规则。

整个处理流程如下:

网上苏宁易购(苏宁易购还能活过来吗)插图(3)

3.搜索工具-反作弊系统

整体画面如下:

网上苏宁易购(苏宁易购还能活过来吗)插图(4)

商品的曝光和分拣对商家来说非常重要。如果商品排第一,流量会很大。但排在前面的商品不一定是用户需要的商品,中间可能存在恶意点击、刷单等行为。反作弊系统非常重要。如何才能准确识别哪些流量有问题?成为系统设计的重点。

系统辨识可能比较容易理解,因为系统是二进制分类问题,可以用二进制分类算法(可以实现LR或NBM)对输入数据进行分类。要么输出作弊,要么不作弊。以便降低错误识别率。使用两种分类器,黑色和白色。最小化错误识别率。

4:搜索工具-LTR

早期搜索排名,那叫一个累,一个线性公式,一堆要排名的因素,每个因素,拍拍头,权重就这样出来了,结果就是,这个商家反馈,那个反馈。然后分析师不断调整。又累又忘恩负义。为了减少人为调整因素的权重,需要收集查询-文档列表数据结合用户行为进行标注。在海量数据的基础上,采用机器学习的方法拟合各因素的权重。如下所示:

网上苏宁易购(苏宁易购还能活过来吗)插图(5)

目前这个流程还是离线拟合的,每天都有更新。所以还是有弊端的,比如热门产品如何在一天内快速体现出来,这种模式还有很多需要改进的地方空。但要想快速曝光热销产品,还是要经过运营反馈,通过规则模块快速调整。

第三,智能搜索系统的应用

这里的智能应用并不一定意味着我们理解苹果Siri和微软萧冰。在这里,我们将简化用户操作,降低运维成本。从经验决策到数据支持的过程称为搜索智能应用。这里主要举两个例子:一个是价格区间划分,一个是默认选择。

1.搜索的价格范围划分:

网上苏宁易购(苏宁易购还能活过来吗)插图(6)

这个功能的价格区间经历了几个阶段。起初采用暴力五部法,满足了价格区间划分的需求。但是,如果价格区间跨度很大,不合理的价格区间划分就很明显。在中期,为价格数据建立聚类(kmeans)模型,并使用该模型来划分价格区间和对数据进行去噪。一定程度上解决了初始问题,但部分数据可能大部分集中在一个区间,导致部分区间无数据。这种模式还有一个弊端,完全基于数据,忽略了用户的行为。划分的区间可能在数字上感觉更客观,但不一定是用户喜欢的区间。为了改善这一弊端,搜索团队和用户行为,综合用户筛选的便利性、企业利润和商户满意度为优化目标,提取相应特征,建立策略优化模型P(价格区间|用户、企业、商户),制定量化指标,以指标的改善为目标,不断迭代更新策略模型,使策略逐渐成熟。主要流程如下:

& ampOslash收集用户行为和商品的相关数据;

& ampOslash数据到特征的融合和转换

& ampOslash隔离林检测并拒绝异常数据;

& ampOslash模型训练,包括训练测试和模型选择;

& ampOslash将训练好的模型部署到在线服务系统,并用于离线处理;

在这个过程中,最大的干扰就是数据噪声,有些数据的离散度非常高。如何选择数据将决定功能。如何处理这些噪声数据成为该功能成功的关键点。经过不断的采样和处理,最终在实验中发现,通过检测和剔除异常数据,采样隔离林能够达到预期的效果。

网上苏宁易购(苏宁易购还能活过来吗)插图(7)

网上苏宁易购(苏宁易购还能活过来吗)插图(8)

如上图所示,左图使用隔离林识别异常数据。其实红点是异常点,蓝点是正常点。右图显示了剔除异常值后的数据。

2:默认过滤/选择功能:

网上苏宁易购(苏宁易购还能活过来吗)插图(9)

功能底层采用用户行为数据、内网品牌和产品类库,结合外网品牌和产品类库。这个过程中有很多问题需要解决。比如,当关键词回忆起太多类别时,我们应该选择哪个类别?当搜索一个品牌名称,但是品牌是我们意识中的一个范畴,我们该怎么办?这些都是需要解决的困难。我们也踩过很多坑。比如以前搜索小米,根据内网用户的行为和数据,那么小米手机品牌的用户行为甚至在某些时段是压倒性的。但在我们的意识中,小米不一定是手机,甚至不是粮油米等商品。这时候我们就采取了一系列的措施,比如利用商品数据,拉长用户周期,对选择划掉后的行为反馈进行加权,抓取并完善外网的品牌产品类库,类目品牌规则模板,人工修正等等。使默认选择的状态尽可能合理准确。当然,没有不变的数据,也没有不变的函数。和数据作战类似于那句老话:道高一尺魔高一丈。数据在变,方法在变,我们不能以不变应万变,但我们可以为了数据而不断变化。

四:场景搜索应用

1.图像搜索:

在某些场景下,用户无法表达意图或者用户表达了意图,但是用户的表达过于个性化,最终导致引擎无法输出或者输出结果过于不理想。比如在街上,看到别人穿的很漂亮,就上去问,担心尴尬。那么这个时候,如果你拿着手机,简单的拍一张照片,就可以检索到同款商品。想想这样的功能就很刺激。这个技术就是图像识别技术,应用到搜索场景就是图像检索。通过图像检索,召回相似度高的产品。下图为苏宁图片搜索效果:

网上苏宁易购(苏宁易购还能活过来吗)插图(10)

当然,图像识别的技术应用广泛,比如无人商店、无人车、无人无人机、无人配送等。

2:(搜索+)服务:

搜索+服务,我们都知道搜索可以检索网页和商品,所以搜索是因为体量巨大。互联网的爆炸导致了用户可用功能和产品的爆炸。search+的意思是可以搜索商品和功能。让用户在最短的时间内找到最好的产品和最常用的功能。如下图:

网上苏宁易购(苏宁易购还能活过来吗)插图(11)

1.搜索+精准商品查询

当用户打开搜索时,在即将翻页之前没有点击行为,是否希望用户继续翻页?或者在这种场景下,提示用户“有更精准的召回功能,可以尝试使用该功能,有你想要的产品”。那么这个产品要有识别用户意图和用户自然语言表达的能力,同时要用产品的多维度标签来提醒用户为什么召回这样的产品。因此,让用户更自然地表达自己的想法,可以涵盖更多的信息,并在其中融入更多的情感因素。让用户的需求表达得更清晰。同时采用多维度的用户分析和丰富的产品内容展示,给予用户精准的产品召回。下图是搜索创新的精准搜索:

网上苏宁易购(苏宁易购还能活过来吗)插图(12)

该产品目前已在外部使用验证。search+的功能搜索还在验证中,敬请期待!

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/149418.html

发表回复

登录后才能评论