推荐系统算法(兴趣爱好推荐)

引言近年来,深度学习技术的快速发展大大加速了人工智能在传统和互联网领域的商业化。如今,人工智能的应用已经迅速发展到我们日常生活的方方面面。比如无人超市的出现,无

引言

近年来,深度学习技术的快速发展大大加速了人工智能在传统和互联网领域的商业化。如今,人工智能的应用已经迅速发展到我们日常生活的方方面面。比如无人超市的出现,无人驾驶汽车的正式推出,智能手机的人脸识别模式,医学影像技术等。

同时,面对时间碎片化、信息同质化/量化、用户选择增多、用户耐心降低,如何满足用户需求、扩大用户需求、带动业务增长、优化行业生态等。,已经成为各行业亟待解决的问题。因此,个性化推荐系统应运而生。

推荐系统数据架构

在构建推荐系统的过程中,数据是非常重要的资产,是驱动决策的燃料。这里所说的数据主要是指基本信息、显性反馈和隐性反馈。

基本信息:主要指用户的性别/年龄/地区,物品的分类/款式/重量等。

显性反馈:一般是指用户对一个项目的真实评价。这类数据的特点是运营成本高,数据量小,真实性更强。

隐性反馈:一般指除直接评分外的一些用户行为数据,包括点击、购买、收藏、购买、浏览时间等。这类数据的特点是用户运营成本低,数据量大,有一定的不真实性。用户行为数据可以进一步聚合梳理,形成用户行为数据(如活跃度、回访、复购等。).

个性化推荐的过程其实就是先对基础数据和反馈数据进行处理,然后利用处理结果进行决策的过程。在数据流通过程中,个性化推荐系统分为四层:数据采集层、数据处理层、数据决策层和效用评估层。

推荐系统算法(兴趣爱好推荐)插图

从上图可以看出,在数据收集阶段,主要的工作是充分了解产品和用户。在数据处理阶段,主要工作是对用户和商品进行分类。在数据决策阶段,主要工作是驱动分发方案和产品优化,这也是搜索、推荐等产品的工程和算法能力的输出阶段。在效用评估阶段,主要工作是对流量分配的效果进行评估,并形成数据反馈。

推荐系统算法架构

系统推荐的算法架构通常分为离线架构和在线架构。

1.线下架构
线下架构主要用于建立对象和用户的画像,因为数据是算法的基础,底层数据的丰富程度决定了推荐能力的天花板。

比如系统通常不知道未注册用户的去向,通过适当的引导,可以降低未注册用户访问推荐系统的比例,从而大大提高推荐系统的控制力。比如参考更丰富的用户行为(曝光、点击、喜欢、停留时间、下载时间等。)和更多的用户特征(用户的年龄、性别、地域、商品店铺、价格、品类等)。)也能大大增强推荐系统的控制力,而且这些参考因素越多越好。

本质上,算法系统是用来预测未来的,但如果过去什么都没发生,预测的结果可想而知。

2.线上架构
线上架构主要用于从海量商品池中选择合适的推荐对象,并匹配到相应的用户。在这个框架中,我们主要依靠检索技术(如协同过滤、内容过滤、用户偏好等。)建立索引,然后根据索引生成第一步的结果。涉及的工程技术主要是用来提高整个系统的响应速度和吞吐效率,让整个推荐系统一次查的更多更快。

我们以58同城的本地服务推荐流程和算法架构为例,如下图所示。

推荐系统算法(兴趣爱好推荐)插图(1)

从图中可以看出,在线架构主要分为四个部分:回忆层、粗排列层、细排列层、整合重排层。

召回层:根据多个维度从题库中筛选出潜在条目的候选集,并将候选集传递到排序环节。在召回供应池中,我们可以看到多个召回集,整个召回过程的产量往往以万计。

粗排名:将召回的项目按规则或简单模型排序,按配额截断,截取前N条数据输出到细排名。配额一般分为业务场景,比如58同城本地服务推荐类目,整个粗略排名过程的产出往往以千计。

精细排列层:利用特征数量较多的复杂模型对条目进行更精确的排序,然后将条目输出到重排层(融合层)。整个精排过程的产量往往是以百计。

融合重排层:面向产品策略的融合重排,例如商品、SKU、帖子、标签等不同的展示元素。融合成一个列表,去除暴露、去重、分散等策略后,根据来回点击将新信息插入列表,增强体验,最终生成用户可见的推荐列表。整个融合重排过程的输出往往是几十个单位。

标签与画像

用户是用户的结构基础,商品标签是商品的结构基础,为后续输出用户画像和商品画像提供必要的素材和相关依据。推荐算法根据结构化数据理解用户和商品,从而提高流量分配的准确性。

用户结构化基础:用户标签

因为用户标签是面向各种服务的,所以在用户标签应用到实际服务之前,我们需要对每一项服务进行深入的了解,然后通过标签处理找到服务体系下的差异化标签。这里的差异化标签指的是用户标签。

一般来说,用户标签分为四类:基本信息、统计标签、偏好标签和分类标签。

基本信息:如用户ID、注册时间、设备类型等标签。这些标签是通过在线系统或其他方式直接获取的,不需要任何处理。

统计标签:指基于事实数据的直接统计结果。比如日均支付金额、最近三个月登录次数、超市历史累计好评等标签都可以通过汇总历史数据生成。

偏好标签(Preference tags):通过总结用户在一段时间内的相关行为,并根据其行为进行加权而生成的标签。这种标签主要是根据用户的行为计算出来的,反映了用户在一段时间内的兴趣点,比如用户的品牌偏好、各个层次的品类偏好等。这些标签不涉及复杂的机器学习算法,但是不同标签的处理过程是不同的,是个性化的。

类别:如预测性别、预测有车有房、预测是否结婚生子等。每一类都有明确的定义。因为这类标签的生成一般涉及复杂的算法逻辑,所以往往需要使用机器学习算法。

项目的结构化基础:项目标签

用户在浏览信息时,往往希望看到自己喜欢的标签,然后选择自己喜欢的标签对应的商品,再进入贴有自己喜欢的标签的店铺。在这个过程中,用户不断沉淀个人行为标签。

商品的标签是通过标签维度将商品列表等泛内容、C端/B端等泛用户、前台导购等串联起来,然后利用标签能力实现不同的商品圈集、不同的B端圈集、不同的C端圈集。

项目标签结构

文章的标签结构根据标签的组合粒度可以分为基本标签、复合标签和概念标签。

(1)基本标签

基础标签分为内容标签、用户标签、卖家标签、商品标签、商家标签等。

以商品标签为例,商品标签的基本标签是指文字标签,主要取自标题、属性等用于描述商品的文字信息,类似于属性-属性值。为了便于管理和应用,需要对属性进行优化,最终在整个标签体系中沉淀出一组不可分割的、基础的标签。

所以基础标签是平台最重要最核心的资产,我们通过基础标签实现了商品->: End b->: C-end >:内容的串联。

(2)合成标签

合成标签是基础标签进一步加工的产物。以商品为例,复合标签定义为相似商品的集合,如欧美、高领、高腰碎花连衣裙等。,每个标签由三个基本标签组成(注意:它们是相似商品的集合,而不仅仅是一个简短的文本)。

对于商品来说,在使用多个标签描述这批商品时,具有可理解、可编辑的优势,因为是中间产品。就像一块积木,我们在它的基础上构建更多有趣的应用。

复合标签虽然是同类产品的集合,但也适用于用户,所以我们也可以利用复合标签对用户进行更精细的细分。

(3)概念标签

标签的概念定义很广,是指跨品类、跨品类商品的合理组合。

目前概念标签主要用在商品上,强调商品的合理性。可以通过基本标签的交集和并集,或者通过多个合成标签来聚合概念。比如“青春学院风”的概念标签包括破洞牛仔裤、韩版t恤、帆布鞋、斜挎帆布包等。

在实际商业中,概念标签最大的价值在于行业经验的沉淀,用户群体的购物偏好等。,从而服务更多的用户,真正实现知识的沉淀和重用。

构建用户画像

用户画像是一个人的标签集合。

用户画像的构建需要从用户的基本信息和动机信息入手,然后从不同类型的用户中提取一个典型特征来还原一个用户的特征,而这个特征提取的过程就是用户画像构建的过程。

1)用户动机

用户在选择和使用媒体时,往往具有很强的主动性和目的性。因此,用户动机实际上是指用户使用互联网的目的。通常分为社交、消磨时间、查找信息、分享、表达、娱乐。

2)特点

用户画像是由大量特征组成的,如基本特征、统计特征、偏好特征等。特点分为以下三点,也可以参考下图来理解。

特征最直观的属性是其特征值,可以是单值,也可以是多值。它有特定的数据类型和数据分布,如枚举范围、日期类、实值等。

同时,特征也有生成逻辑,主要是由规则或算法模型生成,在不同的条件下也会生成新的特征。

此外,特征还可以区分类别城市。

推荐系统算法(兴趣爱好推荐)插图(2)

构建一个物体肖像

人像和用户人像一样。我们可以简单的把物体画像的构建理解为对物体的信息进行标签化的过程。

在这个过程中,我们首先需要挖掘文章的结构化标签,然后通过各个维度对结构化标签进行有序的组织,最终形成文章的画像。

画像主要分为四个层次:基础信息、供给侧信息、存储侧信息、消费侧信息。我们以58同城到家精选服务画像为例。

信息基本包括品类属性、价格信息、店铺信息、商家信息等。

供给侧信息包括商家的供货数量和商家的服务能力;

存储的信息包括库存编号、库存数量等。

消费信息包括订单数量、用户下单数量、销售信息、优惠券金额、实际支付金额等。这些信息,经过不同维度的提取,最终构成了商品的完整画像。

简单推荐算法

在个性化推荐系统中,简单的推荐策略主要分为:基于热门推荐的推荐、基于基本信息的推荐、基于内容的推荐和基于关联规则的推荐。

1.基于流行的推荐

热门推荐,顾名思义,是指利用统计方法推荐最热门的物品。越受欢迎的项目越有可能被点击。这个很好理解,就不赘述了。

2.基于基本信息的推荐

基于基本信息的推荐是根据用户的领域、职位、工作年龄、性别、所在地等基本信息,向用户推荐感兴趣的或相关的内容,如年龄相关的电影榜单、收入相关的商品类型榜单、性别-文章相关榜单等等。

因为热门推荐和基础信息型推荐使用起来相对简单,所以这两种推荐策略被广泛使用。

3.基于内容的推荐

基于内容的推荐(Content Based Recommandation)是指利用用户和文章的相关信息构建的模型,比如前面提到的用户和文章的画像信息,以及用户对文章的行为,比如浏览、点击、调用、收藏、评论、下单等。内容推荐算法根据用户行为推断用户偏好,为用户推荐具有相同偏好的项目。

基于内容推荐的计算过程一般分为四个步骤:

查找用户历史感兴趣的项目集合;

查找项目集合的物化属性;

具有抽象属性的公共属性;

通过这些公共属性查找其他项目,并实施建议。

4.基于关联规则的推荐

基于关联规则的推荐是通过数据挖掘找到物品之间的关联,然后推荐标签,比如大家熟知的“啤酒”和“纸尿裤”,即某超市工作人员在分析顾客购物清单后发现了啤酒和纸尿裤的共现关系。

在衡量项目之间的相关性时,主要看三个指标:支持度、信心度、提升度。

传统机器学习推荐算法

推荐算法本质上是一种信息处理方法,对用户信息和商品信息进行处理,最终输出推荐结果。热门推荐、基于内容的推荐、基于关联规则的推荐等方法比较粗放,因此推荐结果往往不够准确。如果要构建一个千人千面的推荐系统,真正满足用户的个性化推荐需求,就需要使用更复杂的运算逻辑——推荐算法。

推荐分为传统的机器学习算法和深度学习算法。本章主要介绍传统的机器学习算法。

传统的机器学习算法分为基于邻域的方法和基于特征的方法。

基于邻域的推荐算法——协同过滤算法

以用户号为纵坐标,以帖子号为横坐标,标注用户与帖子之间是否存在交互过程,然后填写下图所示的表格。这时,一个用户和一个物品的行为矩阵就成功构建了。

推荐系统算法(兴趣爱好推荐)插图(3)

根据上表中的内容,如果我们对行为类别进行评分(如点击浏览1分,通话3分,微聊3分,收藏5分等。),然后把相应的分数填入矩阵,我们就可以得到一个评分矩阵。这里就不赘述了。

如果需要推荐用户A,根据下面的表格,我们发现用户A、用户B、用户C都对岗位1、岗位2、岗位3感兴趣,所以我们认为用户A、用户B、用户C都差不多。

同时,我们还发现,用户B阅读了帖子4,用户C阅读了帖子5,但用户A没有阅读这两个帖子中的任何一个。基于相似性原则,我们认为用户A大概率会对帖子4和帖子5感兴趣。所以在生成推荐的时候,我们也会把岗位4和岗位5推荐给用户a。

这些是协同过滤算法的基本思想。

协同过滤算法分类

在互联网应用场景下,有大量用户看着看着,买着买着,买着买着等。所以我们需要利用集体智慧,对用户和物品的所有交互进行个性化推荐,然后才可以考虑使用协同过滤算法。

协同过滤是推荐算法中最成熟、应用最广泛的算法。根据模型相似度计算的对象,我们将协同过滤算法分为三种类型:UserCF、ItemCF和ModelCF。让我们逐一解释。

1.基于用户的协同过滤算法

通过分析用户喜欢的物品,我们发现两个用户(用户A和用户B)如果喜欢的物品相似,那么这两个用户就是相似的。此时,我们可以将用户A喜欢但用户B没看过的物品推荐给用户B。

基于用户的协同过滤算法(UserCF)的具体实现思路如下:

(1)计算用户之间的相似度;

(2)根据用户的相似度,找到这个集合中用户没见过但喜欢的物品(即与目标用户兴趣相似的用户的行为)并推荐。

2.基于项目的协同过滤算法

通过分析用户喜欢的物品,我们发现如果两个物品被一群人喜欢,那么它们是相似的。在这一点上,我们会把用户喜欢的相似物品中的一个大概率物品推荐给这群用户。

基于文章的协同过滤算法的具体实现思路如下:

(1)计算项目之间的相似度;

(2)根据物品的相似度和用户的历史行为进行推荐。

3.基于模型的协同过滤算法

基于模型的协同过滤算法也称为基于学习的方法。通过定义一个参数模型,我们可以描述用户与文章、用户与用户、文章与文章之间的关系。然后,现有的用户和文章之间的评分矩阵(如矩阵分解、隐藏语义模型LFM等。)作为样本进行优化求解,最终得到模型参数。

基于特征的机器学习算法

协同过滤(CF)算法通过用户行为构建用户商品的共现矩阵,然后通过CF算法的预测结果实现个性化推荐。实际上,除了利用用户的行为特征,我们还可以利用用户和文章本身的特征等辅助信息来预测结果。

基于项目特征的推荐问题一般通过回归模型来实现。首先,回归模型会通过算法预测一个0到1之间的连续值,代表一种可能性。然后推荐系统会将获得的可能性通过排序推荐给用户,最终实现个性化推荐。与协同过滤模型相比,基于特征的机器学习模型不仅考虑了用户的行为特征,还加入了年龄、性别等用户特征,以及时间、地点等商品特征,从而大大提高了模型的表达能力。

LR、SVM、随机森林、GDBT、随机森林、Xgboost、Catboost等模型。可以用来推荐算法。此外,复杂模型如GDBT、Xgboost等。可用于自动筛选和组合特征,然后生成新的离散特征向量。然后,我们使用这个特征向量作为逻辑回归(LR)模型的输入,并最终产生预测结果。

在这一点上,我们看到了端到端训练、隐向量技术等深度学习模型的影子,也就是说,GBDT+LR开启了特征工程建模的潮流。

深度学习推荐算法

深度学习在推荐算法中的应用类似于深度学习在图像处理和NLP中的应用,主要应用深度学习算法的特征提取功能。有两种具体的申请形式:

1.深度网络范式用于表示用户和商品或者提取高阶交互特征(双塔模型),然后将隐向量表示集成到推荐系统模型中。这里,整合方法分为以下两种。

松耦合:信息单向流动,隐式向量表示作为推荐模型的输入。

紧耦合:深度学习部分作为一个单独的组件连接到模型上,同时加入其他传统或深度模型组件进行学习和预测。在这种情况下,隐藏向量表示随着模型学习而改变。

2.利用深度网络范式直接拟合效用函数。这样,一个或多个深层网络范例被直接用于产生预测结果。

具体应用框架简要介绍如下:

深度矩阵分解(DMF)模型

模型的输入层为交互矩阵Y,其行和列分别对应用户和文章的得分,采用多热点形式分别表示用户和文章。

推荐系统算法(兴趣爱好推荐)插图(4)

Yi*指交互矩阵Y中的第I行,表示用户I在所有项目上的评分,即用户I的表征;

Y*j是指交互矩阵Y中的第J列,表示所有用户对J项的评分,即J项的表示。

然后,我们将用户表示Yi*和项目表示Y*j分别送入MLP双塔结构,生成用户隐式向量表示Pi和项目隐式向量表示QJ;

最后,使用余弦点积来匹配分数。

温馨提示:其实DMF模型是由MF+MLP双塔串联而成的模型,其中MF主要负责线性部分,MLP主要负责非线性部分。主要目的是学习用户和对象的高阶表示向量。

神经协同过滤模型

传统的MF模型相当于将稀疏的用户和项目ID向量转换成密集的隐藏向量表示,模拟浅层神经网络的作用。其中P代表用户的隐藏因子矩阵,Q代表商品的隐藏因子矩阵。通过这两个矩阵,我们可以预测用户对项目的评分。

在了解了传统的MF模式之后,让我们来看看NCF模式。框架如下图所示:

推荐系统算法(兴趣爱好推荐)插图(5)

宽深模型

Wide&Deep模型是由Google首先提出的。从行业诞生开始,就为基于范式组合的模型生成打开了一扇大门。因此,Wide&Deep模型与其说是一个模型,不如说是一个通用的范式框架。

顾名思义,Wide&Deep模型由Wide和Deep组成,其框架图如下:

推荐系统算法(兴趣爱好推荐)插图(6)

广泛的

属于广义线性部分,可以用较少的参数学习用户或物品ID等高频低阶特征,因此记忆能力较好;而未知ID的学习能力差,所以泛化能力差。这是因为特征从输入到输出都是透明的,保留了大量的原始信息,所以模型捕捉到的特征更加具体。

深的

它属于神经网络的MLP部分,主要用于学习样本的长尾部分。因为它可以预测出现较少或从不出现的特征组合,所以需要较少的人工参与,泛化能力强。

总结:Wide&Deep模型由LR+MLP并行组成,综合了传统机器学习和深度学习的优点。

Wide根据历史行为数据,部分推荐与用户现有行为直接相关的项目;

Deep负责捕捉新的特征组合,从而提高推荐的多样性。

深度因子分解机(DeepFM)模型

深度因式分解机(DeepFM)模型是由Wide&Deep框架演化而来的模型。

由于Wide&Deep模型的广义线性部分,挖掘出的用户兴趣对的交叉信息仍然需要人工特征工程来人工构建特征以及特征之间的组合,因此过程相当繁琐,依赖人工经验。FM模型用于替换LR部分,从而形成FM&Deep结构。

推荐系统算法(兴趣爱好推荐)插图(7)

与Wide&Deep模型类似,DeepFM模型也分为FM部分和Deep部分。

FM部分:可以自动提取特征交叉信息,包括加权和的一阶信息和向量内积的二阶信息。与Wide&Deep模型相比,使用低级特征更合理。

部分:DeepFM模型和Wide&Deep模型的深层部分本质上没有区别。但是,Wide&Deep模型中的嵌入层是专门为深度部分设计的,而DeepFM模型中的嵌入层是由深度部分和FM部分共享的。

算法进化趋势

像计算机视觉和NLP领域深度学习的算法进化方向,更深入,更专注。像深度学习在计算机视觉中的应用,基于现有的嵌入+MLP范式,通过一些网络结构的改变,得到了一些新的算法和模型框架,具体如下:

只是嵌入的部分修改:FNN模型

借用ResNet:深度穿越模型

整合注意机制:注意因子分解机(AFM)模型

使用注意机制:深度兴趣网络(DIN)模型

增加兴趣提取层和兴趣进化层:深度兴趣进化网络(迪恩)模型

引入会话概念:深度会话兴趣网络(DSIN)模型

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/101482.html

发表回复

登录后才能评论