搜索引擎的点击模型

  • 转载自 — 刘十三,https://zhuanlan.zhihu.com/p/87807521

计算机科学里,点击模型(Click Model)是对用户点击行为的建模。根据用户的历史点击信息,对用户的兴趣和行为进行建模,以对用户的未来点击行为进行预测,提高相关性。作为一种用户交互信息的有效利用方法,点击模型在学术界得到了充分关注,并在工业界得到了广泛的应用。

用户在搜索过程中的点击行为可能会受到多种因素的影响。 研究表明,由于搜索用户受到结果位置 、展现形式 、可信度等各种因素的影响,将反馈信息直接应用于结果相关性估计任务往往难以取得较好的效果。 针对这一问题,研究人员提出了构建描述用户点击行为的点击模型来尝试解决上述问题。 点击模型是用来描述用户从开始搜索到搜索结束过程中点击行为的发生过程的模型,不同的模型会尝试描述用户在搜索过程中受到的不同因素的影响,以及这些影响之间的相互关联,最终利用大规模的用户点击信息去推测模型中的不同影响因素所发挥的作用程度,从而更为准确地估计结果的真实相关性和新页面下用户的点击概率,达到更好利用隐性反馈信息的目的。

点击模型有两种使用方法:

  1. 将点击模型计算得到的分数作为排序模型的特征,可以分别计算小时级别点击得分,天级别,周级别,作为多个特征。
  2. 将排序模型得到的候选集作为输入,利用点击模型计算得分,进行重新排序

点击模型的分类

基于内容展现形式,可将点击模型分为同构内容点击模型和异构内容点击模型。同构内容指搜索结果展现形式是一致的。例如许多垂直搜索结果,新闻类搜索,音乐搜索等搜索出的结果选项内容格式是一致的。异构内容指搜索结果内容是不同种类结果的混合结果。大量的包含富文本信息的搜索结果被引入搜索页面,这也使得用户的浏览行为习惯和偏好可能产生比较大的变化。

基于用户浏览行为,可将点击模型分为顺序点击模型和非顺序点击模型。顺序点击模型指模型假设用户自上而下顺序浏览搜索结果。非顺序模型则将用户随机浏览、局部浏览或返回浏览等考虑到模型设计当中。

一个机器学习的模型,实际上是把决策函数限定在某一组条件下,这组限定条件就决定了模型的假设空间。假设空间越符合实际情况与数据分布,模型越简单,则模型总体效果越好。

CM(Cascade Model) 级联模型

自上而下,用户首次点击以后就不再浏览。

待学习的参数 : alpha

DCM(Dependance Click Model) 依赖点击模型

级联模型只点击一次,DCM对其进行了拓展,用户点了以后仍有 lambda 的概率继续浏览

待学习的参数:alpha, lambda

UBM(User Browsing Model) 用户浏览模型

检验某个位置的结果的概率不仅和当前该结果所处的位置相关,同时还和该结果与用户上一次点击的结果的距离有着非常重要的关联。用户长时间未看到相关性的内容,就不会再继续看了。

待学习的参数:alpha, gama

gama 表示在当前位置,距离上一次点击一定距离下,被检验的概率

alpha 表示这个doc在当前query下对用户的吸引力

文章还提到了Muti-UBM,多了一个参数 mu

DBN(Dynamic Bayesian Network) 动态贝叶斯网络点击模型

用户每点击一条结果之后都会有一定的满意度改变,而一旦用户在某次点击之后达到了满意的程度,那么他/ 她就会停止检验后续的结果并结束这次查询

引入了S隐变量

感知相关性*真实相关性 = 被吸引的概率*被满足的概率

待学习的参数 alpha, lambda

与其他模型区别:UBM对于url点了以后的转移概率用距离建模,而DBM用满意度建模,DCM则是每个位置上点了以后有一个转移概率,CM转移概率为0

EM算法求解两个隐变量

CCM(Click Chain Model)点击链模型

描述用户可能存在的略过行为,即在当前位置没有点击,直接跳转到了下一个检查点

待学习的参数 R即点击率,alpha1没有点击转移到下一个检查点,alpha2没看懂是什么东西,alpha3是点了以后转移到下一个检查点的概率

intent hypothesis

同一个query,用户输入的意图可能是不同的

假设只有doc满足了用户的搜索意图,用户才会进行点击。

可以与UBM, DBN进行兼容,EM算法迭代求解,求出参数后,固定,再求解UBM或DBN的参数

Google

query-intent bias 用户输入的 query 只是真实意图冰山之一角,利用用户先前的点击信息来捕捉用户的意图。点了第一个内容的人,点其他的概率更高,因为点第一个说明了用户的意图

Pure relevance model 进用相关性,不考虑前后点击的影响,由 instance relevance * aggregate relevance。

Max-examination 感觉和CCM很像,就是考虑了先前所有的点击与没点击

FCM(federated click model)

异构结果的展示,文章提了两个假设:

1. 如果结果中有垂直搜索的结果,则用户会更容易被垂直搜索结果所吸引,去检验(Examine)它

其中A代表是否被垂直结果所吸引

2. 如果用户点了一个垂直搜索的结果,那么用户更容易被满足

D代表是否存在exploration bias, V代表是否是vertical document

VCM(Vertical-aware Click Model)

用户在开始浏览时,他会有一定的机率决定是否首先去检验垂直结果,如果首先检验了垂直结果,那么用户会继续约定是否回到页面顶端自上而下浏览,亦或是自下而上反序浏览。

默认图片
Marugu Fuyeor
欢迎来到复网 - 教程与解决方案 - Marugu Fuyeor
文章: 95

留下评论