Lookalike的几种实现方式

Computational Advertising Haran 4年前 (2020-10-22) 6821次浏览 1个评论
文章目录[隐藏]

什么是 Lookalike?

对数字营销的从业人员熟悉的应知道,广告主如果想扩大投放人群,可以基于现有的人群,然后通过数据分析,找到这一批和现有人群最类似,最有可能转化的人群去扩大投放范围。

简单说:Lookalike的目的是基于目标人群,从海量的人群中找出和目标人群相似的其他人群,这也是受众定向技术之一。

那它使用什么算法呢?

估计没几个人能说得出来的,你有听过哪个产品有说明自己使用的算法?即使现在Lookalike成了DMP、DSP、广告投放平台的标配,也就只有少数的公司会提交论文、公布具体的实现算法,大部分是不公开的,只是说基于种子人群扩散效应,将lookalike作为一种提升逼格的利器,给人一副忌讳莫深的感觉。没人知道它具体的算法,更不用说怎么评估它的效果。

Lookalike可以分为显示定位和隐式定位。

显示定位

显示定位其实就是根据规则或标签进行人群选择,标签体系的建立和标签的生成这个就是另一个话题的东西,后面再单独来讲。

基于标签选择(Rule-based)

标签本质是利用用户画像/标签体系,基于种子用户的标签,利用相同标签的方式找目标人群。

Lookalike的几种实现方式

这是最简单、高效、粗暴的一种方式。这种适合收集有大量用户数据能构建完整用户画像的公司做。

  • 腾讯DMP在用这种,官方介绍的原理:首先是种子用户的获取,不再局限于需要自己去收集号码包自己上传,我们还可以按照你近期账户中的系统自动记录的种子用户的数据,系统会根据种子用户的标签与腾讯用户标签做匹配,会从上百万个维度对种子人群进行分析,从中筛选出最具代表性的共有特征根据这些特征再从全量活跃用户中筛选出另一批与种子人群最相似的用户。

但这种方式所错成本高,手动调优难,投放效率低,所以往智能定向的方向发展,如协同过滤,序列推荐,图神经网络等,但很多平台仍然会提供这种传统的显示定向方式的。

隐式定位

隐式定位是通过机器学习、深度学习的方法,对种子用户进行建模,然后用模型去识别。参考《A Sub-linear, Massive-scale Look-alike Audience Extension System》里面的分类规则做如下划分:

基于相似度模型

主要是基于User-User之间的某种距离大小来衡量用户之间的相似度,主流的相似度计算方法包括:针对连续值的余弦相似度(Cosine similarity)以及针对离散值的(Jaccard similarity)

Lookalike的几种实现方式

 

计算完个体之间的距离后,如何计算个体和样本整体之间的距离有三种方法:

  • 最大值Max:利用u1与seeds中相似度最大值作为u1与seeds的相似度 sim(u1,seeds)=Max(sim(uj,seeds))
  • 平均值Mean:利用u1与seeds中每个用户的相似度去均值作为整体相似度 sim(u1,seeds)=Mean(sim(uj,seeds))
  • 基于概率:该方法要求用户之间的相似度在[0,1]之间。通过不相似度反向得到相似度。

这方法计算简单,适用于小范围的计算,因为每个用户都去计算和种子用户的距离,数据量大的时候,计算量呈现指数级上升,通常会采用LSH(Locality Sensitive Hashing ,局部敏喊哈希)的方式去加速计算,如领英的《Audience Expansion for Online Social Network Advertising》。

除此之外还有皮尔森相关系数(Pearson Correlation Coefficient)、Jaccard相似系数(Jaccard Coefficient)、Tanimoto系数(广义Jaccard相似系数)。

基于标签/用户协同过滤

在标签扩散的基础上,采用基于用户的协同过滤算法,找到与种子人群相似的机会人群。协同过滤推荐算法分为两类:基于用户的协同过滤推荐算法和基于项目的协同过滤推荐算法。

  • 基于用户的协同过滤推荐算法根据用户对项目的评分矩阵,计算用户之间的相似度,找出目标用户的最邻近邻居集合,最后,对最近邻居集合进行加权,从而产生目标用户的推荐集。
  • 基于项目的协同过滤推荐算法根据对用户已评分项目相似项目的评分进行预测,从某种程度上减少了评分矩阵稀疏性和冷启动问题对推荐质量的影响。

这里采用的第一种算法,基于用户的协同过滤推荐算法的核心想法是通过寻找相似的用户,然后根据相似用户的关系进行推荐。例如,用户A喜欢电影a和c,用户B喜欢电影b,用户C喜欢电影a、c和d,通过数据可以发现用户A和用户C是是比较接近的人群,就是喜欢相同的,同时c还喜欢d,那么我们可以A也喜欢d电影,向A推荐d电影。如果将用户和电影(这里指特征)看做一个点建立起了联系,关系网就形成一张图。

  • 第一阶段是从种子用户找到与用户相似的用户集,基于相似度去计算(有些会从种子用户计算推荐集)
  • 第二阶段根据候选集产生推荐集,先得到最后推荐集,再通过Top-N排序算法得到用户

 

基于分类模型

将look-alike看成是分类问题,很多的分类算法都可能适用。

LR算法

将种子用户作为正例,将随机用户进行降采样后作为负例,为每个种子训练一个LR模型。用这个模型在全部用户上预测,后去判断其他的用户是否为目标人群,模型如下:

Lookalike的几种实现方式

x是个向量,可以将所有的特征都输入:

Lookalike的几种实现方式

这个函数的图形是:

Lookalike的几种实现方式

值的范围在0到1之间,通过阈值就可以判断是否符合目标用户,如0.6,大于0.6是目标用户,小于0.6是非目标用户

这种方法的优势在于种子用户的所有特征都使用到,易于解释。缺点是是它是线性的,相对还是简答;随着广告的增加,索引存储、离线训练和预测的机器会难以支撑。

  • 腾讯的广点通在2015年到2017年就是用这种.
  • 360DMP在2016年左右也是用这种。
  • TalkingData在2015年左右也使用这种
  • 爱奇艺DMP使用这种算法

RF模型

根据阿里巴巴的文章,对随机森林模型的实验效果并不理想,在相同的样本和特征上Precision和AUC指标均比LR低,且特征重要性结果只能到特征粒度不能到特征值粒度,因此不再使用。

PS-SMART算法

根据阿里巴巴的文章,PS架构的GBDT算法模型,决策树弱分类器加上GBM算法,具有较强的非线性拟合能力,在应用中相比其它两种算法模型效果更好。因此选择PS-SMART作为最终的算法模型,并对损失函数、树的个数深度、正则系数进行调优。

……

基于聚类

根据用户标签,采用层次聚类算法(如BIRCH或CURE算法)对人群进行聚类,再从中找出与种子人群相似的机会人群,再通过Top-N排序算法得到用户。

基于社交关系

以具有相似社交关系的人也有相似的兴趣爱好/价值观为前提假设,利用社交网络关系进行人群扩散。

基于图模型

基于图模型的代表就是Yahoo提出《A Sub-linear, Massive-scale Look-alike Audience Extension System》,文章在Abstract就直接写是基于图模型,由于选择特征的时候可以用LR,所以有些文章会将其划分到基于回归模型:

Lookalike的几种实现方式

图模型可以分为两个阶段:

  • 粗排序(Global Graph Construction):通过构造全局图找相似的用户,而构造全局图使用的是Jaccard similarity,会带来计算量的问题,所以利用LSH(Locality Sensitive Hashing ,局部敏喊哈希)来加速相似度的计算并构造全局图,有两种计算方法方法MiniHash+LSH。
  • 精排序(Campaign Specific Modeling):根据广告特征权重对粗排序做排序,而对特征的选择可以选择IV(information value)或LR(logistic regression)方法。

注意:由于在最后一步使用LR,有些分类将这种方法放到了基于回归类型。

 

基于Attention深度模型

RALM算法:全名Real-time Attention based Look-alike Model,这是腾讯最近提出的一个基于深度学习的Look-alike系统,已经微信上的看一看应用。它通过 user representation learning 表达用户的兴趣状态,通过 Look-alike learning 学习种子用户群体信息以及目标用户与种子用户群的相似性,从而实现实时且高效的受众用户扩展和内容触达。

使用情况

从公开资料可以知道一些公司使用的具体算法,由于时效性问题,有些公司的实际使用的可能已经更新了,下面信息仅做了解:

  • Adobe的用的是TraitWeight algorithm,
  • 百度用深度神经网络相似排序模型

由于性能的因素,部分厂家会使用两级模型,就是第一级别是基于标签的,因为基于标签的方式简单,能够做初步筛选,其实就是做粗排,第二级别的是基于算法的,做精选。

 

参考

 


如有疑问,可以在文章底部留言或邮件(haran.huang@ichdata.com) 我~
喜欢 (11)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
(1)个小伙伴在吐槽
  1. 但这种方式所错成本高,手动调优难,投放效率低,所以往智能定向的方向发展,请问这句话怎么理解啊,所错?调优难?所以。。。?
    鳗鱼2021-01-09 14:57 回复 Mac OS X | Chrome 87.0.4280.88