垃圾/作弊流量的七种识别方法

文章目录[隐藏]

实战案例

更新时间：2024年7月20号

互联网发展到现在，垃圾流量可以说是网络流量中的主流流量了，如果你说，你的网站没有垃圾流量，那么很大可能是你没发现而已。有人的地方就有江湖，就要防备。虽然现在互联网不像多年前的流量红利年代，虽然环境改变了，但还是有不少人是靠流量来生存，与时俱进，产生了形形色色的作弊流量，作为广告主就不得不防了。这一节就将带大家认识主流的垃圾流量有哪些，以及如何通过数据的角度去分析出这部分流量是垃圾流量。

主要有这么几个角度：首先是明确，什么是垃圾流量，然后是垃圾流量的分类，认识各种垃圾流量的形式，第三点是垃圾流量的危害，也就是垃圾流量对我们的影响主要体现在哪几个方面，第四个就是重点了，介绍一些通过时数据的角度去分析，这部分流浪是不是垃圾流量，最后就是建议了，什么情况下需要考虑做垃圾流量识别，以及如何做？

什么是垃圾流量？

先看看什么是垃圾流量：

作弊，非主动点击流量就是垃圾流量。

这个定义非常简洁，首先是作弊，也就是有利益驱使认为造假的，如刷量，骗点击，木马等形式的，另个是非主动点击，如爬虫，机器这类，会导致网站流量虚高的。

垃圾流量的识别与分类

不同得人，会有不同分类，下面是根据我对垃圾流量的认识做的一个分类，我将垃圾流流量分为两类，一个是流量作弊，一个是流量劫持。

作弊流量

流量作弊就是弄些不好的，假的流量去替代好的好的，坑你，作弊流量可以细分成三类：

1、以次充好

以次充好是将劣质流量包装成优质流量进行投放：

倒卖流量，如你买来的视频贴片CPM是5块的劣质流量，但你以优质的噱头，忽悠别人，卖出了25块的价格，就是挂羊头卖狗肉了；
更换标签，更改用户的标签，如，本来我投放的人群是，男的，年龄25~45的，有经济实力的人，但是媒体人为更改了用户的标签，将部分低龄层用户也纳入到这个人群去，消耗你的广告费。
雇佣诱导，就是给钱或诱导访客去点击，雇佣的话，很普遍出现于淘宝刷单，不时会受到一些短信，你的信用蛮好的，想要刷单加XXXX，或说一些QQ群，人肉下载APP的；诱导就是刺激用户，这类通常是在三俗居多，另一个是qq群里的发消息就被踢出群的哪种，web端还有一种就是你要下载软件，但你点击下载了，下载到的是另一种的，这种应该是误导的，但也放到这个类型里面。通常下载类的会采用这种欺骗方式

作弊特征：以次充好的刷量行为一般发生在时段异常和广告位异常。时段异常主要是在“冷门”的时段投放广告，由于大多数的广告主在广告投放时都没有指定时间段，因而有些媒体就抓住这一漏洞，把一些广告集中投放在凌晨时段(0-8点)，这样就能给定时投放的广告主空出更多的广告库存。广告位异常主要是指购买了好的广告位，却没有按照实际的位置进行投放，而投放在相对较差的广告位或冷门的剧目。

解决方法：通过私有程序化购买，直接对接媒体，固定位置、固定价格，通过程序化技术，优化广告投放效果，整个过程高效透明。此外，通过与优质一线媒体保持良好合作关系，可以从源头上保证回传流量的高质性，更能确保优质资源的利用效果。

2、以假乱真

以假乱真是将广告展示和点击代码放在非自然流量上，用非自然用户的行为进行作弊，通俗的讲就是机器人作弊；

机器作弊，最典型的就是机器流量了，机器流量也有不同的操作形式，如真机群，模拟器，服务API：
- 真机群就是真的有这么一批机器，如手机，电脑，然后通过程序去自动点击，访问广告，智能化最高的形式了；
- 模拟器是通过一个软件工具，模拟大量的用户去点击访问别人的网站，这个真机群相比，不用购买很多的设备，通过模拟器调试，能够降低开发的难度；
- 服务API也就是请求一些文件，会在服务器有日志的，但是并不是真实的访问你的站点，如镜像网站。
脚本刷量，就是用程序去跑，模拟访问页面。这是最早出现的作弊方式，也是成本最低的，所以到现在还是蛮流行的，很容易会被第三方工具检测到的的。
肉鸡，就是黑客通过的设备，黑客可以随意控制设备在在不知情的情况下去访问一些网站，

通常，脚本数量和肉鸡是相结合在一起的。就是木马是在用户不知情的情况下植入的，通常隐藏在某个应用程序中，用户很难发现。这类木马需要比较高的技术。因为要root获得最高权限。安卓系统是比较容易获得最高权限，木马自动识别手机是否在黑屏状态。一旦是黑屏，仅需一两秒点几个按键，就可以神不知鬼不觉地关注某个公众号、点击某篇文章。被这种木马控制的手机，随时可以“秒关注”、“秒赞”、“秒阅”，即便是关注某个公众号、点击了某篇文章，微信用户也看不到这种操作，隐蔽性强。

以假乱真这种形式是最具规模效应的，但是它有一个天然的弊端，及时需要大量的新ip加入，因为旧的ip操作过于频繁，会被第三方工具检测出来。

作弊特征：通过分析，可以发现作弊IP统计的数据（PV/UV/IP）会高出很多，访客数和点击数差异较大。而且作弊流量不会像正常流量一样，正常流量100多个PV才会有一点广告点击动作，100多个IP地址才会3个点击。显然作弊流量不太可能100多个PV才会有一个广告点击，一定是少量PV就会有点击动作，所以作弊流量才会把点击率提高10多个百分点甚至更高。
解决方法：通过脚本、机器刷量的作弊方法通常都比较低级，在遇到此类情况时，一般会通过IP、时间段、后续行为等方式将其过滤。

3、暗渡陈仓

暗渡陈仓是将广告素材隐藏在网页不起眼的位置或是植入代码，在上网者没有察觉的情况访问了广告链接，起到作弊的效果。隐藏广告里面也有多种做法，如Iframe隐藏，广告重叠，媒体主交换

iframe隐藏只是将广告请求隐藏在iframe里面，iframe是不会被访客看到的，也就是访客访问网站的时候，会请求广告，但访客看不到广告，这是一种对访客比较友好的形式
广告重叠，就是广告相互叠在一起的，后面的广告没有被访客看到，这种形式通常存在于移动端，因为移动端的展示的面积有限，为了展示更多的广告，会采用重叠的方式，这样，在后面的那个广告，访客自然是看不到的。
媒体主交换，就是投放在媒体A的广告，出现在B的广告上，也就是你想让A网站访客看到的广告，实际是看不到的。
这三种方式用于CPM结算的广告居多。

作弊特征：大量展示但没有点击
解决方法：对广告可见度做监测

流量劫持

流量劫持，就是强制用户看到某个页面或访问某个页面，如你想访问A网站的，但实际你到了B网站，在请求的整个过程中，都有可能被劫持，如DNS，路由，数据包，网页，下载，劫持来的流量可以增加你自己网站的流量，能更多的变现，通常只有运营商或一定规模的IT公司才有这个技术实力去做，但也有一些大公司在偷偷这么干，如凤凰新闻和今日头条就曾经因为流量劫持而闹上法庭，劫持到的流量通常有三种做法。

一种是引导到到自己的网站，然后再变现，
一种是直接引导到广告主的网站，
另一种是替换里面的信息，如广告，将自己的广告替换进入，访客看到的就是你的广告；劫持通常实现在http，如果你升级到https，数据做加密了，就没那么容易被劫持。

可以看到垃圾流量的类型是有很多的，五花八门。

网络流量的现状

由于虚假流量过于复杂和敏感，大家在报数的时候都是非常谨慎小心的。尽管如此，最后大家报的数字千差万别，因此无法考证各个数据的置信度，大家参考一下就好。

ANA（ Association of National Advertisers）: “声誉差的交易平台作弊流量达到25-50%，声誉好的通常低于10%”。
AppFlyer：2016年，AppLift的报告指出34%的移动流量为有风险的虚假流量（Risk of fraud, 22%可疑，12%高风险) 。Android虚假流量比例大于iOS，系统版本约高，虚假比例越低。
秒针：２016年垂直网站与网盟媒体异常流量占比最高。其中，垂直类媒体曝光异常大幅增至 24.93%，点击异常中网盟类媒体最为明显，占比高达 71.07%。
AdMaster ：2016年全年无效流量整体占比为30.2%;下半年出现小幅度恶化现象,无效流量增加3.7%;

看看最近的一份报告，互联网安全公司 Imperva?对全球10万个域名的网站访问进行分析，发布了一份《2016年机器流量报告》

这个报告说进行分析的样本有10W个，实际上有没有，我是不知道的，但可以看到这个数据，可以看到机器流量的已经占据了互联网流量的很大的一部分，有些人看到这个会觉得惊讶，在想是不是真的有这么多，机器流量包含以下一个大块：

信息流抓取：这些机器分布在网站和应用程序中，抓取有用信息展示给用户看，比如今日头条。
搜索引擎爬虫：各大搜索引擎的大量爬虫机器人，用于检索海量信息和网站。商业数据抓取：
用于商业化的数字营销工具、网站数据统计等等，比如Alexa。
监控机器人：用于监控网站的可用性和各种在线功能的正常运行。

上面几个类型中，搜索引擎是暂据最大的，全球上几个的搜索引擎，无时无刻不在爬各个网站，想想你自己的站点，时不时想尽快被搜索引擎收录，另一个大头是信息抓取了，最近几年快速发展的信息流，如今日头条，我们不创造内容，我们是内容的搬运工，通常这类流量在请求的表头都会有标示的，告诉这个是机器流量，如果你要拒绝这类流量，可以在服务器上设置。

跟大家分享这个报告，主要是想强调，现在互联网上，很多流量是机器流量，所以你的网站有是不足为奇的。

垃圾流量的危害

对于善意的机器流量，在请求的表头会有标记，你也可以主动拒绝，但是对于恶意的广告，不由不得你说了，往往这类恶意的流量会带来不少危害。

首先，影响真实的数据，大量的垃圾流量访问网站，会对数据的真实性造成影响，如影响跳出率，在线时长，回访比例，这些数据往往会误导你做出错误的决策。

其次是，消耗广告费，提高了获客成本，垃圾流量消耗了部分的广告，导致有效广告费的量变现，分摊下去的获客成本就提高了，进而会影响广告主的广告投放决策，如果太高了，广告主可能不会继续投放这一类型的广告。

最后就是影响服务器的性能，对用户体验造成伤害，例如，你的网站本来的平均页面打开时间是在2~3秒的，现在有很多的垃圾流量访问你的站点，给你的服务器造成不小的压力，导致现在平均页面发开时间在十几秒，这么长的时间，对于真实用户，无疑是很大的伤害。

存在的原因

垃圾流量带来各种伤害，但仍是禁止不了，这个有多个原因

首先：精准打击反作弊的成本比较高，作弊的方式多种多样，也不断演变，目前没有一种有效的方方式能够完全静止，这只一个长期的斗争。

其次：各种玩家的利益分配原因，垃圾流量设计到各方的利益，如广告主，媒体主，代理商，DSP，有些广告主想要刷量,低成本但不是低质量的流量，有些媒体主先要变现，代理商想要忽的客户，各方都有诉求，形成共同的利益团体，所以有句话说，你的网站的垃圾流量有多少，取决于你的流量负责人或推广负责人。

最后：作弊者的收益高和风险低，垃圾广告的量容易有规模效应，能够带来大量的收益，而互联网的匿名，所以分享第，高收益，低风险，吸引了不少人在这一领域里深耕。

可以这样说：流量作弊弥漫在互联网广告行业中，已经成为公开的秘密。

如何透过数据识别垃圾流量？

那么怎么对这些垃圾流量做防范的呢？大部分的垃圾流量是善意的，也就是请求的表头有标示的，这种类型的第三方工具可以将其过滤掉的，对于恶意的，我们也可以通过数据的角度来分析出来的。因为作弊流量为了追求规模效益，所以往往会有一些比较明显的数据特征，作弊行为可以体现为：

访问集中在某个特定时间内；
某种不常见机型突然间数量很多；
用户频繁更换IP地址，
没有站内行为，跳出率很高…………

在GA里面，在数据视图设置下面有个漫游器过滤，如果你开启了这个过滤，就会将部分的垃圾流量过滤掉，这个过滤的规则是遵循美国广告互动局和另一个组织的，美国广告互动局我们在上一节的时候有提到的，它也是程序化广告技术标准的制定放，这个功能打开了只能够过滤掉部分的垃圾流量的，因为有些新的形式，并没有被美国广告互动据纳入进入。你可以用开启了漫游器过滤的数据视图和一个没有做任何设置的数据视图做对比，你会发现，两者的数据是由些差异的，差异的部分就是垃圾流量了，被过滤掉的。

对于没有被过滤掉的垃圾流量，我们可以通过数据的角度去分析判断：

方法1、查看主机名

可以在探索报告里查看主机名：

看这个报告是否有除了你现有主机名之外的其他主机名，如果有，这些都是垃圾流量。

这种垃圾流量产生的原因是，知道GA4的衡量ID，我们就可以给这个衡量ID发送数据。

以此类推，如果你要干扰你竞争对手的数据，可以将它的跟踪id挂在一些网站上去，这样它的GA就可以收到一些干扰数据，为什么说是可能呢？因为这些垃圾流量可以用过滤器过滤的，如果对方开启了过滤器过滤，那么就不会对其产生营销。

看图中，第三是垃圾流量，可以将其滤掉或看GA4上屏蔽来自gtm-msr.appspot.com的机器流量。

方法2：IP的角度

第二种方法是从ip的角度，通常这种类型的造假是通过重复访问的，也就是定时切换ip，清除cookie，但我们可以通过获取用户的id，看这个ip的数据，如某个ip在这端时间段的会话数真多，但是跳出率是100%，这种就是重复访问造成的。

现在这种不常用，但是还是有人会用的，在这里只是作为一个方法介绍，GA4可以通过一些设置可以获取ip的，具体的方法去网站上看在Google Analytics 4 中获取用户的IP（基于ipinfo.io）

方法3：热力图

正常访客进来，产生比较密集的点击热力图，如果是机器流量进来，点击会是很稀疏的热力图，甚至是没有，通过这个可以对比分析出，这个来源的流量是否有机器流量，这是热力图的使用方法之一。

但这种方法的实用性不强，因为数据太少的话，真实的和机器的渠道都是会比较稀疏的，如果多的话，足够明显能够判别出这个渠道是垃圾流量，那么这个就是个很严重的问题，整个来源都是机器流量，推广的人要么是没发现，要么是知道不处理，这就是你们内部的问题。

目前GA4不支持热力图，建议使用其他工具，延伸阅读：网站热力图工具有哪些?

方法4：不该出现的

非电商网站，出现金额百万的订单

方法5：异常好，无转化

异常好，无转化，如下图中的，跳出率是非常好的，可以说这个来源的访客在站内的表示是不错的，但是这个渠道完全没有转化，那么就需要注意了，这个很有可能是会有二次页面访问的造假形式，这个是比较很高级的作弊方法，能够将着陆页的各个指标模拟的很真实的，让用户很难判断，这时候就就需要看这个页面的在浏览器，设备，时间上的分布集中情况，如果没有异常，再去页面行为流，看这个渠道在第二个页面之后的行为表现，如果第二页基本就退出，那这个很大可能是垃圾流浪。

方法6：异常集中

异常集中，如时段上，你的潜在用户跟踪不会在晚上访问你的站点的，你没做时间显示，晚上数据异常，有很多的流量在点击你的广告消耗你的广告位，这个直接就垃圾流量，目的为了消耗你的广告费的。其他的如地域，设备上的高度集中，可以作为辅助参考。

「Google Analytics 4」垃圾流量的识别与处理

延伸阅读：「Google Analytics 4」垃圾流量的识别与处理

方法7：新用户=用户数=会话数

新用户=用户数=会话数，也就是新用户进来，很短的时间就离开了，通常这类用户的跳出率是100%的，所以这个肯定是有问题的流量，这种方法屡试不爽，总能找到问题，是我使用最多的一种访问，可以从各个维度去看这个等式，如来源，城市，网站等。

下面看看各个方法的有优劣，最实用的方法是新用户=用户数=会话数，这个是最快捷的方式，很容易就定位到问题的，然后就是异常好，无转化和维度中不应该出现的类型，这两种比较常用，其他的都是方法实用性不强的。查看主机名这个是非常有效的判断方法，但是你设置好过滤器后就不会再有问题的了；

在使用这些方法的时候往往还会结合对比和次级维度来做更细致的判断。
那什么情况下才会考虑到是不是垃圾流量呢？或是说什么时候需要做垃圾流浪识别呢？

我一般情况下会在流浪暴涨的时候，这时候你就需要注意，是不是机器流量，另一个是新增渠道的时候，要留意渠道数据是否合理，有问题的，最后一个是定期做review。出现问题及时排除。

如果发现有垃圾流量，ad可以去申诉，如果是国内的百度，搜索，今日头条这些，我不知道有没有申诉的途径，如果没有，停掉该系列的广告，或做限制性投放。

实战案例

有个网站最近流量暴涨。

流量来自哪里？

可以进一步分析是这些流量是哪个渠道、媒介、广告系列带来的，最近暴增的那个就是Direct渠道：

流量有什么特征？

在流量获取报告中，过滤出Direct的流量：

验证是否垃圾流量的方式，一般是将一些设备维度、浏览器维度、地理信息维度拉过去分析：看集中度、访问时间分布规律和跳出率。

次级维度里添加上述维度：

Engagement rate的反面就是跳出率，跳出率=1-Engagement rate，Engagement rate很低，表示跳出率很高，进来后直接离开。

由于报表里不能再添加维度去做分析，如果你要进一步定位，转移到探索里去添加维度去分析，探索里最多可以添加5个维度。

进一步分析

还可以获取用户的IP去分析，如果你已经在自定义维度设置了IP。

如果不懂在Google Analytics中获取IP的，请看：「Google Analytics 4」垃圾流量的识别与处理

如何处理

虽然报表里也有对比项和过滤的功能，但这两个功能的作用都是包含，不能做排除。

如果要做排除，只有用探索里的细分，但这里的细分只能在探索里使用。

在探索里创建一个Session级别的细分，然后选用排除的功能，做如下设置：

看数据的时候将这个细分添加上去就可以：

数据就合理了，原来有24万，现在只有5万多。

如有疑问，可以在文章底部留言或邮件(haran.huang@ichdata.com) 我~