很多人都知道网络上有很多的虚假流量,但是大部分人都觉得自己的网站不会这样,实际上大部分的第三方工具发布的调研报告基调都是:垃圾流量泛滥,基本上三成左右的流量是虚假流量。
通常来说,程序化广告出现虚假流量的概率是比非程序化的高60%以上的,随着程序化广告的比例提高,虚假流量的比例还会进一步提高的。
虚假流量可以分为善意和恶意的,因为互联网上有些服务是依赖于机器爬虫去抓取的,主要有这几类:
- 搜索引擎,各大搜索引擎的爬虫收录,很多站点还会做很多的工作,希望快点被收录
- 信息流抓取,如今日头条、一点资讯等聚合信息站点回去抓取
- 第三方商业数据,第三方平台的调研数据,如alexa,semrush这些
基本上这些都是善意的,如果你的站点不想被抓取可以设置robot.txt,而恶意的机器流量就没不会循规蹈矩的了,而且这部分往往占比是比善意的流浪比例还要高的,详细的看上图。
可能你没有直观的感受,下面来看一下的站点www.ichdata.com的情况,通过Adobe Analytics Workspace获取20231001-20231025的机器流量数据:
不到一个月,有1万左右PV的机器流量。
Adobe Analytics这些机器流量数据是通过IAB的规则判断,其中HeadlessChrome/ 是表示Users Agent缺失,所以判别为机器流量,它有可能是正常流量。
通常,第三方工具分析工具可以识别到善意的机器流量,并将其排除,所以这类流量不会纳入到数据报告里面,但是恶意的是识别不了的,但有些工具是可以通过数据分析去识别虚假流量,详细的可以看7种识别垃圾流量的方法。