对于使用Google Analytics的人来说,经常会被问到就是,怎么百度统计和GA的数据不一致呢?
我通常回答是,这两者的计算规则不一致,对垃圾流量的处理规则不同。
但很多人还是不理解为什么,下面就带大家一些深究其中的原因?
首先在讨论两个工具出来的数据不一致是有前提的,那就是我们对比的应该是同一时间,同一指标,这样对比才有价值的,如果连指标都分别选取不同,那么不一致就是必然的的了。
首先说时间吧,GA里面默认是在数据视图层级下去设置的,我的已经设置的是北京的东八区的了。百度统计的时区默认是东八区,所以现在两个工具的时间是一致的了。
接下来就是对比的指标了,GA里面常用的指标是会话,用户数,新用户数,而百度统计是没有会话这个概念,百度里面是有用访客数这个概念,一天之内你网站的独立访客数(以Cookie为依据),一天内同一访客多次访问您网站只计算1个访客(uv),可以看到百度统计也是基于Cookie的。,这个概念对应GA里的是用户数,也就是users,而GA的users是基于cookie里的clientid去识别的,也就是换浏览器会产生新的用户数,原则上,GA的用户数会和百度的用户数(UV)要一致的。
选取20180116这一天的,两个工具的自然搜索的数据。先看看百度的自然搜索的数据:
可以看到百度统计自然搜索的一共有56条记录,但是里面有些是重复的,下面看去重后的:
可以看到访客数是44,但是这里需要注意的是IP数是45,之所以出现这样的原因是,部分浏览器是不给访客设置cookie,而百度统计的用户数是基于cookie计算的,所以导致两个数据有差异。
两者的数据是不一致,有差异。
下面看看对应的ip情况,百度的IP很好导出,但是GA的就比较麻烦了,因为GA里面的IP是存储在次级维度的,添加后导致抽样,也就是能够拿到的数据只有一分部,下面我们对部分分别做交叉匹配
0的表示两个工具都有的,剩下就是空的,一方有,另一方没有的。
比如说,百度统计里面百度自然搜索的,180.142.57.183这个ip,在百度统计是记录有的,但是在GA里面没有,当然你可以将这个归因与GA抽样没有导出全部数据。
但是相反呢?GA里面的百度自然搜索的有些ip是在百度统计的百度自然搜索这个渠道是没有的,这个就很不好解释的了,我们抽选一些ip去百度统计里面查询,如183.15.177.134
124.42.72.115
时间不是16号的。
222.76.226.237
百度里记录
GA里记录
可以看到百度记录到的是6个PV,是属于直接访问的,但GA记录到的是7个,是属于百度自然搜索的。
经过与日志查询,可以知道这个ip第一次访问是在20180114号,也就是这个用户在16号是通过直接访问,但是GA的记录数访客首次进来的时候是什么渠道,后续的流量都是归类到该渠道,如果有其他广告系类覆盖才会归类到新的广告系列。而百度的渠道则是归类到该次访问。
那么也就是,这个差异是对广告参数覆盖规则的导致的。
前面GA统计里面的是51是包含了之前通过百度自然搜索进来的,这次通过直接访问进来,那么这种访问还是归类到百度自然搜索的,这也就可以解释为什么前面的数差异问题和做交叉匹配的时候,互相有些是没有的了,因为流量归类规则的不同,那么还有没有其他的原因呢?
接下来在看一些百度记录到但是服务器日志没有
可以看到有些ip是百度记录到的,但是日志没有,百度是处于多的,如果用户成功打开网站,那么一定会有日志记录的。这个就两种可能:
一种是,百度统计提供的数据是以click为准的,也就是用户可能没有真正打开页面,访问到页面的,因为你只要搜索过后的点击,会有一个中间跳转的信息存储在一个过渡页面的,由于所有的数据都在百度,百度可以提供得到点击的数据。
一种是,这些是不真实的,直接就是假的数据的.
如果是第一种的话,这种是不符合大众的常规认识的,如果是第二种的话,那么是不可以原谅的,我想应该不至于这样,所以我更倾向与第一种。
综上所述,百度统计与GA的数据不同是因为:
1、对流量划分规则不同
2、对UV的触发条件不同