在使用第三方工具的时候,往往都不会只用一家,一般会用两家,一个是为利用不同工具的长处,一个是避免数据单一,但往往就会出现两个工具的数据对不上的问题。如Google Analytics和百度统计,这应该是不少人都会遇到的。
正常来说,在大部分人的意识中,这两个工具检测的东西都是一样的,所以数据应该是相同的,但实际往往会有误差,而且有时候误差还很大,大部分不能忽略的地步了。
下面来探讨了一下是有什么原因导致的,总结了一下,有这么几个原因:
配置问题
首先是配置问题,基础跟踪代码上去后,只是做了基础数据的收集和分析工具,基础的收集并没有太强的识别能力,所以垃圾,机器的流量自然有可能包含在内,在Google Analytics里面可以设置,开启垃圾和机器流量过滤。而百度统计的我不知道哪里可以设置。
对垃圾,机器流量的配置和处理机制不同
经常会看到就是百度统计比GA的数据多,而且百度统计里面看到的通常是指浏览一个页面,所以我猜测,是百度没有将这部分垃圾或机器流量过滤,而Google Analytics的垃圾,机器流量的处理较为完善,我的个人站点曾遇到的Google Analytics比百度统计的数据多,结合日志做分析,发现是百度统计包含了部分垃圾流量,详细可以看:为什么百度统计和Google Analytics的数据不一致。
这类垃圾流量通常在Google Analytics会归类到direct,记录到用new user却没有记录session。
对于垃圾,机器流量并没有完善的方法可以避免,总不断有新的形式出现,难以避免的,但也可以通过一些方式去发现:
指标定义的差异
百度统计里面的用户数是ip,ip具有唯一性(现在已经不是);而GA里面是users,users的计数到new和return的计算规则。也就是数这两个指标的定义和计算规则都是不同的,所以统计出来的数据不同也就不足为奇了。
算法差异
在数据量大的时候,通常都会通过算法来处理,算法不同数据结果就不同,即使是算法相同,一些阀值不同,也会导致数据结果不同的。
通常来说,我们使用第三方工具主要是它的便捷,完善,我们不是准确数据精确,在误差允许的情况下就可以使用了,但需要知道误差的源头是什么,知道怎样可以缩小误差。
针推前面提高的可能的几个原因,处理的方法也就只有:开启第三方工具的统计模块,另有一个不成熟的思路就是在加载统计代码前面做个判断过滤。
我曾经对Google Analytics、百度统计、还有Adobe Analytics的数据测试,如果配置正确,其实它们的数据差异很小,详细的请看:百度统计、Google Analytics和Adobe Analytics的数据差异有多大?