1.6.1数据准确度的问题
一些用户会顾忌数据的准确度,根据作者的总结,数据传递的准确度主要受到下面几个因素的影响。
1.用户网络环境问题
用户的网络环境很糟糕的时候,可能会导致丢包,但现在统一版的跟踪代码对回传数据有重发机制,所以造成的影响较小。
2.网络服务运营商的带宽问题
部分网络服务运营商的带宽不够高,可能会导致数据回传缺失。例如,针对我的网站使用的境外的云服务,使用某家运营商的网络执行ping命令,没有丢包情况发生,如图1-71所示。
可是,使用另一家运营商提供的宽带服务时,却发生了丢包现象,如图1-72所示。
相比其他一些工具,造成数据差异的主要原因是:虽然GA收集数据的服务器现在是在国内,但节点往往都是在某一家网络服务运营商,并没有做到其他运营商都有节点,因此,其他运营商用户收集数据的丢失可能性比较大。
3.浏览器不支持js,未开放API
利用页面标签技术做跟踪的方案都会需要浏览器支持js和开放API,这样跟踪代码才能获取一些数据信息,如浏览器的Referral,页面的各种加载时间,如果这两个都不支持,那么就造成数据的缺失。
4.使用较低版本的Firefox
这个是历史原因造成的,旧版本的Firefox跟进行业技术标准比较慢导致的。
通常来说,一些地区使用确实会有一定的丢包情况,但有些因素是一些地区的工具也具备的因素,应该说是采用JavaScript这种跟踪方式的不足。从整体上来说,这些地区的误差若能在个位数的百分比之内,还是可以放心使用这个工具的。
1.6.2网站的打开速度
GA跟踪代码是异步加载,已经对网站打开速度的影响有限,但还是会存在部分用户加载很慢,严重影响到网站访问,这种情况通常会使两种原因:一种原因是使用小型运营提供的宽带导致的,另一种原因是部分地区的运营商不能有效连接GA的服务器。
1.6.3数据抽样
在GA官方的文档中:抽样是从整体抽取一部分数据集用于分析整体的情况,但大部分用户都不知道什么情况下会导致抽样,这个是让很多人比较头疼的问题,下面我来介绍一下比较常见的几种抽样情况:
1.次级维度的使用
添加次级维度的时候有可能会导致抽样,这个是没加次级维度的,没有抽样,如图1-73所示。
加了次级维度后,抽样了,如图1-74所示。
可以看到添加次级维度过后就变成了抽样,这个不是取决于数据的记录行数,在图二中实际只有不到800条数据,但还是抽样了,我在另一个视图里面超过了13万,还没有抽样。
所以,次级维度可能会导致抽样。
2.临时查询
当用户是临时查询的时候,不能满足现有的未抽样数和预聚合数据的时候就会抽样。怎么理解呢?其实就是,如果您用自定义报告的时候,如果维度和指标结构不是标准报告的横向拓展的时候,就可能会是抽样的了,因为标准报告的结构已经是预聚合数据,就是已经计算好的了,如果您设计一个自定义报告,不属于预聚合的数据里面的,那就要重新计算,就要抽样。
下面来看看例子,如图1-75所示。
用日期作为维度,看看指标会话数和用户数的自定义报告,很明显,这标准报告结构,所以数据没有抽样的。
如果用User ID作为维度,看会话数和用户数的自定义报告,可以知道User ID是一个自定义维度,那就一定不会再预聚合报告里面,所以很大可能是抽样的,下面我们来看看实际情况,如图1-76所示。
可以看到这个报告是抽样,下面来探讨一下,怎样判断数据是预聚合数据?
(1)是按照标准报告的数据结构做拓展,比如对于渠道报告,是根据渠道分组的,显示数来的指标是只有几个,但实际上,您拓展一些其他指标,大部分也是不会抽样的,因为GA内部预聚合的数据表是比您实际看到的要多的。
(2)根据经验来判断。
3.单天表与多天表限额
(1)单天处理表
单天处理表包含一天的所有数据,这些表是逐天处理,也被称为单天表,GA标准版一天能处理5W行的唯一数据,GA360能处理最高7.5W行。当用户查询的记录超过上述数限额,GA就会将降低的维度归并到Others。GA仍然跟踪哪些被归并到Others的维度,并逐天处理,有些维度在今天可能被归并到Others,但第二天却没有归并到Others。由此,得到的报告并不是真实的数据,这个报告实际上并不是抽样导致的,但这里归类到抽样理解更方便一些。
(2)多天处理表
多天处理表包含多天的所有数据,这些表时处理多天数据,有多个单天表组成。
GA标准版一张多天表最多能处理10万行的唯一数据,GA360最高是15万,当用户查询的记录超过上述数据的限额,GA就会将降低的维度归并到Others。
简单的理解就是数据的处理记录限额,超过一定限额的数据就不做详细计算,归类到others。
(3)报告查询限制
对于任何时间区免费版GA最多可以处理100万行记录,付费版是300万。当用户查询的记录超过上述数据的限额,GA就会将降低的维度归并到Others。
当用户查询的数据超过单天表或多天表的限额的时候就会抽样,但这个抽样很不好把握,因为这个是GA背后的计算规则,这类限额通常会有个Others的出现,如果您看到某个维度有others,就有可能是超过了限额了。或是您看到维度有个others的话,这个报告就不是真实的结果。
当让也有例外的,因为others在一些报告的作用的话是存储非系统预设定的数据的,比如说渠道报告里面。
4.会话的限制
GA里面的抽样对会话有个限制,但是只是针对临时报告,如果媒体资源在指定日期范围内获得的会话次数超过 50 万(对于GA360,此数字为 1 亿)GA将采用抽样算法,所用样本集与选定日期范围内每天的会话次数分布成比例。因此,每个查询的会话抽样率都不相同,具体取决于指定的媒体资源在所选日期范围内获得的会话次数。
简单的理解就是临时性报告的会话最多是50万,超过了就会抽样,关于什么临时报告,请参考临时查询那一节的内容。
也就是临时查询之前是可能会抽样,如果加多一个条件,超过50万的会话就是一定会抽样。
5.高级细分
高级细分可能导致抽样,下面先看一下具体例子:在标准报告,没有抽样,如图1-77所示。
在添加一个细分,将female的筛选出来的时候,就变成了抽样了,如图1-78所示。
原因是高级细分里面有很多划分维度,如果划分维度不是预聚合表中的数据就会变成抽样,如果是就不抽样,所以高级细分并不总是会导致抽样的,只是可能。
6.查看多通道漏斗报告超过100万会话
当然还有其他几个条件导致抽样,比较不常用,也比较复杂,这里就不介绍,如果有兴趣的,可以查看站点的文章——详解抽样。
整体上来说,抽样的原因是有很多,除了上面提到的几种比较常见的情形外,还有其他一些情况下也会抽样,判断的就是看左上角的抽样图标是否变亮,如果变亮就抽样。
7.如何解决
既然知道了什么情况下会抽样和抽样的原因,那么我们就需要一些措施来应对,通常来说,主要有这几个方法。
- 缩短时间区间。
- 不适用过滤视图。
- 不适用高级细分或二级维度。
- 不用自定义报告。
- 下载原始数据再计算。
- 使用GA360
- 使用Matomo等开源工具。
1.6.4数据延时
GA的数据的呈现速度取决于Hits的数量,如果您的数量比较少,越快出完数据,如果您的Hits很多,可能需要隔天才出完,根据我的经验,如果一天的Hits数量在500万以上的,基本是要第二天下午四五点左右才能出完数据;也可能会出现缩短时间的时候,数据数准确的,但是拉长时间的时候数据是不准确的,这时,就等到下午数据完全出完再看。
实时里面的数据通常是在几秒内出现的。
1.6.5限额问题
表1-27是针对免费版GA的限额
表1-27 GA限额