在这篇文章中你将了解:
1、什么是被抽样数据和它与完整的数据集有什么不同
2、什么是数据抽样和它是怎么计算的
3、数据抽样存在什么问题?为什么它会损坏你的分析
4、如何确定你的报告是否抽样
5、用户查询(临时报告)和数据抽样的关系
6、GA数据表(包含访问表和被处理表)
7、单天和多天处理表
8、报告查询与转化路径限制
9、GA什么时候开始抽样
10、如何修复数据抽样问题
11、GAP与数据抽样
当你使用GA视图的时候,你是否注意到右上角有这样的一个提示,你可以知道GA数据是否被抽样以及抽样的严重程度。
在GA官方的文档中:
抽样数据是完整数据的一部分,并不等于完整数据
抽样是指从整体中抽取一部分数据集,用于分析整体的情况
简单的说:抽样是广泛应用于统计分析很大数据集的一种有效方式。只要抽取的数据具有代表性,通过分析这个样本的数据集的结果与分析整体全部数据的结果基本及一致,但是如果抽取的数据并不能很好的代表整体,得出的结果可能与实际的大相径庭。
GA对数据的数据有个限额,这个限制只要出于计算资源和存储字段的考虑,当低于这个限额的时候,数据不抽样。
GA是选择抽样数据做分析还是抽取一分部做分析取决于用户的查询,当GA是抽取一部分数据集做分析时,这时的维度报告不能很好的代表整体的数据情况。抽取的数据比例越低,报道的准确度越低,也就是只有数据没有抽样的时候,报告才是最准确的。当你调整抽样的比例的时候,电子商务的转化,利润报告的数据可能会随着改变
1、抽样数据可能会严重影响你的分析报告
如果你遇到抽样问题,部分或所有的报告的维度包含有‘sessions’, ‘users’,’pageviews’, ‘bounce rate’, ‘conversion rate’, to ‘revenue’ ,一般会是抽样在10%~80%之间。
例如,GA报告中最近一个月的利润是在120万,但实际上却 只有95万。你可以通过比较其抽样的版本与采样的报告确定这种数据差异,然后计算各指标之间的差异百分比。确保在你做决策之前通过上述方法得到的数据在统计上具有意义。
2、你如何能确定是否你正在查看采样的 GA 报告?
如果你看的是非抽样报告,你将会看到这样一条信息在报告的顶部,“This report is based on …..(100% of sessions)”
只要你的报告只基于100%,这个报告就是没有抽样的。
如果你看的是抽样报告,你将会看到这样一条信息在报告的顶部“This report is based on …..less than 100% of sessions)”
例如,基于45%的sessions报告比基于4.58%的Sessions的报告有更少的抽样问题,当你看到一个抽样报告的时候,你可以调整抽样的比例
选择“响应更快,精度较低”,GA快速加载报告,意味着被抽到的数据集更小。这是为了加载速度牺牲数据的准确度的报告。
选择“响应较慢,精度更高”,GA计算更加准确,意味着需要更长的加载时间,这是为了准确度而是报告加载变慢。
我会推荐使用“慢反应,高精度”的设置,在一些GA账户中有些不同的抽样设置:
你可以通过调整按钮的位置来调整精度
注:即时你通过API出去数据也是有可能得到抽样数据的。
3、用户查询和数据抽样
数据抽样取决于用户查询,抽样比率可以通过查询后得到。每一个GA视图都包含一组非抽样的预处理数据,用于快速展现非抽样报告。用户可以通过报告的交互界面或通过API去查询得到GA的数据,查询的结果可能是非抽样的和已经GA已经聚合好的未包含抽样的数据,用户的查询可能是标准报告也可能是临时报告。
标准的查询是查询特定时间段内的一份报告或运行特定维度的一份报告。
任何用户可以完全满足已有的非抽样和预聚合数据的是标准查询。
任何特设查询不能完全满足已有的非抽样和预聚合数据。
特定查询可能是:
1、标准报告中加高级细分
2、标准报告中加二级维度
3、自定义报告
4、在自定义报告中应用二级维度或高级细分
如果特定查询是抽样的,你将会在右上角看到“This report is based on …..less than 100% of sessions)”:
如果特定查询满足现有的未抽样和预聚合数据时,GA不抽样。换句话说,GA并不总是抽样的,因为你可能在标准报告应用高级细分或二级维度或跑自定义报告。
当计算的session超过50W的时候,GA抽样的概率将会增加,GAP的是2500W。
但当计算的满足已有的非抽样和预聚合数据的时候,即使Session数量超过限额,也是不抽样的。
总而言之,GA并不总是抽样的,因为计算是基于Session的限额和是否满足已有的非抽样和预聚合数据的。而GA官方并没有说明那些是非抽样和预聚合数据,所以只能看右上角的提示。
GA数据表
GA数据报告是以表格的形式展现,表格中的数据是抽样或非抽样取决于用户的查询字段。每个数据表有行和列构成,行表示维度,列表示字段
每个维度都有该维度的数值。基数(第一行的汇总数)是该维度去重后的求和,并不是所有值的加总。通常会小于会等于所有书的直接加总。
例如:维度‘device category’ 有三个值: desktop, tablet and mobile. 所以这个维度的基数是3
一些维度像‘keyword’ 或‘page’ 有成千上百个唯一值,这些被称为高基数维度。包含高基数维度的报告都是抽样的,这类报告会包含‘(Others)’这样一行数据。
如果你的报告包含高基数的维度,你注意右上角会出现:
在数据抽样中,有两种类型的GA数据表格
1、访问表
2、处理表(也被称为预聚合表)
非常抽样数据通常从访问表产生,访问表通常用于存储每个回话的原始数据
处理表通常用于存储常见需求报告的预聚合数据,处理表可以让常见需求报告更快加载和没有抽样。当用户的查询数据不存在于处理表时,GA用访客表去查询相关信息
单天处理表
单天处理表包含一天的所有数据,这些表是逐天处理,也被称为单天表
GA标准版一天能处理5W行的唯一数据,GAP能处理最高7.5W行,如果GAP用户使用自定义报告,单天处理表能高达20w行。当用户查询的记录超过上述数据的限额,GA就会将降低的维度归并到Others。GA仍然跟踪哪些被归并到Others的维度,并逐天处理,有些维度在今天可能被归并到Others,但第二天却没有归并到Others。
多天处理表
多天处理表包含多天的所有数据,这些表时处理多天数据,有多个单天表组成。
GA标准版一张多天表最多能处理10W行的唯一数据,GAP最高是15W,当用户查询的记录超过上述数据的限额,GA就会将降低的维度归并到Others。
报告查询限制
对于单天表和多天表多有一些限制:对于任何时间区间,GA最多可以方位100W行记录。当用户查询的记录超过上述数据的限额,GA就会将降低的维度归并到Others。
转化路径限制
对于单天表和多天表都有转化路径限制:对于任何时间区间,GA最多能返回20W条转化记录,当用户查询的记录超过上述数据的限额,GA就会将降低的维度归并到Others。
什么情况下出现数据抽样:
1 用户查询是临时查询时,即它不能完全满足现有的未抽样和预聚合数据。
2 对于GA标准版,非多通道漏斗报告的数据抽样发生在属性级别。所以过滤器会影响的样本大小。
3 对于GAP,非多通道漏斗报告的数据抽样发生在视图级别。所以过滤器不会影响样本大小。
4 在多渠道报告的抽样发生在视图级别。查看过滤器不会影响样本大小。
5 当用户查询数据限制为一天或多天处理表。
6 当用户查询报告查询或转换路径限制。
7 查看多通道漏斗报告是基于超过 100 万会话。
解决办法:
1、缩短时间区间
2、不使用过滤视图
3、不使用高级细分或二级维度
4、不用自定义报告
5、下载原始数据再计算
6、使用GAP
7、使用piwik等开源工具
GAP和数据抽样
如果你使用GAP,你可以通过下列不走获取非抽样报告:
1、打开你想要的非抽样数据报告
2、在Export中选择Umsampled Report
3、给文件命名和选择时间区间和频率
4、点击生成csv文件
总而言之,GA并不总是抽样的,因为计算是基于Session的限额和是否满足已有的非抽样和预聚合数据的。而GA官方并没有说明那些是非抽样和预聚合数据,所以只能看右上角的提示。
来源:https://www.optimizesmart.com