1.4.1、会话切分
Sessions(会话):是指在指定的时间段内在网站上发生的一系列互动,互动可以是页面浏览,事件,社交互动或电子商务等。一个用户可以同时开启多个会话,这些会话可以发生在同一天,也可以在不同的时间。
会话默认有效期是30min,超过30min就会开启新的会话,如果遇到下面3种情况,会话数将会加1。
1.活动状态超过30min
如果在访问我的网站期间,小鲍在未关闭网页的情况下离开午休了31min,并在午休后继续回来浏览网站,会发生什么情况?
在这种情况下,小鲍来到网站时打开的第一次会话会在时间达到30min后(午休期间)结束。当他结束午休回来继续浏览网站时,GA会设置一个新的时长30min的有效期,即开始了一次新的会话,如图1-43所示。
图1-43 活动状态超过30min
小波在购买产品途中离开了您的网站去吃午饭。吃完饭后他返回完成了交易。新会话的着陆页是“添加到购物车”页。
如果小波在浏览我的网站时中途开着网页离开,但在午休了29min后回来继续浏览,会发生什么情况?
小鲍回来后,刚才打开的会话会从他之前在您网站上查看的最后一个网页开始(前提是他没有通过其他广告系列来源回到网站,这种情况我们在下面会详细介绍)。对 GA而言,他并没有离开过您的网站,如图1-44所示。
图1-44 活动状态未超过30min
小波在购买产品途中离开了您的网站去吃午饭。这次不同的是,他在30min内就回来继续浏览,因此之前的会话并没有结束。值得一提的是,他在“网页浏览2”(产品)期间在网页上停留的时间是29min,因为页面停留时间的计算方法是统计连续两次网页浏览开始时间的差值:网页浏览3-网页浏览2(14:31-14:02=29分钟)。
2.午夜,过了晚上12点
小鲍在8月14日晚上11:50打开您的网站,在8月15日凌晨00:10离开。第一次会话结束于8月14日晚上11:59:59,第二次会话开始于8月15日凌晨00:00。所以,小鲍在这段时间产生了两个会话。一天结束的时间取决于您的数据视图时区设置。
3.广告系列覆盖
用户的广告系列来源一旦发生改变,GA就会打开一个新的会话。需要注意的是,即使现有会话仍处于有效状态(即时间未达到 30 min),如果广告系列来源在会话期间改变,系统也会关闭第一次会话并打开一个新会话,如图1-45所示。
假设小鲍按以下顺序打开您的网站。
图1-45 广告系列覆盖
GA会保存广告系列来源信息。只要广告系列的值发生了变化,GA就会开启一次新的会话。在上面的例子中,小鲍首先通过Google自然关键字“Red Widgets”到达您的网站,而后来是通过Google付费关键字“Blue Widgets”回到的网站。
两个搜索字词都更新了广告系列,因此每个关键字都对应一次新的会话
这种情况通常会改变用户的“来源/媒介”等字段,也就是会产品一个用户对应多个“来源”的情况。
4.示例
用户A在站点浏览网页29min,用户B浏览了31min,那么A的会话数为1,B的会话数为2,所以会话数可以作为衡量用户活跃情况的一个指标。
如果用户A在23:50访问站点,在00:10离开的,虽然只访问了20min,但是经过了午夜,会话数会记录为2。
如果用户A在10:00是通过AFF渠道进来的,10:10离开,10:15时通过PPC渠道进来,虽然没有超过30min,但是从不同的广告系列进来,会话数会被记录为2。
1.4.2、数据的3个层级
当用户的行为(例如,用户在网站上加载网页或在移动应用上加载屏幕)触发跟踪代码时,GA就会记录该活动。系统会将每次互动打包为一项匹配(Hits)发送至 GA的服务器。常见的互动类型有页面跟踪匹配,事件跟踪匹配,电子商务跟踪匹配和社交互动匹配。匹配和会话、用户的关系如图1-46所示。
图1-46数据的3个层级
交互是GA数据中的最小单位了,称为互动或匹配,每次互动都是一个Hits,一个会话可以有多个交互,一个用户可以有多个会话。GA在每个会话的交互的数量做了限制,每个会话最多有500个交互,前十个交互没有限制,只有是每秒限制为1个,所以您能看到的一个用户在一个会话里面最多的页面浏览只是500。另一个需要注意的点是,如果您做事件跟踪的时候需要注意这个频率限制,高频行为跟踪不适合每个都做事件跟踪,需要采用定时的形式,如10秒计数后发一次交互。
1.4.3、用户识别(Client ID和User ID)
Client ID:表示的是唯一的浏览器或设备,这个GA默认识别访客的方式,访客首次访问的时候就会自动在会话中生成一个Client ID,如果切换浏览器或设备,会生成一个新的Client ID,这个也是“新用户”的计算原理。
如:用户A在9:00首次用Chrome访问了我们站点,会产生Client ID-A,9:10后退出,在9:15用IE访问,会产生Client ID-B,这两个ID是完全不同的,所以新用户的为2。
真实的Client ID的构成如下,是一段随机数+时间戳,前面的GA1.2中GA表示GA,1表示版本,现在所有的都是1的,2表示域名的级别,如果域名是http://www.example.com,就会是GA1.2,如果是http://www.blog.example.com,就会使GA1.3。具体结构如图1-47所示。
图1-47 Client ID示意图
User ID:表示的是唯一用户,只有用户登录的时候才会识别到,User ID是一串唯一字符串。
如:用户A注册后生成User ID为abcd123,如果用户A切换一个设备访问登录,那么只是生成一个新的Client ID,这时是被看成是2个用户;如果A切换一个设备登录,那么用户的带有User ID,值依然为abcd123,由于User ID是不变的,所以可以用于做跨设备跟踪。
两者的区别如表1-23所列。
表1-23 Client ID 与 User ID 之间的区别
Client IDUser ID此类ID代表的是什么?一个匿名设备或浏览器实例。一个用户(例如一个已登录用户账号),该用户可能在一个或多个设备和/或浏览器实例中与内容互动。此类 ID 如何设置?由 GA库随机生成并自动随所有匹配发送。您必须设置您自己的 User ID: 并将其随您的 GA匹配发送。如何使用此类 ID 计算唯一身份用户数?在未启用 User ID 的数据视图中,Client-ID 可用于计算唯一身份用户数。在启用 User-ID 的数据视图中,User ID 可用于计算唯一身份用户数。
1.4.4、新用户、回访用户、用户和访客的关系
新用户(New User):用户首次访问站点就被记录为新用户,这个用户的别是存储在会话,所以如果用户切换了浏览器或设备再访问的时候,会被记录成另一个新用户。
如用户A在9:00首次用Chrome访问了我们站点,9:10后退出,在9:15用IE访问,这时新用户的数量是记录为2。
回访用户(Returning Users):非首次的访问都是回访用户,一个新用户访问超过30分钟,就会被记录成回访用户。
如:用户A早9:00首次通过Chrome访问我们站点,在9:31分才离开,这时新用户记录1,回访用户也记录1。
用户(Users):用户数,是新用户和回访用户的去重,但由于新用户在切换设备和浏览器的时候会产生新用户数,所以这里的去重后的用户数并不是实际的唯一用户数,但可以看似是唯一用户数,GA中是不提供真实的唯一用户数的。
所以:用户数<新用户+回访用户,如图1-48所示。
图1-48 用户数量关系
新访客(New Visitor):新用户和新访客在数值相等的,但在技术上的实现是不同的,新访客是一个维度,新用户是字段。维度会出现在的列里面,字段是出现在头部的行里,如图1-49所示。
图1-49 新访客和新用户
1.4.5、跳出率和退出率
跳出率(Bounce Rate)是指该网页是会话中“唯一网页”的会话占由该网页开始的所有会话的百分比。(基于会话)
退出率(%Exit)是指该网页是会话中“最后一页”的浏览占该网页总浏览量的百分比。(基于PV)
跳出率是衡量着陆页的好坏的,退出率是衡量页面内容好坏的。在网站上每天都只有单一会话的连续几天内,看如何计算退出率和跳出率指标。举一个例子。
星期一:网页B>网页A>网页C
星期二:网页B>退出
星期三:网页A>网页C>网页B
星期四:网页C>退出
星期五:网页B>网页C>网页A
退出率和跳出率的计算结果如下。
退出率
网页A:33%(在5个会话中,有3个包含网页A)
网页B:50%(在5个会话中,有4个包含网页B)
网页C:50%(在5个会话中,4个包含网页C)
跳出率
网页A:0%(有1个会话由网页A开始,但该会话不是单页会话,因此没有跳出率)
网页B:33%(跳出率低于退出率,因为有3个会话由网页B开始,但只有1个会话发生跳出)
网页C:100%(有1个会话由网页C开始,且发生跳出)
简单理解就是跳出率是基于会话,而且是着陆页才有,如果计算某个着陆页A的跳出率,也就是分子是着陆页为A,且只访问了A页面会话数,这个会话数就是A页面的页面的浏览量了,分母就是所有经过且包含着陆页A的会话数。
1.4.6、时长的原理:页面时长&会话时长
GA的页面停留市场和会话时间是根据Hits的时间差来计算的如图1-50所示。
图1-50 页面停留时长的计算
如果用户只访问一个页面,只有一个Hits,也就是跳出了,时间自然就是0,简单的就可以理解为用户直接跳出的时间都为0。通常第一个页面的结束时间就是第二个页面的开始时间。
Page1的页面停留时间:退出:0:10-开始:0:00=0:10
Page2的页面停留时间:退出:1:25-开始:0:10=1:15
Page3的页面停留时间:事件:2:38-开始:1:25=1:13
可以看到页面的结束时间是事件,也是Hits的类型,如果您做事件跟踪,事件默认是会纳入时间计算的,如果是只有一个页面的时候,也就是事件会纳入跳出率的计算,会导致实际跳出率偏小,所以在做事件跟踪的时候建议都设置为匹配的类型,这样就不会影响页面停留时间的计算和跳出率的计算。
这里还有3个需要注意的地方。
- 会话的时长时间计算全部的。
- 页面的时长是按1%抽样计算的(统一版默认是1%抽样,经典版默认是10%抽样)。
- 页面时长报告中的寻址等时间不是通过Hits来计算,是通过浏览器传递的,是抽样的。
1.4.7、来源、媒介和广告系列
来源、媒介和广告系列对应的是Source、Medium和Campaign,主要用于标记流量来源,各个字段对应的意思详见到表1-24:
表1-24 来源、媒介和广告系列
字段解析来源标识为媒体资源带来流量的广告主、网站、出版物等,表示从哪个站点过来的流量,例如:google、newsletter4、billboard媒介广告媒介或营销媒介,通常是结算的方式,例如:PPC(Pay Per Click,从售卖方式角度,按单击付费),CPC(Cost Per Click,从结算方式角度,按单击付费),AFF(Affiliate,网盟)广告系列广告系列,如什么活动
1.4.8、事件的字段
主要是事件报告相关的常用字段,各字段对应的意思如表1-25所列。
表1-25 事件的字段
字段解析事件总数事件总数,表示跟踪到的事件总的数量唯一身份事件数唯一事件数,会话内事件的去重,可以表示人数的去重,有多少人触发了这个事件Unique Dimension Combinations基于事件类别/事件行为/事件标签的去重
1.4.9、事件类别、事件操作、事件标签和事件价值
事件的结构是事件类别—事件操作——事件标签/事件价值,各个字段对应的用法如表1-26所列。
表1-26事件的参数
字段值类型是否必填解析Event Category文本是事件类别,指跟踪用户行为的大类Event Action文本是事件行为,跟踪用户具体位置的行为,如单击填写邮件,单击填写密码,单击确定提交注册等。Event Label文本否事件标签,可以是具体的页面或不填Event Value数值否事件数值,与事件相关的数值
分为互动事件和非互动事件,互动事件是指这个Hits计入跳出率和页面时长的计算,非互动事件则不纳入计算,对于着陆页做事件跟踪就需要做这个区分,着陆页的事件类型都是非互动类型的,如果没有做这个区分,那么这些事件会影响真实的跳出率,设置的方法是nonInteraction设置为TRUE。
1.4.10、抽样
为了缩短处理时间的情况下快速获得报告结果,所以在GA中的很多统计分析中都是抽样的;GA中也提供了没有抽样的标准报告,但并没有列出哪些是标准报告,所以使用过程中关注左上角看是否有抽样,如果抽样,缩短时间维度。GA理论上是说会话超过50万时候会抽样,但个人实际使用过程中,在不到该限额的时候就已经抽样了,所以抽不抽样看左上角的提示。可以通过API去查询,API返回的数据里面有个字段是说明数据是否抽样,也有GA开发者将其封装,直接可以在网页上使用。
1.4.11、细分
细分可让您分离出这些数据子集并进行分析,从而检查并响应业务中的各个子趋势。具有以下特点。
- 细分可以抽取出符合部分特点的用户具体看其表现,还可以用于不同群组的对比,最多只能有4个细分。
- 里面有个比较高级的功能,就是序列,可以符合步骤顺序的用户单独抽取出来具体分析。
- 可以共享出去,一个数据视图建立细分,同账号的其他数据视图也可以用的。
- 时间范围不能超过90天,超过会失时。
- 级别一般是基于会话级别,如果报告涉及到用户,采用用户级别。