事件的结构
GA4是基于事件驱动的,里面所有的数据都是通过事件去跟踪,事件的结构如下:
事件由事件名称和事件参数构成,每个事件可以设置25个事件参数,事件参数可以分为:
- 文本型,就是字符型的事件参数,最多40个字符,限额50个
- 数值型,就是数值型的事件参数,最多100个字符/长度,限额50个
比如对于广告点击事件,事件名称可以定义为click_banner,不同广告位置可以用banner_id去区分,banner_id就是事件参数。
用户识别(Client ID和User ID)
Client ID和User ID并不是表示同一个东西,两者的区别如下:
Client ID | User ID | |
---|---|---|
定义 | GA4生成的匿名标识符 | 你自己数据库的用户ID |
生成方式 | 由GA4库随机生成 | 用户主动注册生成 |
数据结构 | 随机数+时间戳 eg:987121999.1637741839 | 无限制 |
匿名性 | 匿名,不包含任何个人信息 | 不包含PII |
持久性 | 存储在浏览器的cookie中,受清理cookie影响 | 更持久,除非用户注销或ID被更改 |
长度限制 | 无 | 不超过256字节 |
如何使用此类ID计算唯一身份用户数 | 在未启用User ID时,Client ID可用于计算唯一身份用户数 | 在启用User ID时,User ID可用于计算唯一身份用户数 |
默认情况下,GA4会为每台设备分配一个唯一的Client ID作为唯一身份用户,它存储在浏览器的Cookie _ga
中,_ga的结构如下:
注意:其中987121999.1637741839就是Client ID。
各个部分的解释:
值 | 解释 |
---|---|
GA1 | 版本号 |
1 | 网域层级,就是Cookie存储的网域层级,默认是存储到最高级网域,是1 |
987121999 | 随机数 |
1637741839 | 时间戳 |
延伸阅读:Google Analytics 4 里常见的10个ID
会话
GA4有关会话的信息会存储在Cookie _ga_<容器ID>里:
各个部分的解释:
值 | 解释 |
---|---|
GS1 | 全称是 Google Stream 1,第几个谷歌数据流 |
1 | 网域层级,就是Cookie存储的网域层级,默认是存储到最高级网域,是1 |
1649902218 | 会话ID,也是该会话开启时候的时间戳 |
12 | 会话数 |
0 | 是否感兴趣的会话,1表示感兴趣,0表不感兴趣 |
1649903171 | 当前时间戳,每次发送请求事件的时间戳 |
60 | 倒计时,60秒的倒计时,当开启Google Signal时Cookie与用户数据匹配的一个参数 |
0 | 未知待定 |
1003520789 | Enhanced Client Id, 简称 ecid,叫增强型客户端ID,开启「收集 User-ID 和用户提供的数据」 或使用服务端布署才有值,是一串数字 |
会话数是基于对唯一会话 ID 的估算,而会话ID的本质时间戳,所以会重复,所以GA4里的会话数是偏低。
GA4的会话分割机制简单很多,就只有一个规则,离开超过30分钟回来就会开启新会话,这种叫做“非活动状态持续30分钟”
一个用户访问我的网站,离开31分钟后,再次访问网站,这时候会开启一个新会话,如下图所示:

数据的三个层级
GA4的数据层级结构,如事件-会话-用户
层级 | 相关指标 | 用途 |
---|---|---|
Users(用戶) | 带来用户首次互动**,eg:带来用户首次互动来源/媒介 | 首次归因 |
Sessions(会话) | 带来会话的**,eg:带来会话的来源/媒介 | 最后点击归因 |
Events(事件) | **,eg:来源/媒介 | 数据驱动归因 |
新用户、活跃用户数、用户数和用户总数的关系
- New Users(新用户):就是新用户,GA4是通过first_open/first_visit计算New Users,如果用户首次访问,但没发送first_open/first_visit,不会被视为是New Users,而且会被划分到Unassigned渠道,延伸阅读:深入理解 Google Analytics 4 中的 Unassigned 渠道
- Active Users(活跃用户数):活跃用户数,有感兴趣会话的用户,感兴趣会话有三种情况:持续至少10 秒、发生了至少1 次转化事件或至少2 次网页浏览的会话。
- Users(用户数):用户数,GA4中的用户数其实是指活跃用户数,这是GA4的主要指标。
- Total Users(用户总数):用户总数,所有的用户数。
- Return Users(回访用户):回访用户,这个定义比较特别,非首次访问的用户都是回访用户。
感兴趣的会话占比和跳出率
感兴趣的会话占比+跳出率=1
GA4里的跳出率计算规则有些特别,因为最初是没有这个指标的,用感兴趣的会话占比替代跳出率,但用户有这个需求,后面才推出跳出率这个指标。
感兴趣的会话占比的计算方式是:感兴趣的会话占比=感兴趣会话数/会话数,
感兴趣的会话有三种情况:
- 持续至少 10 秒的会话 :如果会话的时长超过一定的时间,该会话就成为“感兴趣的会话”,互动时长的默认阈值为 10 秒,可调整,调整的位置在“更多标记设置”——“调整会话超时设置”——“调整感兴趣的会话的计时器”。
- 发生了至少 1 次转化事件的会话:如果会话发生过转化事件,该会话就成为“感兴趣的会话”
- 发生了至少 2 次网页浏览的会话:如果会话内浏览2个页面以上,该会话就成为“感兴趣的会话”
只要满足上述情况之一,就计算为感兴趣的会话数。
GA4对于跳出的定义是:如果未满足“感兴趣的会话”的任一条件,GA4会将相应会话计为一次“跳出”。
跳出率的计算方式是:跳出率=非感兴趣的会话所占的百分比=1-感兴趣的会话占比
比较对象 & 过滤器 & 细分
GA4是可以实现细分的效果,只不过在不同的位置,它的功能名称会不一样。
功能 | 使用位置 | 用途 |
---|---|---|
比较对象 | 报告 | 筛选、对比(仅可从维度) |
过滤器 | 报告 | 筛管 |
细分 | 探索 | 筛选,对比(可从不同的数据层级) |
抽样
抽样是指选择部分数据进行分析的数据分析做法,以便从更大的数据集中发掘出有意义的信息,这种做法可让你更快地检索数据,同时最大限度地减少对数据质量的影响。
对于GA4而言,计算资源是有效的,为了减少计算资源的消耗,所以GA4的一些报告会抽样。
- 免费版:1000万事件
- 付费版:默认是1亿,可以通过数据质量图标,在“探索”中选择“结果更详细”来提高抽样上限,最高是10亿
阈值
这是GA4内置的保护用户隐私机制,如果数据太少,就不显示数据。延伸阅读:Google Analytics 4 里的阈值到底是什么?