我将网站分析的数据分成两个大类,一个是内部数据,一个是第三方数据。
内部数据:包含数据库和服务器日志
数据库上的数据包括并不局限于用户的资料,网站内容,订单数据和用户行为,主要是以post或get的形式抛出的数据,让数据库记录,通常是记录一些涉及站点内容或重要程度较高的数据,比如交易金额这些,一定要保存在自己的数据库里面。
服务器日志是一些原始的访客访问服务器产品的记录,日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以·log结尾的文件,确切的讲,应该是服务器日志。网站日志最大的意义是记录网站运营中比如空间的运营情况,被访问请求的记录。通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么分辨率显示器的情况下访问了你网站的哪个页面,是否访问成功。
如上图,就是我一个站点的日志信息了,可以从红框里面知道这个访客的ip,时间戳,相对路径,referral信息,浏览器的类型,内核等信息,从上面可以知道这个是一个爬虫来的。
除了上面的信息,服务器日志还可以增加定制信息,比如域名,cookie等,以便更好的做数据采集和用户识别。
基于时间戳,可以对访客做行为分析。少量的日志可以通过excel做分列处理,大量的就要程序。
日志的信息一般通过ETL入库,通常来说,数据库数据和日志数据主要用于BI的建设,如果开发团队足够强,会做一些机器学习方面的工作。
第三方数据:包括第网站分析工具和第三方评估数据
网站分析工具,如GA,Adobe,百度统计等,通常这类工具只需要在页面加一段跟踪代码就可以提供详尽的分析报告了,也是很多中小企使用的方案。
以GA为例,原理是跟踪js在页面加载的时候就会收集相关的数据,并将数据以虚拟一像素的图片的形式推送Ga服务器,如下图,就是Ga收集的信息
然后ga在对上面的数据所分割处理形成报告,传递参数的详细解释可以看:Google Universal Analytics 传递参数解释。
第三方评估数据:如alexa,similarweb等,能够用户评估自己网站现状,或分析竞争对手的数据,通常这类数据都是抽样的,经过算法处理后得到的,只能做为参考,如果你的站点排名越后面,误差会越大的,参考的价值就比较低了。
对于我来说,如果是流量数据,以网站分析工具的为主,如果订单数据,以自己的BI为主,当让GA的数据和自己BI的数据是打通的了,还可以做其他的一些分析工作。