分别使用岭回归和Lasso解决上面回归问题当回归存在多重共线性的时候,可以使用最小二乘,岭回归,Lasso回归, 但当X的秩不存在的时候或变量的数量少于样本的数量是,作为无偏差估计的最小二乘就不适用,岭回归和Lasso回归更合适。过程:1、加载数据做中心化后做线性回归: 可以看到线性回归方程很不显著,存在多重共线性,下面做多……继续阅读 » Haran 8年前 (2016-09-17) 4922浏览 0评论1个赞
网址:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4现在将单线程版改为多线程运行:可以到看到运行时间不到1分钟,相较单线程版的5~6分钟,速度提高了6倍源码如下:from bs4 import BeautifulSoupimport requestsimport osimport urlli……继续阅读 » Haran 8年前 (2016-09-13) 3845浏览 0评论1个赞
数据驱动的背后是AB测试,AB测试这种方法在国内外互联网公司里面广泛应用于产品更迭。这一节聊聊AB测试的流程,还有其中的注意点,以便更好去使用Google Optimize或Adobe Target去做AB测试,不然很多人在用Optimize作AB测试,其实都没有遵循一些统计原理,也就不够科学的。提出假设AB测试的第一步是分析业务数据,确定当前最关键的……继续阅读 » Haran 8年前 (2016-09-09) 5274浏览 0评论1个赞
GA因为其强大的功能而备受一些企业的青睐,但由于是免费的,GA提供的数据存在抽样的,导致数据的准确大大降低,但GA也提供一些API接口给用户,通过GA API分页查询功能能降低抽样的比例,甚至是没有抽样。首先在Google APIs创建GA API授权,其中一共有三种授权方式:API密钥:简单通用型;Oauth2.0客户端ID:应用访问型,如web端……继续阅读 » Haran 8年前 (2016-09-09) 8028浏览 2评论5个赞
数据集 ex14.csv 是关于中国各个省份的三项指标数值。请根据这些指标数值,将各个省份分为3类,并尝试归纳出各个类别的特点查看数据图形分布:# coding=utf-8import osimport pandas as pdfrom sklearn.cluster import AgglomerativeClusteringfr……继续阅读 » Haran 8年前 (2016-09-07) 10646浏览 0评论7个赞
在做ABtest的时候,由于页面的不同,两种类型的用户可能会有不同的变现,但用户在分类的时候一般采用随机的方式,看两类用户的行为表现,这里就需要在页面添加一个用户分组字段,如A组走新界面,B组走旧界面。这就需要一个字段能够在GA上将两类用户做区分,可以通过GTM读入改全局变量后转成GA维度的方法原理是:将分组标示作为页面的全局变量,variable中的js……继续阅读 » Haran 8年前 (2016-09-05) 3980浏览 0评论0个赞
1、 读入数据做时序图# -*- coding: UTF-8 -*- import pandas as pdimport matplotlib.pyplot as pltfrom statsmodels.graphics.tsaplots import plot_acffrom statsmodels.tsa.stattools ……继续阅读 » Haran 8年前 (2016-09-04) 10518浏览 0评论5个赞
更新时间:2024年10月25号这一篇介绍邮件跟踪,分为两部分:邮件流量跟踪:可以知道特定系列邮件带来的流量有多少邮件打开跟踪:可以知道邮件的打开情况,估EDM的打开情况。邮件流量跟踪邮件流量跟踪是基于UTM,只需要在邮件中有可点击链接的位置添加UTM就可以,对应的UTM就可以追踪到邮件的打开情况。延伸阅读:如何使用UTM参数追踪推广渠道数据……继续阅读 » Haran 8年前 (2016-08-21) 7307浏览 2评论0个赞
data2 是关于重伤病人的一些基本资料。自变量X是病人的住院天数,因变量Y是病人出院后长期恢复的预后指数,指数数值越大表示预后结局越好。尝试对数据拟合合适的线性或非线性模型过程:1、通过散点图可以判断可能可以使用的模型有:线性回归,对数,指数和冥指数回归# -*- coding: utf-8 -*-import pandas as pdfr……继续阅读 » Haran 8年前 (2016-08-10) 7116浏览 0评论0个赞
回归建模的主要流程:1、描述性统计:对数据有个概览2、异常缺失值处理3、多重共线性检验:kappa(cor(),exact=TRUE)4、相关性分析:筛选自变量5、参数计算方法:最小二乘法,岭回归6、检验:拟合度检验:R^2模型显著性检验:F检验的P-value参数检验:T检验的P-value残差正太性检验:shapiro.test残差……继续阅读 » Haran 8年前 (2016-08-09) 6306浏览 0评论0个赞
更新时间:2024年10月31号GA4目前暂时不适用Flash页面的监控,需要转变思路采用dataLayer.push的方式实现Flash的事件跟踪。原理开发监听事件,然后通过dataLayer.push的方式,GTM在配置事件。GTM配置过程接下来看如何设置:开发通过dataLayer.push发送事件dataLayer.push({……继续阅读 » Haran 8年前 (2016-08-08) 3873浏览 0评论0个赞
原理是:通过GTM的Tag将js代码注入到页面(可以指定页面),js里面有监听函数可以实现监听点击,下拉等操作,监听促发,JS就push event(这里就会使用到变量——工具——Event),然后trigger中通过自定义事件接受event,再用促发tag将自定义事件设置为促发条件向GA发送数据。下面是采集浏览器是否支持Flash的需求,因为某个产品依……继续阅读 » Haran 8年前 (2016-08-08) 6502浏览 2评论0个赞