变量间的关系:
不确定:相关关系,通常用相关系数表示,相关系数的取值范围是[-1,1],大于0 表示正相关,小于0表示负相关;绝对值接近于1,表示相关性越强
确定:函数关系,通常用公式表示:Y=a+bX,通常也叫线性回归
线性回归:
一元线性回归:Y=a+bX
求解参数通常是通用最小线性二乘法求解参数a和b
检验通常包含:方程检验,拟合度用R^2,RSS,方程显著性用P-value,
参数检验:方差分析,用P-value
实际意义检验:是否符合实际
残差检验:是否符合正太分布
多元线性回归:Y=a+b1X1+b2X2……
1、导入数据,查看数据结构和分布:head和summary函数
2、数据预处理与变量选择
数据预处理:缺失值处理,平滑噪声,异常值检验,虚拟变量等
变量选择:相关系数,相关系数越接近于1的,选择1个变量就够;尽量选择变量组合数量比较少的,能够提高R^2
Kappa值,大于1000,存在多重共线性
Pairs图,通过目测图形去做对变量做选择
3、逐步回归建模:向前,向后,两者
模型选择:AIC,BIC,越小越好
4、模型检验
方程检验,拟合度用R^2,RSS,方程显著性用P-value,
参数检验:方差分析,用P-value或T值
实际意义检验:是否符合实际
残差检验:是否符合正太分布,越大越好
5、预测
Logistic回归:能够转化为线性回归,将离散变量转成连续变量
广义线性回归(GLM):通过函数转化,能用现有的线性回归规则使用的回归
指数
对数
幂函数
倒数