机器学习-线性回归与Logistic

算法 Haran 8年前 (2016-11-23) 6236次浏览 0个评论

变量间的关系:
      不确定:相关关系,通常用相关系数表示,相关系数的取值范围是[-1,1],大于0 表示正相关,小于0表示负相关;绝对值接近于1,表示相关性越强
       确定:函数关系,通常用公式表示:Y=a+bX,通常也叫线性回归
线性回归

一元线性回归Y=a+bX
求解参数通常是通用最小线性二乘法求解参数a和b
检验通常包含:方程检验,拟合度用R^2,RSS,方程显著性用P-value,
参数检验:方差分析,用P-value
实际意义检验:是否符合实际
残差检验:是否符合正太分布

多元线性回归Y=a+b1X1+b2X2……
1、导入数据,查看数据结构和分布:head和summary函数
2、数据预处理与变量选择
数据预处理:缺失值处理,平滑噪声,异常值检验,虚拟变量等
变量选择:相关系数,相关系数越接近于1的,选择1个变量就够;尽量选择变量组合数量比较少的,能够提高R^2
Kappa值,大于1000,存在多重共线性
Pairs图,通过目测图形去做对变量做选择
3、逐步回归建模:向前,向后,两者
模型选择:AIC,BIC,越小越好
4、模型检验
方程检验,拟合度用R^2,RSS,方程显著性用P-value,
参数检验:方差分析,用P-value或T值
实际意义检验:是否符合实际
残差检验:是否符合正太分布,越大越好
5、预测

Logistic回归:能够转化为线性回归,将离散变量转成连续变量

广义线性回归(GLM):通过函数转化,能用现有的线性回归规则使用的回归
指数
对数
幂函数
倒数


如有疑问,可以在文章底部留言或邮件(haran.huang@ichdata.com) 我~
喜欢 (2)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址