机器学习-线性回归与Logistic

算法 Haran 8年前 (2016-11-23) 6387次浏览 0个评论

变量间的关系

  • 不确定:相关关系,通常用相关系数表示,相关系数的取值范围是[-1,1],大于0 表示正相关,小于0表示负相关;绝对值接近于1,表示相关性越强
  • 确定:函数关系,通常用公式表示:Y=a+bX,通常也叫线性回归

线性回归

一元线性回归:Y=a+bX

求解参数通常是通用最小线性二乘法求解参数a和b

  • 检验通常包含:方程检验,拟合度用R^2,RSS,方程显著性用P-value,
  • 参数检验:方差分析,用P-value
  • 实际意义检验:是否符合实际
  • 残差检验:是否符合正太分布

 

多元线性回归:Y=a+b1X1+b2X2……

  1. 导入数据,查看数据结构和分布:head和summary函数
  2. 数据预处理与变量选择
    数据预处理:缺失值处理,平滑噪声,异常值检验,虚拟变量等
    变量选择:相关系数,相关系数越接近于1的,选择1个变量就够;尽量选择变量组合数量比较少的,能够提高R^2
    Kappa值,大于1000,存在多重共线性
    Pairs图,通过目测图形去做对变量做选择
  3. 逐步回归建模:向前,向后,两者
    模型选择:AIC,BIC,越小越好
  4. 模型检验
    方程检验,拟合度用R^2,RSS,方程显著性用P-value,
    参数检验:方差分析,用P-value或T值
    实际意义检验:是否符合实际
    残差检验:是否符合正太分布,越大越好
  5. 预测

 

Logistic回归

能够转化为线性回归,将离散变量转成连续变量

广义线性回归(GLM)

通过函数转化,能用现有的线性回归规则使用的回归

  • 指数
  • 对数
  • 幂函数
  • 倒数

如有疑问,可以在文章底部留言或邮件(haran.huang@ichdata.com) 我~
喜欢 (2)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址