Google Analytics 4 视频课程http://edu.ichdata.com

> 机器学习 > 算法 > 机器学习-线性回归与Logistic

机器学习-线性回归与Logistic

算法 Haran 9年前 (2016-11-23) 6572次浏览 0个评论

变量间的关系

不确定：相关关系，通常用相关系数表示，相关系数的取值范围是[-1,1],大于0 表示正相关，小于0表示负相关；绝对值接近于1，表示相关性越强
确定：函数关系，通常用公式表示：Y=a+bX，通常也叫线性回归

线性回归

一元线性回归：Y=a+bX

求解参数通常是通用最小线性二乘法求解参数a和b

检验通常包含：方程检验，拟合度用R^2，RSS，方程显著性用P-value，
参数检验：方差分析，用P-value
实际意义检验：是否符合实际
残差检验：是否符合正太分布

多元线性回归：Y=a+b1X1+b2X2……

导入数据，查看数据结构和分布：head和summary函数
数据预处理与变量选择
数据预处理：缺失值处理，平滑噪声，异常值检验，虚拟变量等
变量选择：相关系数，相关系数越接近于1的，选择1个变量就够；尽量选择变量组合数量比较少的，能够提高R^2
Kappa值，大于1000，存在多重共线性
Pairs图，通过目测图形去做对变量做选择
逐步回归建模：向前，向后，两者
模型选择:AIC,BIC,越小越好
模型检验
方程检验，拟合度用R^2，RSS，方程显著性用P-value，
参数检验：方差分析，用P-value或T值
实际意义检验：是否符合实际
残差检验：是否符合正太分布，越大越好
预测

Logistic回归

能够转化为线性回归，将离散变量转成连续变量

广义线性回归(GLM)

通过函数转化，能用现有的线性回归规则使用的回归

指数
对数
幂函数
倒数

如有疑问，可以在文章底部留言或邮件(haran.huang@ichdata.com) 我~

机器学习—机器学习概论