上一节介绍了在多元回归中变量选择的三种方法,但如果b的估计出现伪逆时,也就是奇异性前面的方法可能就不适用,通常有两种情况:1、变量比样本多;2、出现共线性。第二种情况,前面的方法还是适用的,但第一种情况,前面的方法就不适用了,需要给b的估计计算加上惩罚函数。 岭回归(Ridge Regression)就是在出现上述两种情况的处理方法……继续阅读 » Haran 8年前 (2016-11-24) 7789浏览 0评论3个赞
变量间的关系: 不确定:相关关系,通常用相关系数表示,相关系数的取值范围是[-1,1],大于0 表示正相关,小于0表示负相关;绝对值接近于1,表示相关性越强 确定:函数关系,通常用公式表示:Y=a+bX,通常也叫线性回归线性回归:一元线性回归:Y=a+bX求解参数通常是通用最小线性二乘法求解参数a和b检验通常包含:方程检验,……继续阅读 » Haran 8年前 (2016-11-23) 6215浏览 0评论2个赞
最近在复习机器学习方面的算法,对此做些总结回顾。什么是机器学习?利用算法,是机器具有人一样的学习能力,能够自动分析判别机器学习与数据挖掘,人工智能,深度学习的区别?机器学习是利用算法,让机器具备人一样的学习能力,能够自动分析判别数据挖掘是只从一大堆数据中寻找模式和特征,需找出有价值的信息人工智能是指通过人通过电脑实现的智能,机器学习是人工智能的一……继续阅读 » Haran 8年前 (2016-11-22) 4046浏览 0评论1个赞
1 自行寻找在R中实现bagging和adaboost的包,然后分别用来对iris数据集进行分类观察效果install.packages("ipred")install.packages("adabag")library(ipred)model.bagging=bagging(Species~.,data=iris,)pre.baggi……继续阅读 » Haran 8年前 (2016-10-08) 4805浏览 0评论0个赞
1、加载数据并做主成分分析:data9.3<- c(1.000, 0.846, 0.805, 0.859, 0.473, 0.398, 0.301, 0.382, 0.846, 1.000, 0.881, 0.826, 0.376, 0.326, 0.277, 0.277, 0.805, 0.881, 1.000, ……继续阅读 » Haran 8年前 (2016-10-03) 4962浏览 0评论0个赞
1、加载数据做成分分析:data9.2<-data.frame( x1=c(82.9,88.0,99.9,105.3,117.7,131.0,148.2,161.8,174.2,184.7), x2=c(92,93,96,94,100,101,105,112,112,112), x3=c(17.1,21.3,25.1,29.0,3……继续阅读 » Haran 8年前 (2016-09-27) 4208浏览 0评论0个赞
分别使用岭回归和Lasso解决上面回归问题当回归存在多重共线性的时候,可以使用最小二乘,岭回归,Lasso回归, 但当X的秩不存在的时候或变量的数量少于样本的数量是,作为无偏差估计的最小二乘就不适用,岭回归和Lasso回归更合适。过程:1、加载数据做中心化后做线性回归: 可以看到线性回归方程很不显著,存在多重共线性,下面做多……继续阅读 » Haran 8年前 (2016-09-17) 4882浏览 0评论1个赞
回归建模的主要流程:1、描述性统计:对数据有个概览2、异常缺失值处理3、多重共线性检验:kappa(cor(),exact=TRUE)4、相关性分析:筛选自变量5、参数计算方法:最小二乘法,岭回归6、检验:拟合度检验:R^2模型显著性检验:F检验的P-value参数检验:T检验的P-value残差正太性检验:shapiro.test残差……继续阅读 » Haran 8年前 (2016-08-09) 6246浏览 0评论0个赞