分别使用岭回归和Lasso解决上面回归问题当回归存在多重共线性的时候,可以使用最小二乘,岭回归,Lasso回归, 但当X的秩不存在的时候或变量的数量少于样本的数量是,作为无偏差估计的最小二乘就不适用,岭回归和Lasso回归更合适。过程:1、加载数据做中心化后做线性回归: 可以看到线性回归方程很不显著,存在多重共线性,下面做多……继续阅读 » Haran 8年前 (2016-09-17) 4911浏览 0评论1个赞
网址:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4现在将单线程版改为多线程运行:可以到看到运行时间不到1分钟,相较单线程版的5~6分钟,速度提高了6倍源码如下:from bs4 import BeautifulSoupimport requestsimport osimport urlli……继续阅读 » Haran 8年前 (2016-09-13) 3835浏览 0评论1个赞
数据集 ex14.csv 是关于中国各个省份的三项指标数值。请根据这些指标数值,将各个省份分为3类,并尝试归纳出各个类别的特点查看数据图形分布:# coding=utf-8import osimport pandas as pdfrom sklearn.cluster import AgglomerativeClusteringfr……继续阅读 » Haran 8年前 (2016-09-07) 10638浏览 0评论7个赞
1、 读入数据做时序图# -*- coding: UTF-8 -*- import pandas as pdimport matplotlib.pyplot as pltfrom statsmodels.graphics.tsaplots import plot_acffrom statsmodels.tsa.stattools ……继续阅读 » Haran 8年前 (2016-09-04) 10503浏览 0评论5个赞
data2 是关于重伤病人的一些基本资料。自变量X是病人的住院天数,因变量Y是病人出院后长期恢复的预后指数,指数数值越大表示预后结局越好。尝试对数据拟合合适的线性或非线性模型过程:1、通过散点图可以判断可能可以使用的模型有:线性回归,对数,指数和冥指数回归# -*- coding: utf-8 -*-import pandas as pdfr……继续阅读 » Haran 8年前 (2016-08-10) 7105浏览 0评论0个赞
回归建模的主要流程:1、描述性统计:对数据有个概览2、异常缺失值处理3、多重共线性检验:kappa(cor(),exact=TRUE)4、相关性分析:筛选自变量5、参数计算方法:最小二乘法,岭回归6、检验:拟合度检验:R^2模型显著性检验:F检验的P-value参数检验:T检验的P-value残差正太性检验:shapiro.test残差……继续阅读 » Haran 8年前 (2016-08-09) 6293浏览 0评论0个赞
python3不再支持mysqldb,目前改用用了pymysql,在用Python3.5+Django1.9.8+Mysql部署web的时候报错 没有mysqldb解决的方法是:pip install pymysql然后在项目的__init__增加如下代码:import pymysqlpymysql.install_as_MySQLdb……继续阅读 » Haran 8年前 (2016-08-08) 5105浏览 0评论0个赞
data1 是40名癌症病人的一些生存资料,其中,X1表示生活行动能力评分(1~100),X2表示病人的年龄,X3表示由诊断到直入研究时间(月);X4表示肿瘤类型,X5把ISO两种疗法(“1”是常规,“0”是试验新疗法);Y表示病人生存时间(“0”表示生存时间小于200天,“1”表示生存时间大于或等于200天)试建立Y关于X1~X5的logistic回归模……继续阅读 » Haran 9年前 (2016-06-10) 7699浏览 0评论0个赞
Python爬58同城二手房图片from bs4 import BeautifulSoupimport requestsimport osimport urllib.requestimport randomimport timeimport reuser_agent = ['Mozilla/5.0 (Windows NT 6……继续阅读 » Haran 9年前 (2016-04-08) 3995浏览 0评论1个赞