建模的流程大三步:数据清理处理,模型选择,检验,下面以线性回归为例:

1、导入数据:

import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets,linear_model


diabetes=datasets.load_diabetes()  #加载数据
diabetes_X=diabetes.data[:,np.newaxis,2]  #嵌套列表转化成列表

通常在这一步需要看数据的类型,分布,对极值,缺失值做处理。

2、生成训练集和测试集:

diabetes_X_train=diabetes_X[:-20] 	#剔除后面20个作为训练集
diabetes_X_test=diabetes_X[-20:]	#剔除前面20个作为测试集合
diabetes_y_train=diabetes.target[:-20]
diabetes_y_test=diabetes.target[-20:]

3、建模与拟合