| 1 | 数据源:PimaIndiansDiabetes2.csv 数据介绍:印第安人糖尿病数据库,包括以下信息:pregnant Number of times pregnantglucose Plasma glucose concentration (glucose tolerance test)pressure Diastolic blood pressure (mm Hg)triceps Triceps skin fold thickness (mm)insulin 2-Hour serum insulin (mu U/ml)mass Body mass index (weight in kg/(height in m)\^2)pedigree Diabetes pedigree functionage Age (years)diabetes Class variable (test for diabetes)作业需求:我们需要利用"pregnant", "glucose", "pressure", "triceps", "insulin", "mass", "pedigree", "age"等变量来预测"diabetes"的值。因为数据有缺失值,需要对数据先进行探索,完成缺失值的插补后,再利用分类算法建立预测模型,识别糖尿病患者。作业要求:1、 数据探索:利用课上讲到的列表显示缺失值和图形探究缺失数据两种方式对缺失值模式进行探究。(15分)2、 数据完善:要求不能直接删除缺失数据,至少需要利用两种方式对缺失值进行插补。(20分)3、 数据分区:需要按照变量diabetes来进行等比例抽样,其中80%作为训练集train数据,20%作为测试集test数据。(15分)4、 建立模型及评估:利用分类算法(两种算法:LR和决策树)对train数据集建立分类预测模型,并对test数据集进行预测,利用混淆矩阵查看模型评估效果。(30分) | (not set) | ? | Oct 22, 2021, 2:45:05 PM |