Toggle navigation
首页
每日一题
技能墙
面试题
闯关认证
上传题目
单选题
多选题
判断题
编程题
简答题
Login
Signup
Home
题目详情
数据源:PimaIndiansDiabetes2.csv 数据介绍:印第安人糖尿病数据库,包括以下信息:pregnant Number of times pregnantglucose Plasma glucose concentration (glucose tolerance test)pressure Diastolic blood pressure (mm Hg)triceps Triceps skin fold thickness (mm)insulin 2-Hour serum insulin (mu U/ml)mass Body mass index (weight in kg/(height in m)\^2)pedigree Diabetes pedigree functionage Age (years)diabetes Class variable (test for diabetes)作业需求:我们需要利用"pregnant", "glucose", "pressure", "triceps", "insulin", "mass", "pedigree", "age"等变量来预测"diabetes"的值。因为数据有缺失值,需要对数据先进行探索,完成缺失值的插补后,再利用分类算法建立预测模型,识别糖尿病患者。作业要求:1、 数据探索:利用课上讲到的列表显示缺失值和图形探究缺失数据两种方式对缺失值模式进行探究。(15分)2、 数据完善:要求不能直接删除缺失数据,至少需要利用两种方式对缺失值进行插补。(20分)3、 数据分区:需要按照变量diabetes来进行等比例抽样,其中80%作为训练集train数据,20%作为测试集test数据。(15分)4、 建立模型及评估:利用分类算法(两种算法:LR和决策树)对train数据集建立分类预测模型,并对test数据集进行预测,利用混淆矩阵查看模型评估效果。(30分)
编程题
R
401
次浏览
题目对人有帮助,内容完整,我也想知道答案
0
题目没有实际价值,缺少关键内容,没有改进余地
回答后才能看到答案和解析
收藏
编辑
举报
爱乐观积极向上
7年前上传
1个回答
?
编辑
a1DA!
1
4年前回答
我的回答
答案说明
提交