- 参考选题一:银行用户流失预测 Binary Classification with a Bank Churn Dataset
- 参考选题二:肥胖风险的多类别预测 Multi-Class Prediction of Obesity Risk
- 参考选题三:钢板缺陷预测 Steel Plate Defect Prediction
- 参考选题四:数字识别 Digit Recognizer
选择参考选题的同学可以从文件夹中下载对应题目的数据集和测试集,同学们还可以围绕机器学习的相关知识自选题目进行完成,上述链接给出了相关参考选题的背景。
- 模型训练需自己动手实现,严禁直接调用已经封装好的各类机器学习库(包括但不限于sklearn,功能性的可以使用,比如 sklearn.model_selection.train_test_split),但可以使用numpy等数学运算库(实现后,可与已有库进行对比验证);
- 使用机器学习及相关知识对数据进行建模和训练,并进行相应参数调优和模型评估;
- 鼓励使用多种模型或不同数据集进行实验,并给出相应的分析思考;
- 鼓励自主拓展探索;
- 提交压缩包中包含(压缩包命名为
学号_姓名_机器学习结课.zip
):- 实验报告
学号_姓名_机器学习结课报告.pdf
; - 代码文件;
- 预测结果;
- 额外用到的数据集等必要文件;
README.md
说明文件夹结构;
- 实验报告
- 严禁抄袭任何来源的代码或报告,一经发现大作业直接记 0 分处理;如需借鉴或引用,请标明出处;
- 自行选择
.docx
、.md
或.tex
模板完成报告,最终提交.pdf
格式报告。
-
性能评估(准确率(Accuracy))(30分):
课题 10分 20分 25分 30分 bank-churn $> 0.5$ $\ge 0.6$ $\ge 0.7$ $\ge 0.85$ obesity-risk $> 0.2$ $\ge 0.4$ $\ge 0.6$ $\ge 0.8$ steel-plate $> 0.1$ $\ge 0.35$ $\ge 0.55$ $\ge 0.75$ digit-recognizer $> 0.7$ $\ge 0.75$ $\ge 0.8$ $\ge 0.85$ 注:若额外使用其他指标(例如,精确率(Precision)、召回率(Recall)、F1等)对模型进行全面评估,将额外加分。
-
代码要求(10分):
- 命名规范,有文档说明;
- 逻辑清晰,有适当注释;
-
结课报告(60分):
- 报告各部分结构规范,内容完整,表述清晰,图表参考文献等引用正确(30分);
- 对数据集、模型以及训练过程和结果有分析思考(20分);
- 尝试一种以上模型,并且有多方面对比分析(10分);
-
有任何方面的拓展探究(例如,模型结构改进,最新技术探究等),将额外加分;
-
报告过长(大于12页/大于8000字符,不包含参考文献),将酌情扣分;
-
抄袭记 0 分。