Skip to content
This repository was archived by the owner on Aug 16, 2022. It is now read-only.

Latest commit

 

History

History
7 lines (7 loc) · 1.22 KB

19.takeaways_basic-error-analysis.md

File metadata and controls

7 lines (7 loc) · 1.22 KB

19. 小结:基本误差分析

  • 当你开始一个新项目时,尤其在一个你不擅长的领域,是很难正确猜测出最有前景的方向的。
  • 所以,不要一开始就试图设计和构建一个完美的系统。相反,应尽可能快(可能在短短几天内)地构建和训练一个基本系统。然后使用误差分析去帮助你判别最有前景的方向,并迭代地改进你的算法。
  • 通过人工检查约100个算法误分类的开发集样本来进行误差分析,并统计出主要的误差类别。用这些信息来确定优先修正哪种类型的误差。
  • 考虑将开发集分为手动检查的 Eyeball 开发集和不手动检查的 Blackbox 开发集。如果在 Eyeball 开发集上的性能比在 Blackbox 开发集上好很多,那么说明你已经过拟合 Eyeball 开发集,并且你应该考虑为其获得更多的数据。
  • Eyeball 开发集应该足够大,以便于有足够多的算法误分类样本用于误差分析。对很多应用来说,含有1000-10000个样本的 Blackbox 开发集已足够。
  • 如果你的开发集不够大到可以按照这种方式进行划分,那么就使用 Eyeball 开发集来用于人工误差分析、模型选择和超参数调整。