Skip to content
This repository was archived by the owner on Aug 16, 2022. It is now read-only.

Latest commit

 

History

History
12 lines (7 loc) · 1.65 KB

38.whether-to-include-inconsistent-data.md

File metadata and controls

12 lines (7 loc) · 1.65 KB

38. 如何决定是否包含不一致的数据

假设你想学习预测纽约的房价。给定房屋的大小(输入特征 x ),你想预测其价格(目标标签 y )。

纽约的房价非常高。假设你有位于密西根州底特律的第二个房价数据集,该地房价要低的多。你应该在训练集中包含这些数据么?

给定相同的大小 x,房子的价格根据其是在纽约还是底特律而大相径庭。如果你只关心预测纽约的房价,那么将两个数据集放在一起将损害你的算法性能。在这种情况下,最好忽略不一致的底特律数据。

有一种方法可以解决底特律数据和纽约数据不一致的问题,就是给每个训练样例增加一个额外的特征来表征城市。给定输入 x(现在指定城市),目标值 y 现在是明确的。然而,实际中这种方法不常见。

纽约和底特律的样本与移动app端和互联网上的猫咪图片的样本有什么不同?

猫咪图像的样本和这有点不一样,因为给定一个输入图片 x ,你能可靠地预测出标签 y (是否有猫),即使不知道图像是网络图像还是移动应用图像。即有一个函数 f(x)可以从输入 x 映射到目标输出 y ,即使不知道 x 的来源。 因此,从互联网图像中识别的任务与移动app端图像识别的任务是“一致的”。这意味着,将所有的数据包括在内,几乎没有什么负面影响(除了计算成本),甚至还可能有一些积极的作用。相比之下,纽约和底特律的数据则不一致。考虑相同的 x(房子的大小),价格会因为房子的位置而差别很大。