38. 如何决定是否包含不一致的数据

假设你想学习预测纽约的房价。给定房屋的大小（输入特征 x ），你想预测其价格（目标标签 y ）。

纽约的房价非常高。假设你有位于密西根州底特律的第二个房价数据集，该地房价要低的多。你应该在训练集中包含这些数据么？

给定相同的大小 x，房子的价格根据其是在纽约还是底特律而大相径庭。如果你只关心预测纽约的房价，那么将两个数据集放在一起将损害你的算法性能。在这种情况下，最好忽略不一致的底特律数据。

有一种方法可以解决底特律数据和纽约数据不一致的问题，就是给每个训练样例增加一个额外的特征来表征城市。给定输入 x（现在指定城市），目标值 y 现在是明确的。然而，实际中这种方法不常见。

纽约和底特律的样本与移动app端和互联网上的猫咪图片的样本有什么不同？

猫咪图像的样本和这有点不一样，因为给定一个输入图片 x ，你能可靠地预测出标签 y （是否有猫），即使不知道图像是网络图像还是移动应用图像。即有一个函数 f（x）可以从输入 x 映射到目标输出 y ，即使不知道 x 的来源。因此，从互联网图像中识别的任务与移动app端图像识别的任务是“一致的”。这意味着，将所有的数据包括在内，几乎没有什么负面影响（除了计算成本），甚至还可能有一些积极的作用。相比之下，纽约和底特律的数据则不一致。考虑相同的 x（房子的大小），价格会因为房子的位置而差别很大。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

38.whether-to-include-inconsistent-data.md

38.whether-to-include-inconsistent-data.md

38. 如何决定是否包含不一致的数据

Files

38.whether-to-include-inconsistent-data.md

Latest commit

History

38.whether-to-include-inconsistent-data.md

File metadata and controls

38. 如何决定是否包含不一致的数据