假设你想学习预测纽约的房价。给定房屋的大小(输入特征 x ),你想预测其价格(目标标签 y )。
纽约的房价非常高。假设你有位于密西根州底特律的第二个房价数据集,该地房价要低的多。你应该在训练集中包含这些数据么?
给定相同的大小 x,房子的价格根据其是在纽约还是底特律而大相径庭。如果你只关心预测纽约的房价,那么将两个数据集放在一起将损害你的算法性能。在这种情况下,最好忽略不一致的底特律数据。
有一种方法可以解决底特律数据和纽约数据不一致的问题,就是给每个训练样例增加一个额外的特征来表征城市。给定输入 x(现在指定城市),目标值 y 现在是明确的。然而,实际中这种方法不常见。
纽约和底特律的样本与移动app端和互联网上的猫咪图片的样本有什么不同?
猫咪图像的样本和这有点不一样,因为给定一个输入图片 x ,你能可靠地预测出标签 y (是否有猫),即使不知道图像是网络图像还是移动应用图像。即有一个函数 f(x)可以从输入 x 映射到目标输出 y ,即使不知道 x 的来源。 因此,从互联网图像中识别的任务与移动app端图像识别的任务是“一致的”。这意味着,将所有的数据包括在内,几乎没有什么负面影响(除了计算成本),甚至还可能有一些积极的作用。相比之下,纽约和底特律的数据则不一致。考虑相同的 x(房子的大小),价格会因为房子的位置而差别很大。