无监督学习？Yann LeCun说：或许应该叫它预测性学习-技术圈

来源：danrose

编辑：白峰

随着机器学习的不断发展，无监督学习在近年来备受关注。

近日，有人提出赋予无监督学习新的名字——预测性学习。推崇这次改名的正是前些日子在推特「大火」的Facebook的首席AI科学家，Yann LeCun。

Yann LeCun将「预测性学习」称为「下一个AI前沿」。因为在过去的十年中，监督学习有着丰硕的成果。而接下来的十年，无监督学习，即预测性学习可能会变得越来越流行。

监督学习、无监督学习和强化学习：机器学习的三驾马车

认识无监督学习的新名字之前，我们来看一看机器学习多样的组成元素。

最广泛用于应用和业务用途的机器学习类别是监督学习。监督学习需要标记非常非常多的数据，也因此在给定情况下教给模型较为正确的答案。

无监督学习和监督学习恰恰相反，使用未标记的数据训练AI，通常仅用于对数据进行聚类和分组。无监督学习的质量自然不如监督学习。

因此，近些年半监督学习也时常被褒奖。半监督学习可以看做监督学习和无监督学习的折中状态。

机器学习中还有一个「重要的玩家」强化学习。强化学习主要用于实验和研究案例，到目前为止在商业中使用不多。有科学家指出AlphaGo是一个很好的例子，通常通过加强学习来完成游戏模型的教学，但Alphago确切架构没有公布，这仅仅是一种猜想。

去年，监督学习取得了长足的发展。例如在GPU上进行训练，更多可用的标记训练数据。以及一些技术进步，比如说ReLU（神经网络中最具成本效益的解决方案）。

但是获取标签数据仍然是一个问题。这是非常昂贵的，并且始终会有偏差的数据。偏差的数据会使模型产生偏差，因此开发者始终需要了解模型行为异常的极端情况。

科学家们解决这个问题的方法是：如果可以避免使用带标签的数据，而改为使用无标签的数据，则可以以更低的成本和更少的偏差机会去处理更多的数据。

如果将人类智慧与人工智能进行比较，人们意识到很多人类智慧是不受监督的。在我们了解的事物中，很少有学习示例可以教的。

因此，即使监督学习给我们带来了巨大的成就，它也有其局限性。无监督学习日益受到重视。

一个很好的例子是图像完成问题。图像不完整时，模型想「填补空白」。预测性学习可以做到这一点。

该模型可以预测上下文中可能缺少的内容。

另一个非常好的例子是来自OpenAI的GPT-3。GPT-3是一种语言模型，未经大量数据训练就可以接受训练，并且在此基础上再加上一点点监督学习，就可以拥有一个非常有效的模型。

但是，这里预测性学习是模型是基于神经网络的深度学习模型。较早的无监督模型不基于神经网络。

过去，当需要一个解决方案时，我们通常会用监督学习去训练模型。但是监督学习是昂贵的。无监督学习可以为我们提供一种有效的，非常有价值的方式去训练模型，并得到预测性的结果。

拍摄广告时，这可以被用于将多余的游客从我们的度假图片或背景物体中删除。它会填补很多地方的空白。另一方面，预测性学习还能用于检测出何时出现异常情况。

GPT-3的流行就展示了无监督学习，或者说预测性学习对于科技社会产生的巨大影响。我们有理由相信，正如Yann LeCun所说，「预测性学习」将成为「下一个AI前沿」。