Nature最新封面:AI训练AI?也许越来越笨
共 4694字,需浏览 10分钟
·
2024-07-25 12:35
当前,在愈发火热的大模型行业,Scaling Law 被证明依然奏效。
问题是,一旦由人类生成的高质量数据(如书籍、文章、照片、视频等)用尽,大模型训练又该如何进行?
什么是模型崩溃?
图 | 受模型崩溃影响的 OPT-125m 模型的文本输出示例-模型在几代之间退化。
图 | 模型会逐渐忽视训练数据中不常见的元素。
为何会发生?
图 | 对学习过程中反馈机制的高层次描述。
-
由于样本数量有限,模型无法完全捕捉到真实数据分布的所有细节。随着时间的推移,低概率事件(即分布的尾部)会逐渐消失,因为它们被采样的概率很低。 -
随着模型训练代数的增加,这种误差会不断累积,导致模型最终收敛到一个与原始分布完全不同的分布,其尾部几乎为零,方差也大大减小。
-
神经网络等函数近似器的表达能力是有限的,无法完美地逼近任何分布。 -
这种误差会导致模型在逼近真实分布时产生偏差,例如,将高密度区域分配到低密度区域,或者将低密度区域分配到高密度区域。 -
随着模型训练代数的增加,这种误差会不断累积,导致模型最终收敛到一个与原始分布完全不同的分布,其尾部几乎为零,方差也大大减小。
-
学习过程的局限性,例如随机梯度下降的结构偏差或目标函数的选择,也会导致模型产生误差。 -
这种误差会导致模型在逼近真实分布时产生偏差,例如,过拟合密度模型导致模型错误地外推数据,并将高密度区域分配到训练集支持范围之外的低密度区域。 -
随着模型训练代数的增加,这种误差会不断累积,导致模型最终收敛到一个与原始分布完全不同的分布,其尾部几乎为零,方差也大大减小。
可以避免吗?
评论