GPT发展现状_全球微头条

微信微博 QQ空间 MORE

(资料图片)

在近日举办的微软开发者大会（Microsoft Build 2023）上，OpenAI联合创始人Andrej Karpathy就GPT发展现状发表了演讲，介绍了GPT训练流程的各个阶段，展示了如何使用GPT来完成任务，并提出了一些非常具有实际意义的使用建议。下文为他的演讲要点。

GPT大模型的训练流程是个新领域，变化很快，现在的流程是这样，以后新技术出现时可能会不一样。

GPT的训练流程可粗略分为四个阶段：预训练、监督式微调、奖励建模、强化学习。

这四个阶段按顺序进行。每个阶段都有各自的数据集，每个阶段也有各自用于训练神经网络的算法。在所有阶段中，预训练阶段所需的计算量是最大的，约99%的训练计算时间和浮点运算量都集中在这个阶段，这一阶段需要处理超大规模的互联网数据集，可能需要数千GPU构成的超级计算机工作几个月时间。其他三个阶段都是微调（fine tuning）阶段，所需 GPU数量和训练时间都少得多。

GPT依然具有某种形式的认知能力优势。比如，它们具备非常广博的事实性知识，涵盖许多不同领域。因为它们拥有以百亿计的参数，足以储存大量事实内容。同时，它们还有海量且完美的工作记忆，能通过其内部自注意力机制对相关内容加以利用。也就是说，GPT能以无损的方式记住嵌入其上下文窗口的任何内容。

为了帮助人们更好地使用GPT，Karpathy给出了一些建议。比如，在使用GPT来完成任务时，可以将任务分成两个部分：一是取得最佳结果，二是依照指定顺序优化结果。他建议用户目前仅在低风险应用中使用LLM（大型语言模型），并且要搭配人工监督一起使用。LLM可以作为灵感和建议来源，应让它们辅助而不是完全自主地替代人们工作。

关键词：

责任编辑：zN_0545