(资料图片)
在近日举办的微软开发者大会(Microsoft Build 2023)上,OpenAI联合创始人Andrej Karpathy就GPT发展现状发表了演讲,介绍了GPT训练流程的各个阶段,展示了如何使用GPT来完成任务,并提出了一些非常具有实际意义的使用建议。下文为他的演讲要点。
GPT大模型的训练流程是个新领域,变化很快,现在的流程是这样,以后新技术出现时可能会不一样。
GPT的训练流程可粗略分为四个阶段:预训练、监督式微调、奖励建模、强化学习。
这四个阶段按顺序进行。每个阶段都有各自的数据集,每个阶段也有各自用于训练神经网络的算法。在所有阶段中,预训练阶段所需的计算量是最大的,约99%的训练计算时间和浮点运算量都集中在这个阶段,这一阶段需要处理超大规模的互联网数据集,可能需要数千GPU构成的超级计算机工作几个月时间。其他三个阶段都是微调(fine tuning)阶段,所需 GPU数量和训练时间都少得多。
GPT依然具有某种形式的认知能力优势。比如,它们具备非常广博的事实性知识,涵盖许多不同领域。因为它们拥有以百亿计的参数,足以储存大量事实内容。同时,它们还有海量且完美的工作记忆,能通过其内部自注意力机制对相关内容加以利用。也就是说,GPT能以无损的方式记住嵌入其上下文窗口的任何内容。
为了帮助人们更好地使用GPT,Karpathy给出了一些建议。比如,在使用GPT来完成任务时,可以将任务分成两个部分:一是取得最佳结果,二是依照指定顺序优化结果。他建议用户目前仅在低风险应用中使用LLM(大型语言模型),并且要搭配人工监督一起使用。LLM可以作为灵感和建议来源,应让它们辅助而不是完全自主地替代人们工作。
-
咸鸡腿怎么做好吃?-全球聚看点可以先洗去多余油脂,上锅蒸熟,再和辣椒一起炒制好吃。下面介绍做法:
-
快消息!收购日本三电两周年 海信将汽车电子确定为第二增长曲线之一经济观察网记者种昂“基于此前的技术积累,海信已悄然进入到汽车电子领
-
科创50ETF期权在上交所正式上市交易6月5日,科创50ETF期权在上海证券交易所正式上市交易。上交所信息显示
-
@甘肃高考生,报志愿用好这个“平台”每日甘肃网6月5日讯(奔流新闻·兰州晨报记者武永明)为进一步加强对考
-
郑州市惠济区东风路小学开展“花漾童趣节 拾趣好时光”庆六一主题系列活动为了让东小学子度过一个快乐、充实而有意义的节日,郑州市惠济区东风路
-
咸鸡腿怎么做好吃?-全球聚看点
2023-06-05 11:27:41
-
快消息!收购日本三电两周年 海信将汽车电子确定为第二增长曲线之一
2023-06-05 10:55:39
-
科创50ETF期权在上交所正式上市交易
2023-06-05 10:34:24
-
@甘肃高考生,报志愿用好这个“平台”
2023-06-05 10:20:16
-
郑州市惠济区东风路小学开展“花漾童趣节 拾趣好时光”庆六一主题系列活动
2023-06-05 09:46:30