其中,PaLM(Pathways Language Model)是谷歌在今年4月发布的5400亿参数全能大模型,基于Pathways系统训练,BERT之父Jacob Devlin为主要贡献者之一。PaLM可以完成写代码、聊天、语言理解等任务,并且在大多数任务上实现了SOTA少样本学习性能。另一个核心点是RLHF“从人类反馈中强化学习”。OpenAI提出InstructGPT时就用到了这一方法,它能让AI的回答更加符合情景要求,降低“有害性”。具体分三步:第一步,找一些人写下示范答案,来微调GPT-3模型,训练监督模型baseline。第二步,收集某个问题的几组不同输出数据,由人类对几组答案进行排序,在此数据集上训练奖励模型。第三步,使用RM作为奖励函数,近端策略优化(PPO)算法微调GPT-3策略,以强化学习方法最大化奖励。ChatGPT使用的GPT-3.5,其中text-davinci-002就是在code-davinci-002的基础上,采用了InstructGPT训练方法改进得到。正是基于如上两方面核心内容,作者实现了ChatGPT的复刻。大致步骤有3步: