活字2.0简介
活字系列是由哈工大自然语言处理研究所多位老师和学生参与开发的一个开源可商用的大规模预训练语言模型。活字2.0通过人类反馈的强化学习(RLHF)进一步优化了模型回复质量,使其更加符合人类偏好。相较于上一个版本平均长度明显提高,遵从指令的能力更强,逻辑更加清晰。
活字2.0创新点:
- 更好的回复:活字2.0的回复具有更好的模式,回复平均长度明显提高,指令的能力更强,逻辑更加清晰;
- 融合多种trick的稳定PPO训练,训练更加稳定高效:训练过程中保持数据分布一致、训练过程中进行Reward Shaping、Actor权重滑动平均;
- 多维度标注的中文偏好数据,精确建模人类偏好:Instruction标注是否具有诱导性、针对每条回复从有用性、真实性和无害性三个维度打分、综合考虑Instruction类别和回复质量的偏好排序。
相关链接
为方便广大研究者探索通过强化学习优化语言模型,活字2.0模型权重与1.7万条高质量偏好数据现已开源:仓库地址