一直以来,让AI更懂人类都是大模型领域的核心议题。
而奖励模型(RM)便是解决如何「理解人类偏好」的核心技术,同时也是限制后训练效果的关键因素。
2024年12月,OpenAI提出了一种新的强化微调(Reinforcement Fine-tuning,RFT)技术。在RFT过程中,打分器(Grader)会根据标准答案给出奖励分数,从而帮助模型「学会」如何给出正确结果。
图1:OpenAI强化微调代表样例
在此启发下,一种可以规避奖励模型准确度低、泛化性差等固有问题的,基于规则验证(RLVR)的方法应运而生。