醋醋百科网

Good Luck To You!

OpenAI去年挖的坑填上了,奖励模型首现Scaling Law,1.8B给70B巨兽上了一课

一直以来,让AI更懂人类都是大模型领域的核心议题。

而奖励模型(RM)便是解决如何「理解人类偏好」的核心技术,同时也是限制后训练效果的关键因素。

2024年12月,OpenAI提出了一种新的强化微调(Reinforcement Fine-tuning,RFT)技术。在RFT过程中,打分器(Grader)会根据标准答案给出奖励分数,从而帮助模型「学会」如何给出正确结果。

图1:OpenAI强化微调代表样例

在此启发下,一种可以规避奖励模型准确度低、泛化性差等固有问题的,基于规则验证(RLVR)的方法应运而生。

雅思词汇 | 雅思必备高分词汇40讲

全新小栏目“雅思必备高分词汇40讲”重磅上线!


纯干货,无废话

用最少的时间学最制胜的内容!

泡图书馆泡不过学霸?

<< 1 >>
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言