OpenAI 12天连播的第二弹,用短短三个单词体现了什么叫「字少事大」——强化微调(Reinforcement Fine-Tuning)。
首先,这是OpenAI第一次将之前仅限自家模型(如GPT-4o和o1系列)使用的强化学习技术,开放给外部开发者。
其次,开发者只需提供最低「几十个」高质量任务,就能通过强化微调实现领域专家模型的定制!并且,还能根据提供的参考答案对模型的回应进行评分。
最后,强化微调加强了模型在处理领域问题时的推理能力,并提升了在特定任务上的准确性。对于那些要求高精确性和专业知识的领域,强化微调将会发挥至关重要的作用。
从OpenAI的官方演示中不难看出,强化微调的效果可谓是相当显著——经过强化微调的o1 mini,竟然全面超越了当今最强的基础模型o1。
其中,强化微调版的o1 mini,在Top-1准确率上直接跃升180%达到了31%,远超o1的25%。
对此,奥特曼激动地表示:「这项工作效果出奇得好,是我2024年最大的惊喜之一!非常期待大家会用它去构建什么。」
目前,强化微调研究计划已进入Alpha阶段,并将于2025年第一季度公开发布。
为了搞清楚「强化微调」到底是个啥,我们便去问了问OpenAI自家的AI搜索。
没想到,结果却出人意料——这个技术思路,在一篇被ACL 2024录用为Oral的论文中,就已经提出了。
而更喜人的是,团队的成员全部来自字节跳动!