OpenAI狂飙突进：仅12个例子就能打造专属AI专家核心技术竟来自字节？-品论天涯网

OpenAI“12天”活动的第二天，我们见证了强化微调（ReinforcementFine-Tuning）技术的正式发布，并看到了ChatGPTPro的演示。虽然SamAltman并未亲临现场，但他的团队为我们深入解析了这项技术，预示着AI模型定制化或将迎来重大突破。vHR品论天涯网

12个例子就可定制专家模型vHR品论天涯网

今天的发布会带来了一个看似不起眼但可能对人们生活产生重大影响的公告。vHR品论天涯网

今天的发布对企业用户来说很惊喜。各组织将能够使用极少的数据，通过“强化微调”（ReinforcedFine-Tuning）根据自身需求对o1mini进行定制。vHR品论天涯网

一些人可能对去年年初OpenAI推出的监督微调API已有所了解。监督微调是一种强大的工具，其主要作用是让模型模仿输入文本或图像中发现的特征，对于需要调整模型的语气、风格或响应格式的场景，这种方法非常实用。但监督微调需要特地领域的大量数据。而强化微调的优势在于，它能够通过极少量的高质量示例，快速调整模型的推理方式。这种高效性在以往的监督微调中是难以实现的。vHR品论天涯网

强化微调的工作原理是：当模型遇到问题时，给予其一定的思考空间以解决问题，然后对模型的最终答案进行评分。通过强化学习的机制，强化那些通向正确答案的思路，同时削弱导致错误答案的思路。vHR品论天涯网

vHR品论天涯网

而AIoverview给出的相关论文，居然是今年1月份来自字节跳动在ACL2024顶会论文，并不是OpenAI首创。vHR品论天涯网

vHR品论天涯网

根据论文，强化微调(ReFT)从监督微调(SFT)开始，通常持续一到两个周期。在此阶段，模型获得了正确解决数学问题的基本能力。在此之后，ReFT通过使用近端策略优化(PPO)等方法采用强化学习(RL)算法，将模型的训练提升到一个新的水平。这个高级阶段允许模型探索和学习各种正确的解决方案和推理方法。在此背景下，ReFT之所以高效，是因为它使用了现有的训练数据，这些数据中已经包含了正确的答案。vHR品论天涯网

这些答案构成了PPO训练过程中奖励的基础，从而无需额外的、单独训练的奖励系统。这与RLHF等其他方法有着重要区别，后者依赖于由人工注释的数据确定的奖励。vHR品论天涯网

vHR品论天涯网

截图来源：https://arxiv.org/pdf/2401.08967v1vHR品论天涯网

值得注意的是，OpenAI表示基于强化微调，只需几十个示例，模型便能掌握在特定领域中以新的、有效方式进行推理的能力。vHR品论天涯网

实际上，“只用12个例子就能做到这一点，这在常规的微调中是做不到的。”发布会上，OpenAI的研究员JulieWong进一步强调。vHR品论天涯网

强化微调的效果也很惊人，得分不仅比o1mini高，而且还反超了昨天刚发布的o1版。vHR品论天涯网

vHR品论天涯网

OpenAICEOSamAltman虽然没有出现在今天的直播中，但他在X平台上讨论了这一宣布。他声称新功能“效果惊人，是我2024年最大的惊喜之一”。vHR品论天涯网

vHR品论天涯网

当然，Altman对宣传自己公司的新想法有既得利益，但考虑到2024年OpenAI推出了很多令人兴奋的东西，他称之为今年最大的惊喜之一，这无疑是高度赞扬。vHR品论天涯网

根据OpenAI的演讲者介绍，科学家、开发人员和研究人员可以基于自己的数据定制强大的o1推理模型，而不再仅仅依赖公开可用的数据。vHR品论天涯网

各领域的从业者可以通过强化学习创建基于o1的专家模型，从而提升该领域的整体专业水平。这标志着AI定制化迈出了关键一步，使得AI模型能够在专业领域展现出更出色的表现。vHR品论天涯网

现场演示强化微调对大模型的提升vHR品论天涯网

在现场，OpenAI研究员用伯克利实验室计算生物学家JustinReese演示了强化微调如何大幅提高o1mini的性能。具体来说，就是给定了症状列表，让模型来预测是哪个基因可能导致的遗传疾病。vHR品论天涯网

首先，查看用于训练模型的数据集和用于评估模型的评分器，Justin团队收集了一个包含大约1，100个示例的数据集，训练数据集只是JSON-L文件，文件中的每一行都是你希望模型在其上进行训练的示例。此外，演示中还上传了验证数据。vHR品论天涯网

“验证数据集和训练数据集之间在正确基因方面没有重叠。这意味着模型不能作弊，或者它不能学会仅仅记住症状列表并将其与基因关联起来，它必须从训练数据集泛化到验证数据集。“OpenAI研究院JohnAllard解释道。vHR品论天涯网

vHR品论天涯网

然后，在OpenAI的训练基础设施上启动一个训练作业。在网页界面可选择训练集和验证集，并进行相应配置即可。vHR品论天涯网

vHR品论天涯网

最后评估生成的微调模型，以便可以看到它比开始使用的基础模型改进了多少。评分器功能很简单，就是获取模型的输出和正确答案，对其进行比较，然后返回一个介于0和1之间的分数。0表示模型根本没有得到正确答案，1表示模型得到了正确答案。vHR品论天涯网

vHR品论天涯网

Allard表示，强化微调可能需要几个小时到几天的时间才能运行完成，因此他展示了此前相同数据集上运行的结果。模型给出的是最有可能的候选基因也是TSC2，正确答案也确实如此，因此，模型能够在topat1、topat5和topatmax上都通过。vHR品论天涯网

vHR品论天涯网

此外微调过程中，还可以观察模型性能指标的变化趋势：vHR品论天涯网

vHR品论天涯网

测试中，OpenAI设置了三个不同模型的运行：第一个是针对昨天发布的o1模型，第二个是针对o1mini，最后是强化微调后的o1mini。可以看到，o1mini在大约200个数据集上获得了17%的得分，o1做得更好，获得了25%，而微调后的o1mini获得了31%的得分。vHR品论天涯网

vHR品论天涯网

结束语vHR品论天涯网

OpenAI的12天活动周末暂停。并不是每项公告都会轰动一时，OpenAI自己也表示，可以期待“大大小小的”新事物。vHR品论天涯网

以下是外媒列出的一些在下周活动中可以看到的内容（其中还会有一些惊喜）：Sora-ai视频生成、Canvas更新（可能包括图像）、GPT-4o视频分析、GPT-4o图像生成、高级语音与视频等。vHR品论天涯网

vHR品论天涯网

奥特曼在Twitter上与网友的互动，似乎暗示了接下来的10场直播会报告Sora的最新动态。vHR品论天涯网

OpenAI狂飙突进：仅12个例子就能打造专属AI专家 核心技术竟来自字节？

OpenAI狂飙突进：仅12个例子就能打造专属AI专家核心技术竟来自字节？