OpenAI直播发布第2天o1强化学习微调定制化推理模型

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“ 外挂 ”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于 AI科普 , AI工具测评 , AI效率提升 , AI行业洞察 。关注我,AI之路不迷路,2024我们一起变强。

今天是OpenAI连续12天直播发布会的 第2天 。关于OpenAI本次的宣传“噱头”详情,可以看我这篇文章:《 活动预告:明天起OpenAI将开启连续12天的直播发布! 》。

本系列将在每个工作日持续更新,为小伙伴们带来第一手的更新解读,敬请关注。

Day 2 发布内容

如果说OpenAI昨天的发布内容(满血版 o1 模型和新套餐ChatGPT Pro)比较偏向C端(个人用户端),那么今天的发布内容则是更偏向B端(企业端)。

基于昨天正式上线的满血版 o1 模型,OpenAI今天引入了全新的 强化学习微调技术(Reinforcement Fine-Tuning, RFT) 。该技术允许用户基于少量数据,通过 强化学习优化模型的推理能力 ,显著提升其在特定领域(比如编程、金融、法律、医疗和科学研究)的专业表现。

小火箭shadowrocket

强化学习微调 不同于传统的微调方式,它不仅复制输入输出的模式,还通过强化学习算法,提升模型的 推理能力 。该功能目前还处于“画饼”阶段,符合OpenAI一贯的先宣传、后发布的调性。OpenAI官方表示该功能将在 明年年初 正式公开上线,旨在为各行业的复杂任务提供更智能、更高效的解决方案。

对了,同样的,文章后面会附上本场直播发布的完整版视频,感兴趣的小伙伴自行食用。

强化学习微调(RFT)是什么?

传统微调(Supervised Fine-Tuning) 是一种常见的AI模型定制方法,其主要功能是 根据用户提供的数据集调整模型的输出 ,例如改变语气、风格或响应格式。这种方法适用于希望模型更贴合特定使用场景的需求,例如让模型以更加正式的语调回答问题或优化内容结构。然而,传统微调的局限性在于, 它仅能优化模型对已知模式的复制能力,无法显著提升模型在全新领域中进行深度推理的能力 。因此,在需要处理复杂任务或面对全新领域时,传统微调往往显得力不从心。

传统微调工作流程如下图所示。

小火箭shadowrocket

强化学习微调(Reinforcement Fine-Tuning, RFT) 则突破了这一局限。相比传统微调,RFT的核心优势在于,它能够 利用强化学习算法教会模型在特定领域中进行复杂推理 。通过分析模型在不同场景下的表现,并对正确的推理路径进行奖励,对错误的推理路径进行惩罚,RFT可以引导模型逐步改进其推理能力。这一过程仅需要 少量的示例 (通常几十个即可),即可显著提升模型的性能。这意味着,无论是在医疗诊断、法律分析还是科学研究等需要深度专业知识的领域,强化学习微调都可以帮助模型快速适应并实现高水平的推理能力,从而满足特定领域的特定需求。

OpenAI透露了与汤森路透的合作,通过RFT微调 o1 模型,成功开发出一款法律领域专用的AI助手,能够帮助法律专业人士高效完成复杂的分析任务。这一技术的应用为专业领域的AI定制化提供了全新的解决方案。

强化学习微调(RFT)如何实现?

工作原理 :

模型接收到问题后,会进行“思考”并给出答案。

通过强化学习算法,系统对模型输出的答案进行评分,奖励正确的推理路径,惩罚错误的推理路径,从而优化模型的推理逻辑。

微调过程 :

数据集格式为JSON,每条记录包含患者症状、指导模型的提示信息、以及参考的正确答案(仅用于训练期间的评分)。

验证数据集与训练数据集无重叠,以测试模型是否具备泛化能力。

微调过程会生成分数曲线,显示模型性能的提升情况。

小火箭shadowrocket

性能提升 :

o1-mini 模型通过RFT微调后,在医学基因预测任务中的表现超越了基础版本的 o1 模型。

验证数据集的奖励分数逐步提高,表明模型不仅记住了训练数据,还学会了更广泛的推理能力。

小火箭shadowrocket

强化学习微调(RFT)应用案例

医学领域的应用 :

与德国Charité医院合作,利用RFT技术,从医学文献中提取罕见病患者的症状及致病基因信息。

微调后的模型能够根据患者症状生成潜在致病基因列表,并解释其推理过程。

任务示例 :

给定患者的病症(如癫痫、皮下结节等),模型输出可能的基因及解释推理路径。

微调模型对复杂的遗传病推理任务的正确率显著提高,并将答案排名更靠前。

强化学习微调(RFT)Alpha测试计划

OpenAI在本次直播发布中宣布启动强化学习微调(RFT)的 Alpha测试计划 ,面向 全球大学、研究机构和企业 开放申请,旨在吸引更多行业专家参与试用,通过强化学习微调技术,扩展模型在不同任务中的能力边界,为复杂问题的解决提供全新思路。

RFT Alpha测试申请链接 :https://openai.com/form/rft-research-program/

此外,OpenAI计划于 明年年初 正式向公众开放RFT功能。

小火箭shadowrocket

Day2 完整版直播视频

关于ChatGPT的小更新

虽然直播发布会上并未提及,但我个人认为值得一提的是ChatGPT的这个UI更新。对于个人用户来说,这个小更新可能比今天的发布内容强化学习微调(RFT)更有意义。

在最新的ChatGPT网页端首页,位于输入框左下角,上传附件按钮和联网搜索按钮之间,新增了一个 工具栏 的图标。

小火箭shadowrocket

该图标为工具栏入口,可以简单理解为 ChatGPT中所有可以调用的工具都整合到了这里 ,包括画图、联网搜索、Canvas等等。

小火箭shadowrocket

Day 1 直播发布回顾

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/405.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>