OpenAI直播发布第2天o1强化学习微调定制化推理模型

小火箭shadowrocket • 2026年1月30日 am7:37 • 小火箭

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“ 外挂 ”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于 AI科普， AI工具测评， AI效率提升， AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

今天是OpenAI连续12天直播发布会的第2天。关于OpenAI本次的宣传“噱头”详情，可以看我这篇文章：《活动预告：明天起OpenAI将开启连续12天的直播发布！》。

本系列将在每个工作日持续更新，为小伙伴们带来第一手的更新解读，敬请关注。

Day 2 发布内容

如果说OpenAI昨天的发布内容（满血版 o1 模型和新套餐ChatGPT Pro）比较偏向C端（个人用户端），那么今天的发布内容则是更偏向B端（企业端）。

基于昨天正式上线的满血版 o1 模型，OpenAI今天引入了全新的强化学习微调技术（Reinforcement Fine-Tuning, RFT）。该技术允许用户基于少量数据，通过强化学习优化模型的推理能力，显著提升其在特定领域（比如编程、金融、法律、医疗和科学研究）的专业表现。

强化学习微调不同于传统的微调方式，它不仅复制输入输出的模式，还通过强化学习算法，提升模型的推理能力。该功能目前还处于“画饼”阶段，符合OpenAI一贯的先宣传、后发布的调性。OpenAI官方表示该功能将在明年年初正式公开上线，旨在为各行业的复杂任务提供更智能、更高效的解决方案。

对了，同样的，文章后面会附上本场直播发布的完整版视频，感兴趣的小伙伴自行食用。

强化学习微调（RFT）是什么？

传统微调（Supervised Fine-Tuning）是一种常见的AI模型定制方法，其主要功能是根据用户提供的数据集调整模型的输出，例如改变语气、风格或响应格式。这种方法适用于希望模型更贴合特定使用场景的需求，例如让模型以更加正式的语调回答问题或优化内容结构。然而，传统微调的局限性在于，它仅能优化模型对已知模式的复制能力，无法显著提升模型在全新领域中进行深度推理的能力。因此，在需要处理复杂任务或面对全新领域时，传统微调往往显得力不从心。

传统微调工作流程如下图所示。

强化学习微调（Reinforcement Fine-Tuning, RFT）则突破了这一局限。相比传统微调，RFT的核心优势在于，它能够利用强化学习算法教会模型在特定领域中进行复杂推理。通过分析模型在不同场景下的表现，并对正确的推理路径进行奖励，对错误的推理路径进行惩罚，RFT可以引导模型逐步改进其推理能力。这一过程仅需要少量的示例（通常几十个即可），即可显著提升模型的性能。这意味着，无论是在医疗诊断、法律分析还是科学研究等需要深度专业知识的领域，强化学习微调都可以帮助模型快速适应并实现高水平的推理能力，从而满足特定领域的特定需求。

OpenAI透露了与汤森路透的合作，通过RFT微调 o1 模型，成功开发出一款法律领域专用的AI助手，能够帮助法律专业人士高效完成复杂的分析任务。这一技术的应用为专业领域的AI定制化提供了全新的解决方案。

强化学习微调（RFT）如何实现？

工作原理：

模型接收到问题后，会进行“思考”并给出答案。

通过强化学习算法，系统对模型输出的答案进行评分，奖励正确的推理路径，惩罚错误的推理路径，从而优化模型的推理逻辑。

微调过程：

数据集格式为JSON，每条记录包含患者症状、指导模型的提示信息、以及参考的正确答案（仅用于训练期间的评分）。

验证数据集与训练数据集无重叠，以测试模型是否具备泛化能力。

微调过程会生成分数曲线，显示模型性能的提升情况。

性能提升：

o1-mini 模型通过RFT微调后，在医学基因预测任务中的表现超越了基础版本的 o1 模型。

验证数据集的奖励分数逐步提高，表明模型不仅记住了训练数据，还学会了更广泛的推理能力。

强化学习微调（RFT）应用案例

医学领域的应用：

与德国Charité医院合作，利用RFT技术，从医学文献中提取罕见病患者的症状及致病基因信息。

微调后的模型能够根据患者症状生成潜在致病基因列表，并解释其推理过程。

任务示例：

给定患者的病症（如癫痫、皮下结节等），模型输出可能的基因及解释推理路径。

微调模型对复杂的遗传病推理任务的正确率显著提高，并将答案排名更靠前。

强化学习微调（RFT）Alpha测试计划

OpenAI在本次直播发布中宣布启动强化学习微调（RFT）的 Alpha测试计划，面向全球大学、研究机构和企业开放申请，旨在吸引更多行业专家参与试用，通过强化学习微调技术，扩展模型在不同任务中的能力边界，为复杂问题的解决提供全新思路。

RFT Alpha测试申请链接：https://openai.com/form/rft-research-program/

此外，OpenAI计划于明年年初正式向公众开放RFT功能。

Day2 完整版直播视频

关于ChatGPT的小更新

虽然直播发布会上并未提及，但我个人认为值得一提的是ChatGPT的这个UI更新。对于个人用户来说，这个小更新可能比今天的发布内容强化学习微调（RFT）更有意义。

在最新的ChatGPT网页端首页，位于输入框左下角，上传附件按钮和联网搜索按钮之间，新增了一个工具栏的图标。

该图标为工具栏入口，可以简单理解为 ChatGPT中所有可以调用的工具都整合到了这里，包括画图、联网搜索、Canvas等等。

Day 1 直播发布回顾

版权声明：
作者：小火箭shadowrocket
链接：https://www.shadowrocket888.vip/405.html
来源：小火箭官网
文章版权归作者所有，未经允许请勿转载。

THE END

小火箭小火箭下载小火箭加速小火箭加速器小火箭官网小火箭节点

二维码

20分钟23页股票分析报告我的Manus体验全记录

< <上一篇

OpenAI上新轻量版DeepResearchGPT4o再升级o3限额翻倍AIWe

下一篇>>

搜索内容

OpenAI直播发布第2天o1强化学习微调定制化推理模型

取消回复

共有 0 条评论

小火箭高速节点推荐

标签

热门文章