OpenAI直播发布第9天o1API正式发布实时API升级偏好微调PFT

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“ 外挂 ”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于 AI科普 , AI工具测评 , AI效率提升 , AI行业洞察 。关注我,AI之路不迷路,2024我们一起变强。

今天是OpenAI连续12天直播发布会的 第9天 。关于OpenAI本次的宣传“噱头”详情,可以看我这篇文章: 活动预告:明天起OpenAI将开启连续12天的直播发布!

本系列将在每个工作日持续更新,为小伙伴们带来第一手的更新解读,敬请关注。

一图看懂今天的发布

小火箭shadowrocket

接下来正文开始。

Day 9 发布内容

今天OpenAI的发布是一个 DevDay ,顾名思义,是面向开发者的发布。

小火箭shadowrocket

一般来说,面向开发者的发布内容逃不过三个“更”: 更好的模型API , 更低的调用价格 , 更新的技术 。今天也不例外,这三点都有。

更好的模型API 包括2个:正式推出 满血版 o1 模型API ,和全面升级的 实时API 。

更低的调用价格 :实时API的价格大幅降低,比如 gpt-4o-realtime-preview-2024-12-17 音频token价格降低60%。

更新的技术 :正式推出 偏好微调(Preference Fine-Tuning) 技术,基于直接偏好优化(DPO)算法,通过比较模型生成的不同响应,学习人类偏好,而非依赖于精确的输入-输出对,达到 根据用户和开发者偏好优化模型表现 的效果。

o1模型正式在API中推出

满血版本的推理模型 o1 最初发布于OpenAI直播发布活动的首日,即12月5日。但当时发布的是 o1 的应用版本,即集成进ChatGPT,可以给C端用户直接使用的版本。

今天发布的则是满血版 o1 模型的API版本。API版本主要面向开发者或者有一定动手能力的小伙伴。

o1模型API核心功能

函数调用(Function Calling):

函数调用功能允许 o1 模型与外部API和数据源进行交互,自动选择正确函数并执行任务。比如在今天demo中的税表演示中, o1 能够调用外部税率查询函数,这展示了 o1 模型与现实世界系统集成的能力。

结构化输出(Structured Outputs):

支持输出符合自定义JSON Schema的结果,保证结果格式一致,便于开发者集成。

开发者消息(Developer Messages):

新型系统消息,开发者可精确控制 o1 模型的行为,例如指定语气、风格或上下文顺序。有点类似于系统提示词。

推理参数控制( reasoning_effort ):

这是 o1 这样的推理模型独有的参数,用来控制 o1 模型的推理时间,在简单任务中节省成本,在复杂任务中提升效果。

视觉输入(Vision):

o1 模型支持图片输入,用于错误检测、科学分析等多种场景。

延迟大幅降低:

o1 比预览版减少60%推理token数消耗,从而使响应速度更快、成本更低。

o1模型API基准测试表现

当前的满血版 o1 模型调用名为 o1-2024-12-17 。下面是满血版 o1 API和之前的预览版本API的基准测试性能表现对比。

Category

Eval

o1-2024-12-17

o1-preview

General

GPQA diamond

75.7

73.3

MMLU (pass @1)

91.8

90.8

Coding

SWE-bench Verified

48.9

41.3

LiveCodeBench

76.6

52.3

Math

MATH (pass @1)

96.4

85.5

AIME 2024 (pass @1)

79.2

42.0

MGSM (pass @1)

89.3

90.8

Vision

MMMU (pass @1)

77.3

MathVista (pass @1)

71.0

Factuality

SimpleQA

42.6

42.4

Agents

TAU-bench (retail)

73.5

TAU-bench (airline)

54.2

小火箭shadowrocket

同时,在demo里OpenAI的研究人员展示了 o1-2024-12-17 在函数调用和结构化输出方面要明显优于上一个版本 o1-preview 。

o1模型API谁能用?

o1-2024-12-17 将会优先向账号使用级别为第5层(usage tier 5)的开发者访问,符合条件的用户将收到OpenAI的邮件通知。OpenAI官方表示,预计需要几周时间才能覆盖所有Tier 5用户。言外之意: 还得等 。

o1模型API价格

满血版 o1 的API价格和预览版本相同,输入token的价格为15美元每百万tokens,输出token的价格为60美元每百万tokens。算是比较贵,但考虑到其优秀的推理能力,如果真有这方面的需求, o1 API也算是贵在点上了。

小火箭shadowrocket

作为对比,附上 GPT-4o 模型API的价格,输入token的价格为2.5美元每百万tokens,输出token的价格为10美元每百万tokens。输入和输出token价格均为 o1 的 六分之一 。

小火箭shadowrocket

实时API全面升级

实时API(Realtime API) 让开发者能够创建低延迟、自然流畅的交互体验,非常适用于语音助手、实时翻译工具、虚拟导师、语音客服,甚至是自定义的虚拟助手(比如“虚拟圣诞老人”)。可以简单理解为ChatGPT里高级语音模式的API版本,可以通过实时API自行创建高级语音模式。

WebRTC集成

对于实时API,今天最为重磅的发布无疑是引入了 WebRTC 的支持。WebRTC是一种开放标准,无论是基于浏览器的应用、移动端App、物联网设备,还是服务器到服务器的直接通信,WebRTC都能够简化跨平台实时语音产品的构建与扩展。

WebRTC集成 旨在确保在真实世界网络条件下提供流畅且响应迅速的交互体验,即使网络质量不稳定也能轻松应对。它处理的核心功能包括:音频编码与流传输、噪音抑制以及网络拥塞控制。

通过WebRTC集成,开发者只需 12行JavaScript代码 就可以轻松添加实时语音功能,这也是今天的demo中展示的代码。

async function createRealtimeSession(localStream, remoteAudioEl, token) {    const pc = new RTCPeerConnection();    pc.ontrack = e => remoteAudioEl.srcObject = e.streams[0];    pc.addTrack(localStream.getTracks()[0]);    const offer = await pc.createOffer();    await pc.setLocalDescription(offer);    const headers = { Authorization: `Bearer ${token}`, 'Content-Type': 'application/sdp' };    const opts = { method: 'POST', body: offer.sdp, headers };    const resp = await fetch('https://api.openai.com/v1/realtime', opts);    await pc.setRemoteDescription({ type: 'answer', sdp: await resp.text() });    return pc;}

实时API价格

目前实时API提供 GPT-4o 和 GPT-4o mini 2个版本。其中, GPT-4o 实时API的最新版本名为 gpt-4o-realtime-preview-2024-12-17 ,价格得到了大幅降低,每百万输入和输出tokens价格分别是40和80美元,而在这之前,实时API的价格为100和200美元,本次更新音频token价格降低了60%。

小火箭shadowrocket

同时,今天也发布了实时API的小模型 gpt-4o-mini-realtime-preview-2024-12-17 ,目前是Beta版本,主打质量和成本的平衡。 GPT-4o mini 实时API价格为10美元和20美元,分别对应每百万的输入和输出token。

小火箭shadowrocket

实时API功能增强

并行后台响应(Concurrent out-of-band responses): 支持后台任务(如内容审核或分类)与语音交互并行执行。

自定义输入上下文 (Custom input context): 开发者可以灵活选择模型输入内容,例如仅对用户的最后一次发言进行审核,或重用之前的响应。

响应时机控制(Controlled response timing): 结合服务器端语音活动检测 (VAD),实现更精准的语音回复控制,例如在收集必要信息(如账户详情)后触发语音回复。

最大会话时长(Increased maximum session length): 从15分钟延长至30分钟。

偏好微调(Preference Fine-Tuning)

微调API现已支持 偏好微调(Preference Fine-Tuning) ,使开发者能够根据用户和开发者的偏好轻松定制模型。该方法使用 直接偏好优化 (Direct Preference Optimization,DPO),通过比较一对模型响应,教会模型区分 优选 与 非优选 的输出。与基于固定目标学习不同,偏好微调通过 成对比较 的方式进行训练,特别适用于注重语调、风格和创造力等主观性任务。

偏好微调 与传统的 监督微调 的区别可以总结为下表。

监督微调 (SFT)

偏好微调 (PFT)

目标

通过复制标注的输出,鼓励模型生成正确结果

优化模型行为,强化优选响应,减少非优选响应的可能性

训练数据

精确配对的输入和输出

优选和非优选模型输出的成对数据,通过人工标注、A/B 测试或合成数据生成

适用场景

适用于易于准备理想输出的任务,如定制代码格式,且需要严格的正确性

适用于“更好”响应带有主观性的任务,如创意写作或摘要任务

OpenAI表示已经与一些受信任的合作伙伴测试了偏好微调这一技术。例如, Rogo AI 正在开发一款面向金融分析师的AI助手,该助手将复杂的查询拆分为子查询。在他们自行构建的 Rogo-Golden 基准测试中,监督微调在解决分布外查询扩展时遇到了困难(例如,在处理“公司X增长速度如何”这样的查询时,缺失ARR等指标),而偏好微调解决了这些问题,将基准测试的准确率从基础模型的 75 %提升至 80 %以上。

偏好微调支持哪些模型?

偏好微调今天起将优先支持 gpt-4o-2024-08-06 模型,很快也将支持 gpt-4o-mini-2024-07-18 。训练token的价格与监督微调相同,支持更多新模型的更新计划将在明年初推出。

偏好微调怎么用?

偏好微调今天起已开放使用,在OpenAI的开发者后台- Dashboard - Fine-tuning ,新建微调模型, Method 选择“Direct Preference Optimization”即可。

https://platform.openai.com/finetune

小火箭shadowrocket

Day 9 完整版直播视频

OpenAI 12天直播发布回顾

OpenAI于12月5日开启“12天发布季”,本系列将在每个工作日持续更新,为小伙伴们带来第一手的更新解读,敬请关注。

日期

发布关键词

详细解读文章

🌟 Day 1

满血版 o1 · ChatGPT Pro 新套餐

📖 满血版o1,200美元/月的ChatGPT Pro新套餐!

✨ Day 2

强化学习微调 (RFT)

📖 o1+强化学习微调=定制化推理模型!

🎥 Day 3

文生视频模型 Sora

📖 Sora文生视频模型真的来了?!

🖌️ Day 4

ChatGPT Canvas

📖 ChatGPT Canvas全面升级,免费开放!

🍎 Day 5

Apple Intelligence

📖 ChatGPT+Siri=新Apple Intelligence!

🎄 Day 6

视频聊天 · 屏幕共享 · 圣诞模式

📖 ChatGPT视频聊天、屏幕共享和圣诞语音包!

🚀 Day 7

ChatGPT Projects

📖 ChatGPT推出Projects,本周最强功能!

🔍 Day 8

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/393.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>