公众号聊天机器人再升级集成o1mini推理模型
大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“ 外挂 ”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于 AI科普 , AI工具测评 , AI效率提升 , AI行业洞察 。关注我,AI之路不迷路,2024我们一起变强。
今天是2024年12月23日,距离架设微信公众号机器人已将近1年。
2024年1月31日,抱着尝试的心态给“AI信息Gap”这个刚出生不久的公众号接入了AI大模型,让它 在这个文字和数字的世界有了“生命” 。
第一版本接入的是谷歌Gemini Pro模型,是的,当时的Gemini模型也才发布不久,还叫这个名字,其实本质上应该是 Gemini 1.0 Pro 。

那会的Gemini由于中文训练数据的影响,还会犯迷糊,说自己是百度开发的。放一张经典考古图。

接下来的故事就是半年后了。7月28日,随着 GPT-4o mini 模型的强势发布,我也萌生了给公众号聊天机器人换引擎的想法,毕竟当时的 GPT-4o mini 兼具了成本和回答质量。

再接下来,直到昨天,公众号聊天机器人的核心依旧是 GPT-4o mini 模型。期间出过一些问题,比如API Key超限额,比如并发用户过多把服务器搞瘫痪了,但好在都一一解决了。
整个服务自然也都是 免费提供 的,所有的服务器资源和API Key都是自费从官方渠道购入。最初的想法就是带小伙伴们 方便的体验不同的AI模型 ,这个初心至今也没有变过。
而今天,“ AI信息Gap ”的这个数字生命再次迎来了升级,所集成的模型已于北京时间12月24日0点左右替换为了 OpenAI的推理小模型 o1-mini 。更新的这个时间点可能有小伙伴正在聊天,但本次更新必须要切断服务然后重启,导致了10分钟左右的服务中断,各位小伙伴请悉知。
o1-mini 的能力自然是要比原来的 GPT-4o mini 上了一个等级,最重要的特点是 会“思考” 。对于你提出的问题,作为一个推理模型, o1-mini 会先自行思考,然后再回答,能有效提高输出结果的质量。 o1-mini 的推理表现可以看下面这张图:在中等推理成本下达到了较高的数学性能(约60%-70%的AIME得分)。

“AI信息Gap”实测
接下来实测一下“AI信息Gap”(以下简称Gap)的表现。
先来一个经典起手问题,比较带小数点的数字大小。
9.9和9.11哪个大?为什么?
完美通过,可以看出来,推理思路很清晰,完全正确。

接下来是经典的“草莓问题”。
Strawberry一词中有多少个字母“r”?
so easy,完美通过,并且准确指出了字母r出现的位置。

继续来一道复杂数学计算问题。
计算388乘以8899的结果。
Gap的回答出人意料的正确。这种数学计算对于通用模型来说还是有难度的,Gap的解答过程中其实是用了推理技巧,把8899拆分开来计算。

接下来测试一道之前测试其他模型用到的经典逻辑推理问题。
三个囚犯 A、B 和 C,分别戴着红帽或蓝帽(但无法看到自己的帽子)。守卫说:“至少有一个囚犯戴着红帽。” A 说:“我不知道我的帽子颜色。” B 说:“我也不知道。” C 说:“我知道了。” 问 C 的帽子是什么颜色?
Gap继续完美通过测试,整个推理过程也准确无误。

一些注意事项
由于 o1-mini 加入了思考过程, 回复速度会受到影响 ,耐心等待即可。如果出现“【正在思考中,回复任意文字尝试获取回复】”,这是微信订阅号对于回复长度的限制,此时回复任意文字、数字、字符就行。
切记,千万不要输入任何个人信息、敏感信息、机密信息。对于AI大模型来说,信息泄露是分分钟的事。
o1-mini 的智商足够完成95%的日常任务,比如讲解新知识,翻译,写日报周报和文章,写故事写诗写对联,甚至是闲聊,询问建议,制定规划等等。
凡是回复前面带有“[bot]”这个标识的,均为AI机器人的回复。
如何刷新上下文?用“#reset”命令就可清除当前会话的上下文,重置会话。
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/387.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论