除夕DeepSeek发布全新多模态模型JanusPro新年暴击OpenAI
大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“ 外挂 ”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于 AI科普 , AI工具测评 , AI效率提升 , AI行业洞察 。关注我,AI之路不迷路,2025我们继续出发。
这也许是DeepSeek送给我们所有人的 新年礼物 。
继通用模型 DeepSeek-V3 和推理模型 DeepSeek-R1 后,DeepSeek还在输出。
1月28日,大年二十九,除夕夜,DeepSeek继续“放大招”,发布并开源了 Janus-Pro 系列 多模态模型 ,其中的 Janus-Pro-7B 直接对标OpenAI的 DALL·E 3 和 Stable Diffusion ,并在多项基准测试中实现碾压式超越!《黑神话:悟空》制作人冯骥直呼DeepSeek为“ 国运级科技成果 ”。

Janus-Pro 最最厉害的地方,是它既能 理解多模态类型的输入 ,又能 文生图 。同时兼顾这两个特性且保持高性能,至今没有其他模型能做到。举个例子,强如 GPT-4o 也只能理解图片(多模态能力),没法直接生成图片;OpenAI有专门执行“文生图”的模型,叫 DALL·E 3 。而 Janus-Pro 则是把多模态和文生图融合到了一起。
那么, Janus-Pro 是怎么做到这一点的? Janus-Pro 延续了前代模型 Janus 的架构理念,通过将视觉编码解耦成“ 理解编码器 ”和“ 生成编码器 ”,分别处理 多模态理解 (Multimodal Understanding)和 图片生成 (Text-to-Image Generation)任务。这种解耦方式的好处是 避免了单一编码器在两种任务间的冲突 ,以便同时满足多模态理解和文生图的需求。
在此基础上, Janus-Pro 采用 自回归Transformer (Auto-Regressive Transformer)作为统一处理框架,将 图像特征 和 文本特征 整合为一维序列,投喂给模型进行处理。

除夕夜发布的 Janus-Pro 系列共有2个模型: Janus-Pro-1B 和 Janus-Pro-7B 。下面是这两个模型在 多模态理解 和 图片生成 方面,与其他旗舰模型的基准测试对比。
可以看到,针对多模态理解(左图),这两个模型在相同或更小的参数规模下,碾压式 超越 了所有竞争对手。
而针对文生图能力(右图), Janus-Pro-7B 也 超越 了所有主流扩散模型(如 DALL·E 3 、 Stable Diffusion )。

接下来我们实测一下 Janus-Pro-7B 的真正实力。
Janus-Pro-7B 体验地址
Janus-Pro-7B 体验地址 :https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B
Janus GitHub仓库地址 :https://github.com/deepseek-ai/Janus

Multimodal Understanding 功能实测
DeepSeek官方给的这张示例图“怪”生动形象的。

Janus-Pro-7B 的回答出乎意料的“ 惊艳 ”!
这张图片通过对比两种视觉编码方式,以幽默的方式展示了它们的差异。
左侧的图像标题为“Decoupling Visual Encoding”,旁边是一只肌肉发达的柴犬,象征着强大的视觉编码能力。这表明,这种编码方式能够有效地处理和理解视觉信息,并且具有强大的处理能力。
右侧的图像标题为“Single Visual Encoder”,旁边是一只看起来有些疲惫和沮丧的柴犬,象征着较弱的视觉编码能力。这表明,这种编码方式可能无法有效地处理和理解视觉信息,或者在处理视觉信息时遇到了困难。
总体而言,这张图片通过对比两种视觉编码方式,幽默地展示了它们在处理视觉信息时的差异。

Text-to-Image Generation 功能实测
提示词 :A cute and adorable baby fox with big brown eyes, autumn leaves in the background enchanting,immortal,fluffy, shiny mane,Petals,fairyism,unreal engine 5 and Octane Render,highly detailed, photorealistic, cinematic, natural colors.

附上由 Janus-Pro-7B 生成的这张图片,效果不错。

插一句。
1月28日, DeepSeek 依旧持续遭到大规模网络攻击,据称是“国家级”网络攻击。目前虽然DeepSeek网页端能够正常访问( https://chat.deepseek.com/ ),但其开发者平台页面已无法打开,显示“ 维护中,将尽快恢复服务 ”。


版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/352.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论