绝了3分钟我用GLM46V复刻了一个B站首页

小火箭shadowrocket • 2026年1月6日 am7:37 • 小火箭

卧槽！

3 分钟，364 行代码，我用 GLM-4.6V 复刻了一个 B站首页！

上图。

GLM-4.6V 复刻的 B站首页。

导航栏、分类标签、视频卡片，都有。

按钮、布局、配色，几乎是像素级还原。

如果我不说，你可能都以为这就是 B 站真实截图。

怎么实现的？

且听我慢慢道来。

01｜「源」神智谱

上周国产 AI 圈最靓的仔，那必须是：智谱。

叫一声「源」神也不为过。

周一， GLM-4.6V 视觉模型开源。

周二， AutoGLM 手机 Agent 接力。

周三， GLM-ASR 语音识别开源，顺便还发布了智谱 AI 输入法。

周四， GLM-TTS 语音合成开源，3 秒复刻任意声音。

周五收官，一口气开源了四项视频生成核心技术： SCAIL 、 RealVideo 、 Kaleido 和 SSVAE 。

5 天，8 个项目，全部开源。

上一个这么猛的，可能还是年初的 DeepSeek。

今天这篇，聚焦开源周的第一枪： GLM-4.6V 。

智谱 GLM-4.6V 视觉模型开源，MIT 协议，支持商用。

因为它做了件以前视觉模型做不到的事。

02｜一边看图，一边执行

2025 年了，视觉模型能看懂图片不是什么新鲜事。

Qwen3-VL-235B 、 Kimi-VL ，都能做到。

但有个问题：看懂了，然后呢？

Bug 还得你自己改，代码还得你自己写。

因为视觉模型最初的使命就是「理解」，不是「执行」。

它们看得懂，但干不了活。

GLM-4.6V 想解决的就是这个：

一边看图，一边执行。

03｜图片进，图片出

图像即参数，结果即上下文。

想让模型干活，得调用外部工具。

传统视觉模型想调用工具，要先把图片转成文字，再投喂给工具。

这中间有个「翻译」过程，信息损失严重。

GLM-4.6V 不一样。

它把图片直接作为参数传给工具，跳过文字中转那一步。

官方叫「原生多模态工具调用」。

什么意思？

举个例子，你让模型搜同款。

传统模型先识别图片内容，生成文字描述，再用文字搜索。

GLM-4.6V 直接把图片给搜索工具，返回商品图，模型继续理解，输出结果。

图片进，图片出。

04｜参数减半，性能持平

GLM-4.6V 有两个版本。

满血版 GLM-4.6V ，106B 参数，激活 12B。对标阿里 235B 参数的 Qwen3-VL-235B 。

参数量只有一半不到，性能基本持平。

轻量版 GLM-4.6V-Flash ，9B 参数。对标同样小参数的 Qwen3-VL-8B ，多项领先。

先来看它在基准测试中的表现。

GLM-4.6V 基准测试成绩，Multimodal Agentic 能力突出。

传统视觉任务，比如 OCR、图表理解， GLM-4.6V 和 Qwen3-VL-235B 打得有来有回。

但在 Multimodal Agentic，差距就拉开了。

Flame-React-Eval 测试「看图写 React 代码」的能力， GLM-4.6V 得分 86.3， Qwen3-VL-235B 只有 73.8。

这，就是原生工具调用的优势。

05｜实战测试：复刻 B站首页

是骡子是马，拉出来遛遛。

打开 z.ai ，左上角模型选择 GLM-4.6V 。

上传这张 B站首页截图。

B站首页截图。

输入提示词。

复刻这个页面，使用 HTML + Tailwind CSS，尽可能还原布局和样式。图片不要用占位符，根据内容搜索合适的图片素材填充。

上传截图，输入提示词，开始复刻。

30 秒， GLM-4.6V 做出第一版。

我当场一句「卧槽」脱口而出。

整体布局是对的，视频卡片、播放量、弹幕数也都有，连 UP 信息都在。

而且，它还真去搜图了，不是灰色占位符。

one shot 能有这样的效果，太顶了！

https://chat.z.ai/space/q0fjtaaqduv1-art

one shot 第一版：整体布局对了。

当然，不完美。

顶部 Banner 没有背景图，导航栏菜单挤成两行，分类标签也有点乱。

那就改吧。

把导航栏截图给 GLM-4.6V ，附一句：

顶部 Banner 是一张横幅背景图，导航栏叠加在图片上方，保持透明底。菜单项改成单行横排，不要换行。参考原图布局。

Banner 有了，导航栏改了。

味对了！

https://chat.z.ai/space/g00j1ayppzv0-art

第二版：优化了 Banner 和导航栏。

还剩分类标签区域不太协调。

继续截图，然后说：

参考原图，继续优化中间位置的分类区域样式。

几轮下来，就有了文章开头那个效果。

导航栏、分类标签、轮播图、视频卡片，布局对齐。

甚至连轮播图的切换按钮都是可点击的。

https://chat.z.ai/space/w0mjmawtxjs0-art

最终版：导航栏、分类标签、视频卡片，布局对齐。

不能说完美，但拿去当原型图，足够了。

原生工具调用的实力，恐怖如斯。

06｜怎么用 GLM-4.6V？

在线用， z.ai ，选 GLM-4.6V 就行。

上面的实测就是在这里做的。

API，满血版 GLM-4.6V 定价输入 1 元/百万 tokens，输出 3 元/百万 tokens。

小声逼逼，Flash 版 API 免费，智谱还是太良心了。

相比于单独调用，更推荐 GLM 的「 Coding Plan 」。

模型好。

GLM-4.6 本身就是国产模型第一梯队，开源 SOTA。

作为 Claude 的国产平替，够格。

便宜大碗。

最低的 Lite 套餐首月 20 块，注意，是人民币。

官方说额度是 Claude Pro 套餐的 3 倍。

GLM Coding Plan 三档套餐，Lite 版首月 20 元。

更更更重要的，智谱把 GLM-4.6V 的视觉能力封装成了 MCP Server。

解决了之前没有多模态的尴尬。

现在的 GLM，可以联网，有视觉能力，能爬网页，体验可以说飞起。

Claude Code、Cline、Roo Code、Kilo，都能用。

卷的不行。

结语

GLM-4.6V 开源，视觉模型终于能「干活」了。

5 天，8 个项目，全开源。

智谱这波，有点猛。

版权声明：
作者：小火箭shadowrocket
链接：https://www.shadowrocket888.vip/51.html
来源：小火箭官网
文章版权归作者所有，未经允许请勿转载。

THE END

小火箭小火箭下载小火箭加速小火箭加速器小火箭官网小火箭节点

二维码

2025年2月AI应用排名DeepSeek挺进全球TOP3第二名你绝对想不到

< <上一篇

Gemini3还没出GPT6就要来了

下一篇>>

搜索内容

绝了3分钟我用GLM46V复刻了一个B站首页

取消回复

共有 0 条评论

小火箭高速节点推荐

标签

热门文章