绝了3分钟我用GLM46V复刻了一个B站首页
卧槽!
3 分钟,364 行代码,我用 GLM-4.6V 复刻了一个 B站首页!
上图。
GLM-4.6V 复刻的 B站首页。
导航栏、分类标签、视频卡片,都有。
按钮、布局、配色,几乎是像素级还原。
如果我不说,你可能都以为这就是 B 站真实截图。
怎么实现的?
且听我慢慢道来。
01|「源」神智谱
上周国产 AI 圈最靓的仔,那必须是: 智谱。
叫一声「源」神也不为过。
周一, GLM-4.6V 视觉模型开源。
周二, AutoGLM 手机 Agent 接力。
周三, GLM-ASR 语音识别开源,顺便还发布了智谱 AI 输入法。
周四, GLM-TTS 语音合成开源,3 秒复刻任意声音。
周五收官,一口气开源了四项视频生成核心技术: SCAIL 、 RealVideo 、 Kaleido 和 SSVAE 。
5 天,8 个项目,全部开源。
上一个这么猛的,可能还是年初的 DeepSeek。
今天这篇,聚焦开源周的第一枪: GLM-4.6V 。
智谱 GLM-4.6V 视觉模型开源,MIT 协议,支持商用。
因为它做了件以前视觉模型做不到的事。
02|一边看图,一边执行
2025 年了,视觉模型能看懂图片不是什么新鲜事。
Qwen3-VL-235B 、 Kimi-VL ,都能做到。
但有个问题:看懂了,然后呢?
Bug 还得你自己改,代码还得你自己写。
因为视觉模型最初的使命就是「理解」,不是「执行」。
它们看得懂,但干不了活。
GLM-4.6V 想解决的就是这个:
一边看图,一边执行。
03|图片进,图片出
图像即参数,结果即上下文。
想让模型干活,得调用外部工具。
传统视觉模型想调用工具,要先把图片转成文字,再投喂给工具。
这中间有个「翻译」过程,信息损失严重。
GLM-4.6V 不一样。
它把图片直接作为参数传给工具,跳过文字中转那一步。
官方叫「 原生多模态工具调用 」。
什么意思?
举个例子,你让模型搜同款。
传统模型先识别图片内容,生成文字描述,再用文字搜索。
GLM-4.6V 直接把图片给搜索工具,返回商品图,模型继续理解,输出结果。
图片进,图片出。
04|参数减半,性能持平
GLM-4.6V 有两个版本。
满血版 GLM-4.6V ,106B 参数,激活 12B。对标阿里 235B 参数的 Qwen3-VL-235B 。
参数量只有一半不到,性能基本持平。
轻量版 GLM-4.6V-Flash ,9B 参数。对标同样小参数的 Qwen3-VL-8B ,多项领先。
先来看它在基准测试中的表现。
GLM-4.6V 基准测试成绩,Multimodal Agentic 能力突出。
传统视觉任务,比如 OCR、图表理解, GLM-4.6V 和 Qwen3-VL-235B 打得有来有回。
但在 Multimodal Agentic,差距就拉开了。
Flame-React-Eval 测试「看图写 React 代码」的能力, GLM-4.6V 得分 86.3, Qwen3-VL-235B 只有 73.8。
这,就是原生工具调用的优势。
05|实战测试:复刻 B站首页
是骡子是马,拉出来遛遛。
打开 z.ai ,左上角模型选择 GLM-4.6V 。
上传这张 B站首页截图。
B站首页截图。
输入提示词。
复刻这个页面,使用 HTML + Tailwind CSS,尽可能还原布局和样式。图片不要用占位符,根据内容搜索合适的图片素材填充。
上传截图,输入提示词,开始复刻。
30 秒, GLM-4.6V 做出第一版。
我当场一句「卧槽」脱口而出。
整体布局是对的,视频卡片、播放量、弹幕数也都有,连 UP 信息都在。
而且,它还真去搜图了,不是灰色占位符。
one shot 能有这样的效果,太顶了!
https://chat.z.ai/space/q0fjtaaqduv1-art
one shot 第一版:整体布局对了。
当然,不完美。
顶部 Banner 没有背景图,导航栏菜单挤成两行,分类标签也有点乱。
那就改吧。
把导航栏截图给 GLM-4.6V ,附一句:
顶部 Banner 是一张横幅背景图,导航栏叠加在图片上方,保持透明底。菜单项改成单行横排,不要换行。参考原图布局。
Banner 有了,导航栏改了。
味对了!
https://chat.z.ai/space/g00j1ayppzv0-art
第二版:优化了 Banner 和导航栏。
还剩分类标签区域不太协调。
继续截图,然后说:
参考原图,继续优化中间位置的分类区域样式。
几轮下来,就有了文章开头那个效果。
导航栏、分类标签、轮播图、视频卡片,布局对齐。
甚至连轮播图的切换按钮都是可点击的。
https://chat.z.ai/space/w0mjmawtxjs0-art
最终版:导航栏、分类标签、视频卡片,布局对齐。
不能说完美,但拿去当原型图,足够了。
原生工具调用的实力,恐怖如斯。
06|怎么用 GLM-4.6V?
在线用, z.ai ,选 GLM-4.6V 就行。
上面的实测就是在这里做的。
API,满血版 GLM-4.6V 定价输入 1 元/百万 tokens,输出 3 元/百万 tokens。
小声逼逼,Flash 版 API 免费,智谱还是太良心了。
相比于单独调用,更推荐 GLM 的「 Coding Plan 」。
模型好。
GLM-4.6 本身就是国产模型第一梯队,开源 SOTA。
作为 Claude 的国产平替,够格。
便宜大碗。
最低的 Lite 套餐首月 20 块,注意,是人民币。
官方说额度是 Claude Pro 套餐的 3 倍。
GLM Coding Plan 三档套餐,Lite 版首月 20 元。
更更更重要的,智谱把 GLM-4.6V 的视觉能力封装成了 MCP Server。
解决了之前没有多模态的尴尬。
现在的 GLM,可以联网,有视觉能力,能爬网页,体验可以说飞起。
Claude Code、Cline、Roo Code、Kilo,都能用。
卷的不行。
结语
GLM-4.6V 开源,视觉模型终于能「干活」了。
5 天,8 个项目,全开源。
智谱这波,有点猛。
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/51.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论