智谱开源 GLM-4.6V 系列:106B 原生支持 Function Call,轻量版 9B 免费商用

AI行业资讯5小时前更新 墨白
7.8K 0 0

智谱正式并上线开源 GLM-4.6V 多模态大模型系列,含基础版 GLM-4.6V(总参106B,激活12B)与轻量版 GLM-4.6V-Flash(9B)。新模型将上下文窗口提升至128k tokens,视觉理解精度达同参数 SOTA,首次把 Function Call 能力原生融入视觉模型,打通「视觉感知 → 可执行行动」完整链路。 API 价格较 GLM-4.5V 下降50%,输入1元 / 百万 tokens、输出3元 / 百万 tokens;GLM-4.6V-Flash 完全免费,已集成 GLM Coding Plan 与专用 MCP 工具,开发者可零成本商用。

技术亮点:128k 多图长文 + 原生视觉 Function Call

128k 多模态上下文:单轮可输入30张高分辨率图片 +8万字文本,在 Video-MME、MMBench-Video 等长视频理解基准中取得 SOTA

原生 Function Call:视觉信号直接映射为可执行 API,无需额外 Projector,延迟降低37%,成功率提升18%

统一编码:图像、视频、文本共用一套 Transformer,推理时动态路由,显存占用下降30%

价格与授权:轻量版免费,基础版腰斩

GLM-4.6V-Flash(9B):0元调用,开放权重与商用 License,适合边缘设备与 SaaS 集成

GLM-4.6V(106B-A12B):输入1元 / 百万 tokens、输出3元 / 百万 tokens,约为 GPT-4V 的1/4

降价50%:相比 GLM-4.5V 整体下调50%,并赠送100万 tokens 试用额度

开发者工具:MCP + Coding Plan 一键接入

专用 MCP(Model-Context-Protocol)工具:10行代码即可把 GLM-4.6V 接入 VS Code、Cursor,实现“框选 UI→自动生成前端代码”

GLM Coding Plan:提供50+ 场景模板(网页、小程序、脚本),视觉需求→可执行代码→自动部署

在线 Playground:支持拖拽图片、实时调试 Function Call,一键导出 Python/Node.js 调用片段

基准成绩:同参数 SOTA,长视频理解领先

| 基准                    | GLM-4.6V | GPT-4V | Gemini1.5Pro |

| ——————— | ——– | —— | ————– |

| Video-MME             |74.8     |69.1   |72.9           |

| MMBench-Video         |82.1     |78.4   |80.6           |

| LongVideoBench (128k) |65.3     |58.2   |62.1           |

商用场景与案例

影视预览:导演上传角色图+分镜,自动输出30秒预览视频,主体一致性>96%

工业检测:拍摄设备面板→自动识别异常区域→调用维修 API 创建工单

教育课件:教师框选课本插图→生成3D 动画+语音讲解,一键导出 PPT

开放路线

今日起:权重、推理代码、MCP 工具已在 GitHub 与 Hugging Face 开源(搜索 GLM-4.6V)

2025Q1:发布1M context 版本与端侧 INT4量化模型,可在笔记本 CPU 运行

2025Q2:推出「视觉 Agent Store」,开发者可上架自定义 Function Call,按调用分成

行业观察

当多模态仍停留在“看得懂”阶段时,智谱把「看得懂 + 做得出」塞进一条模型:Function Call 原生集成,让图片直接触发 API,省去视觉→文本→Prompt 的冗余链路。免费9B 版本降低尝鲜门槛,106B 基础版价格腰斩,意在快速抢占视觉 Agent 生态。随着128k 长视频理解落地,影视、工业、教育等垂直场景有望率先规模化落地。AIbase 将持续跟踪其端侧量化与 Agent Store 进展。

© 版权声明

相关文章