Mistral 发布 Devstral2 开源编程模型:1230 亿参数,成本仅 Claude Sonnet 1/7
Mistral AI 近日正式发布第二代开源代码模型系列,包括旗舰模型 Devstral2(1230亿参数)和轻量版 Devstral Small2(240亿参数)。旗舰模型在 SWE-Bench Verified 基准测试中获得72.2%的得分,刷新开源代码模型最好成绩。官方表示,其成本效益“比 Claude Sonnet 低7倍”,并同步开源命令行工具 Mistral Vibe,支持通过自然语言批量修改代码。两款模型均已开放 API,Devstral2 定价为每百万输入 Token 0.40美元,轻量版则完全免费。
模型概览:一大一小,开源双线布局
性能方面,Devstral2 在 HumanEval 上的 Pass@1 得分达到84.1%,领先同类开源模型约6–8个百分点。据 Mistral AI 说明,该模型在代码生成任务中与 GPT-4-Turbo(73.2%)仅差1个百分点,但成本仅为后者的约五分之一。
开源工具:Mistral Vibe —— 自然语言驱动代码批量修改
该工具允许开发者通过一句自然语言指令(如“将所有函数改为异步”)跨文件自动重构代码,支持 diff 预览与回滚操作。其引擎基于本地运行的 Devstral Small2(Apache 2.0 协议),无需联网即可使用。VS Code 插件也已上线,可一键修复 ESLint 报错或自动生成单元测试。
商业策略:轻量版免费+旗舰版API,分级收费
- Devstral Small2 采用 Apache 2.0 协议,支持商业使用、微调与嵌入部署。
- Devstral2 使用修改版 MIT 协议,对月收入超过2000万美元的企业要求购买商业许可或通过官方 API 调用。
- API 价格定为:输入每百万 Token 0.40美元,输出每百万 Token 1.20美元;新用户可获首月100万 Token 免费额度。
行业意义:开源代码模型迈入“70分+”阶段
2024年以来主流开源代码模型在 SWE-Bench 中的得分普遍处于50%–60%区间,Devstral2 将这一标杆提升至72%以上。其“低成本+高性能”组合预计将对 GitHub Copilot、Cursor 等付费代码助手构成价格竞争。而完全免费的轻量版有望推动本地化 AI 编程工具普及,开发者使用 RTX 4090 级别显卡即可流畅运行 24B 规模模型。
后续规划:2025年发展路线图
- 2025Q1:发布 Devstral2 的 INT4 量化版本,支持在单张 A100 上运行;推出适配 Jetson Orin 等边缘设备的部署包。
- 2025Q2:开放 128K 上下文版本,支持整库代码及文档作为提示词输入。
- 2025Q3:上线“Vibe Cloud”服务,支持在浏览器中通过自然语言重构整个代码项目,按项目计费。
总结
当代码生成模型性能突破70分关口,竞争焦点已从“能力领先”转向“成本与合规优势”。Devstral2 以每百万 Token 0.40美元的定价压低商用门槛,同时通过协议约束防止大企业无偿使用;轻量版则以完全开源策略抢占本地开发场景。对开发者而言,“免费轻量版+低成本旗舰版”的组合,使得本地编码与云端重型任务得以兼顾,有望减少对 Copilot 等订阅服务的依赖。AIbase 将持续关注其量化版本与长上下文支持的发布进展。