24B模型编程超DeepSeek全家桶,32G内存苹果电脑就能跑,专门针对真实GitHub Issue训练

Mistral 沉默好久,果然在憋大招。

刚刚发布最新开源编程模型 Devstral,在软件工程任务上一举超过 DeepSeek 全家桶和 Qwen3 235B。

并且参数只有 24B,可以在单卡 RTX4090 甚至 32G 内存的 Mac 上运行。

Devstral 专为编程智能体推出,解决传统大模型只擅长碎片化的编程任务,难以解决现实世界软件工程的问题。

它针对真实的 GitHub Issue 训练,重点在大型代码库中代码的上下文理解、识别不同组件间的关系,以及识别复杂函数中的细微错误。

在包含 500 个真实 GitHub Issue 问题的 SWE-Bench Verified 基准测试中,Devstral 不仅成为开源 SOTA,还优于许多同等参数规模的闭源模型。

Devstral 由 Mistral AI 和 All Hands AI 合作开发,使用 Apache2.0 开源许可。与上一款代码模型 Codestral 明确禁止 " 员工在公司业务活动中进行任何内部使用 " 相比也更开放了。

这次发布没有配套论文,也没有更多详细的技术介绍,那么效果具体如何,只能看实际测试了。

最新开源代码模型实际表现

合作开发方 All Hands AI 联创分享了 Devestral 给他带来的 " 惊喜时刻 ":

当被要求写一个待办事项列表 APP 时,AI 没有直接开始写,而是询问用户想要使用哪些技术栈。

还有开发者手动为 Devstral 添加了视觉支持,并要求它复刻 Claude 网页版的界面 UI。

虽然结果并不是很出彩,但算是完成了任务。

据这位开发者分析,Devtral 是 Mistral-Small 的微调,不清楚官方为什么把视觉编码器拿掉了,直接加回去就能使用了。

与 All Hands AI 合作开发

合作方 All Hands AI 的口号是 " 少写代码,多做事 ",他们没有开发自己的基础膜,而是专注于构建智能体框架。

Devstral 可与 All Hands AI 的 OpenHands 或 SWE-Agent 等智能体框架配合使用。

OpenHands 智能体框架可以执行人类程序员能做的任何操作,包括修改代码、运行命令、浏览网页、调用 API,甚至可以从 StackOverflow 复制代码片段。

Devestral 目前属于研究预览版状态,团队表示正在努力努力构建一个更强大的代理编码模型,预计将在未来几周内发布。

自去年 4 月推出以来,OpenHands 在 GitHub 上已经积攒了 5 万 + 标星。

参考链接:

[ 1 ] https://mistral.ai/news/devstral

[ 2 ] https://x.com/ngxson/status/1925202510312067494

—  完  —

 量子位 AI 主题策划正在征集中!欢迎参与专题365 行 AI 落地方案,一千零一个 AI 应用,或与我们分享你在寻找的 AI 产品,或发现的AI 新动向。

也欢迎你加入量子位每日 AI 交流群,一起来畅聊 AI 吧~

一键关注 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!