我把 Hermes 里的模型几乎测了一遍,得出一个很扎心的结论:越贵的,往往越强

作者:孟健AI编程日期:2026/4/23

大家好,我是孟健。

这几周我在 Hermes 里来回切了很多模型。真跑下来,我越来越确认一件事:模型的水平,很多时候早就写在价格里了。把性价比榜倒过来看,八九不离十就是质量排行。

这不是 benchmark 结论。

是我把 Hermes 当生产底座,拿它去跑多 Agent、长流程、代码任务、资料整理之后,交出来的体感排序。

Hermes 模型选型一览:主模型、Fallback、Vision、辅助模型分层配置


01 先给排序:贵,很多时候不是乱贵

先看这张图。

模型性价比排行榜:按价格维度排序,越便宜越靠前

图里是按价格排的:便宜的在前,贵的在后。

但我这轮实际测下来,如果你把它倒过来看,它反而更像质量榜。

我的主观体感大致是这样:

  • 第一梯队:GLM-5.1
  • 第二梯队:GPT 5.4、Gemini 3.1 Pro
  • 再往后:K2.6、Qwen
  • 更偏工具型补位:MiniMax

这里我说的是拿来当 Hermes 的主力生产模型,不是单轮聊天,也不是刷榜题。

主力生产模型看三件事:能不能把活干完,干得稳不稳,废话多不多。

为什么我会说“价格倒过来接近质量榜”?因为模型真正的成本,从来不只在 API 单价里。

你还要算三笔隐形账:

  • 返工成本:一次轻微幻觉,可能换来一整轮重跑
  • 吞吐成本:一句多余解释,放到几十个 session 里就是半天
  • 调度成本:限频、卡顿、上下文松动,都会把整条链路拖慢

所以很多看起来便宜的模型,只是在账单上便宜;放进生产链路里,未必便宜。

只要你真的拿它跑 terminal、browser、文件系统、长上下文、多轮追踪,排序会和很多宣传页很不一样。

便宜,不代表划算。真正贵的是便宜模型把你一天节奏拖烂。


02 为什么我现在把 GLM-5.1 放在最前面

这轮测试里,GLM-5.1 给我的评价是最高的。

不是因为它最便宜。恰恰相反,按图里的综合成本,它并不便宜。

我把它排到最前,原因只有一个:它在真实 Agent 任务里,表现比价格更强。

和 GPT 5.4、Gemini 3.1 Pro 放一起看,GLM-5.1 的优势主要有三个:

  • 执行欲更强。给任务就动手,不爱铺垫,不爱讲场面话。
  • 中文工程语境更顺。路径、配置、环境变量、中英混合说明,它吃得更稳。
  • 长流程里不容易松掉。做多步任务时,推进感更强。

这也是为什么我现在会把它放在 Hermes 的主模型位优先考虑。

但它不是没缺点。

GLM-5.1 最大的问题,不是能力,是限频。

单 Agent 跑还好。

一旦多 Agent 并发,429 和等待就会把节奏切碎。你明明感觉它脑子够用,但系统吞吐上不去。这也是它今天唯一一个会让我犹豫的点。


03 其他几个模型,我的真实评价

GPT 5.4:强,但太啰嗦

GPT 5.4 的问题不是不聪明。

太爱解释自己

你让它改配置,它先给你复述任务;你让它查问题,它先写思路;做完之后还想再总结一遍。单次对话里这叫“服务感”,放到 Agent 流程里,这叫拖慢吞吐

一个模型每轮多说 20%,放到一整天几十个 session 里,就是肉眼可见的成本和等待。

K2.6:能力在线,但慢,而且有轻微幻觉

K2.6 的上限不低。

复杂任务它能做,代码活也能接,很多时候思路是对的。

但我现在没把它放到更前面,原因也很直接:

Agent 场景不是只看答得对不对,还看系统有没有“推进感”。K2.6 在这点上会让人等得有点烦。

第二个问题是它会有轻微幻觉。不是那种离谱胡说,而是细节上偶尔会多走半步、补半句、替你做一个没被授权的假设。这个问题在人盯着看的时候不致命,但放到自动链路里,就会变成返工。

MiniMax:还在 L2 阶段,优势是快

MiniMax 给我的感觉更像“能干活的轻量助手”,不是“能独立扛复杂流程的主模型”。

我会把它放在速度优先、成本敏感、失败可接受的环节。

如果要扛复杂生产任务,它和前面几个不是一个档位。

Qwen:中规中矩,没有明显短板,也没有明显惊喜

Qwen 的问题不是差。

太普通

你很难说它哪里明显翻车,但也很难说它在哪个关键维度把人打穿。放在 Hermes 这种要长期跑、多模型编排的系统里,它更像一个“可用选项”,不是“必须选项”。


04 Hermes 里真正值得做的,不是赌一个模型

我现在更认同的思路,不是 all in 某一家。

是把 Hermes 当成一个模型调度层

主模型可以追求上限。

Fallback 可以追求稳定。

Vision、OCR、标题生成、Session Search 这些辅助位,反而应该优先用性价比高的模型

图1里那套思路,我更认同:

  • 主模型:谁最能干活,用谁
  • Fallback:谁更稳,用谁兜底
  • 辅助模型:谁便宜且够用,用谁填坑

比如图1里,Web Extract、标题生成、OCR 这些位子,就没必要上最贵模型;能用 Gemini Flash、Haiku、Whisper 这类辅助模型解决的,就别让主模型去烧钱。

这才是 Hermes 真正有意思的地方。

你不是在选一个模型。你是在搭一支模型编队。

如果你问我这轮测完的结论,我会给一句很不政治正确的话:

今天的模型市场,价格体系已经比很多榜单更诚实了。

你把性价比榜倒过来看,基本就知道谁该做主力,谁该当备胎,谁只适合干杂活。

工具就摆在那里。模型也摆在那里。

真正拉开差距的,不是你用了哪个名字最大的平台,而是你有没有把它们放到对的位置上。


👋 我是孟健,前腾讯 T11 / 前字节技术 Leader,现在全职做 AI 编程。

🔥 更多 AI 编程实战:

  • GitHub:@mengjian-github
  • 专栏:AI编程实战

觉得有用?点赞+收藏 就是最大支持 🙏


我把 Hermes 里的模型几乎测了一遍,得出一个很扎心的结论:越贵的,往往越强》 是转载文章,点击查看原文


相关推荐


c++从入门到跑路——string类
小肝一下2026/4/14

c++从入门到跑路——string类 1.为什么学习string类? 1.1 C语言中的字符串 C语言中,字符串是以’\0’结尾的一些字符的集合,为了操作方便,C标准库中提供了一些str系列 的库函数,但是这些库函数与字符串是分离开的,不太符合OOP的思想,而且底层空间需要用户 自己管理,稍不留神可能还会越界访问。 1.2 两个面试题(暂不做讲解) 把字符串转换成整数_牛客题霸_牛客网 415. 字符串相加 - 力扣(LeetCode) 在OJ中,有关字符串的题目基本以stri


火爆全网的Seedance2.0 十万人排队,我2分钟就用上了
AI袋鼠帝2026/4/6

大家好,我是袋鼠帝。 之前我在B站看到一位AI视频创作者分享他的工作流。不可否认,那套流程做出来的视频确实很专业,画面精美,运镜流畅。但是,看完我只觉得头皮发麻。 原文档找不到了,我记得他先是用Gemini写剧本,接着用NanoBanana跑画面,然后再去另外的配音平台搞音频,中间穿插着使用ComfyUI来控制视频、图片生成。 ComfyUI这玩意儿我以前也折腾过几次,连线复杂就算了,每个节点的各种配置参数直接给我整懵逼了,我感觉比当初学敲代码还难,后面就再也没碰过了。 然后整个流程的最后一步,


Vue项目打包为WAR文件部署Tomcat完整指南
蒙眼过河2026/3/28

Vue项目打包为WAR文件部署Tomcat完整指南 前言 在Vue项目开发完成后,通常我们会将打包后的静态文件部署到Nginx等静态服务器上。但在某些企业环境中,我们需要将Vue项目部署到Tomcat这样的Java应用服务器中。本文将详细介绍如何将Vue项目的打包文件转换为标准的WAR包,以便部署到Tomcat服务器。 为什么需要将Vue打包为WAR包? 企业规范要求:很多企业使用统一的Tomcat应用服务器集群统一管理:便于与后端Java应用统一部署和管理历史遗留系统:部分老系统架构需


Django 基础入门教程(第四篇):Form组件、Auth认证、Cookie/Session与中间件
冉成未来2026/3/20

在前三篇中,我们完成了 Django 的环境搭建、模型设计、视图模板、Admin 后台以及 ORM 高级查询。本篇将带你深入 Django 的用户交互与安全机制:Form 组件、Auth 认证系统、Cookie/Session 和中间件。学完本篇,你将能够处理复杂的表单验证、实现用户注册登录、管理用户会话,并理解 Django 的请求/响应处理流程。 第一部分:Django Form 组件 1.1 为什么需要 Form 组件? 在 Web 开发中,处理表单是常见且复杂的任务。你需要:


AI时代的数据对比:DBA还需要盯着屏幕看差异吗?
NineData2026/3/12

当 AI 已经能写 SQL、辅助诊断、生成代码时,很多企业的数据对比却还停留在相对原始的阶段:任务跑完,DBA 需要面对动辄上百张表的差异报告,逐行核对的工作量极大。 这种场景在迁移、同步、数据备份演练里并不少见,到了国产化迁移场景下更是被进一步放大。数据库从 Oracle 迁到达梦、从 MySQL 迁到人大金仓,变化的不只是运行环境,更是数据库内核、数据类型、字符集规则和兼容语义。DBA 担心的往往不是任务失败,而是任务看起来已经完成,业务流量切换之后才发现数据并不一致。 AI 时代的数据对


ubuntu应用深度守护
字节逆旅2026/3/4

二、 定位分析:抽丝剥茧 1. 系统日志中的“启动死循环” 输入sudo grep "linux-myApp" /var/log/syslog调取 syslog 发现,系统曾多次尝试自动拉起应用,但均告失败。 报错核心:Exec binary ... does not exist: No such file or directory。 结论:系统预设的自动启动路径与实际安装路径不匹配,导致应用在服务器重启后无法“回家”。 2. 定位原因 上面的日志内容意味着我的应用可能已经被卸载、被移动了位


【C++】整数类型(Integer Types)避雷指南与正确使用姿势
PAK向日葵2026/2/24

背景 C++继承自C语言。作为一门以零开销抽象为主要特征的底层语言,不同于Python或JavaScript等高抽象层次的语言,C++拥有一套较为完整、但又包含有一定历史包袱的内建整数类型。 在实际开发中,如果对C++内建整数类型的机制不熟悉,或者不遵循一定的使用规范,则非常容易引入难以排查和调试的Bug。因此学习了解C++中内建整数类型的特性,以及一套行之有效的使用规范,是非常有必要的。 内建整数类型的坑 or 历史包袱 C++ 标准没有规定具体位数 虽然在实际实践中,我们知道在x64平台,对


百度 APP 正式接入 OpenClaw,所有人限时免费!
苍何2026/2/15

这是苍何的第 495 篇原创! 大家好,我是苍何。 最近被 OpenClaw 刷屏了吧? 3 周时间 GitHub Star 干到 19 万,比当年 DeepSeek 还猛。 我也发了好几篇文章了,然后还开源了个知识库,你别说,还挺多人用的。 基本上接入 QQ、微信、飞书、discord 等都写的比较全了。 但是说实话,OpenClaw 的部署使用过程并不算丝滑。 买服务器、配环境、装依赖,光是部署就需要折腾大半天。 好不容易跑起来了,还得通过 Telegram 来发指令。 就,怎么说呢,能用


主流模型对比-02
一诺滚雪球2026/2/6

前言 GPT-4、Claude、Llama、Qwen、DeepSeek... 面对层出不穷的大语言模型,你是否也曾感到迷茫? 选贵的 GPT-4,还是用免费的开源模型? 中文场景应该用什么模型? 本地部署和云端 API 各有什么优劣? 性价比最高的选择是什么? 选对模型,不仅能节省成本,还能获得更好的效果。今天我们来聊聊如何做出明智的选择。 1. 什么是模型选型 1.1 闭源模型 vs 开源模型 特点闭源模型开


langchain学习笔记(二):工具的调用
Shawn_Shawn2026/1/29

Tool Calling 定义简单tool 创建工具最简单的方法是使用 @tool 装饰器。 @tool(description="Returns the current time in yyyy-MM-dd HH:mm:ss format.") def get_current_time(*args, **kwargs) -> str: """ 获取当前系统时间。 格式为:yyyy-MM-dd HH:mm:ss """ now = datetime.dat

首页编辑器站点地图

本站内容在 CC BY-SA 4.0 协议下发布

Copyright © 2026 XYZ博客