OpenClaw QMD 本地语义搜索 * ZenMux,节省 20 倍 Token 消耗,爽用 Claude Opus 4.6

OpenClaw 爆火了两周了,但是太烧 token 了,尤其 Claude 用户,几轮下来就没额度了。几十美元、一百美元不到一天就花完了。

为什么你的 OpenClaw 会变成”吞金兽”?因为当下,在大模型领域,context 即成本啊。

OpenClaw 默认会将过往所有对话塞进上下文,很多时候 agent 塞了一堆无关信息进 context,导致 Token 消耗呈指数级增长,甚至还影响精准度。

本文将结合 QMD 引擎 + ZenMux ,教你构建一套”短期工作记忆 + 长期语义存档”的高效架构,总成本降低 90% 以上,节省 20 倍 Token 消耗。

QMD 简单介绍

QMD 全球最大独立站电商 Shopify 创始人 Tobi 开发的一个本地语义搜索引擎,基于 Rust 构建,专为 AI Agent 设计。

可以把它当作 AI 的外挂硬盘。有了它,你可以放心把 AI 的即时记忆(Context Window)设得很小,因为 QMD 在后台守着所有历史档案,随时可以精准召回。

核心原理:”查字典”而非”背全书”

  • 传统模式:为了让 AI 记住历史,每次都把整本书背一遍,每次对话也会上传整本书
  • QMD 模式:只把字典里相关的那一页撕下来贴进去

你付的 Token 只是那一页的钱,不是整本书的钱。这就是最关键的地方。

实际实现上,分三步走:

  • Update(扫描)发现新文件/新对话
  • Embed(向量化)把文字转成数学坐标
  • Query(检索)找出坐标最近的内容

QMD 不是简单切字符,而是根据 Markdown 结构(标题、列表、代码块)来智能分块,带重叠确保语义完整。

三种搜索模式:

  • qmd search:BM25 关键词,精确查错误码、变量名
  • qmd vsearch:向量语义,模糊查概念、同义词
  • qmd query:混合 + 重排序,日常推荐

为什么能省这么多 Token?账单对比

假设你的项目对话历史累计 50,000 Token:

  • 全量历史模式:每轮消耗 50,000,10 轮就是 500,000
  • QMD 检索模式:即时窗口 5,000 + 检索召回 1,000 = 每轮 6,000,10 轮只要 60,000

节省 88%,保守一点,我们按照节省 75%算,4 倍。

对话越长,优势越大,10 轮对话省 88%,100 轮对话省 95%+。全量模式到后面直接爆表,QMD 模式永远稳在 8-10k。

在 OpenClaw 中启用 QMD

安装:

bun install -g github.com/tobi/qmd

基础配置:

memory: {
  backend: "qmd",
  citations: "auto",
  qmd: {
    includeDefaultMemory: true,
    update: { interval: "5m", debounceMs: 15000 },
    limits: { maxResults: 6, timeoutMs: 4000 },
    scope: {
      default: "deny",
      rules: [{ action: "allow", match: { chatType: "direct" } }]
    },
    paths: [
      { name: "docs", path: "~/notes", pattern: "**/*.md" }
    ]
  }
}

关键参数:backend: “qmd” 必填,maxResults 建议 6,paths 按需添加知识库目录。

这里的思路是:让 OpenClaw 自己在后台跑 qmd sidecar,把 MEMORY.md + memory/**/*.md 和你额外配置的 paths 都编进一个统一索引,定期 qmd update + qmd embed,自动刷新到向量数据库。

优点非常明显:

  • 真正实现「agent 精准回忆」+「减少大段 MEMORY.md 直接塞到上下文」,这才是你要的省 token
  • 不用自己记得去 qmd embed,增量更新、sessions 索引都自动做

另外还有两个隐藏收益:

减少幻觉:Context 过大时,模型容易”长文本疲劳”,逻辑混乱。QMD 提供的上下文精简干练,模型更清醒,减少无效对话,间接省钱。

构建知识库:在 paths 里添加目录即可,无需手动操作:

paths: [
  { name: "obsidian", path: "~/Obsidian/MyVault", pattern: "**/*.md" },
  { name: "docs", path: "~/Documents/技术文档", pattern: "**/*.md" }
]

配好就完事了,不用管。

这可太爽了,结合 Discord 做社群运营,社群成员有任何问题,直接 OpenClaw 快速通过 QMD 构建的知识库来回答,还有比这更爽的吗?

ZenMux:再省 80%

QMD 本地语义搜索大概可以节省 75% 的 token,下面再说一下 ZenMux,大概也可以节省 80% 的 token 成本(官方说法是 5-10 倍价格杠杆,我们按最低算,也就是节省 80% ,5 倍杠杆),4倍 * 5倍,差不多就有 20 倍了,你说这篇文章值不值钱。

ZenMux 是一家大模型聚合平台(类似 OpenRouter)。订阅了他们家的 100 刀的 Max 套餐,可以撬动 Anthropic 官方 API 5-10 倍杠杆,价格和中转站差不多了,中转站大多是 7 倍左右杠杆。但是根据我的使用体验,ZenMux 完爆中转站,有非常好的稳定性,不降智。官方甚至提供了保险服务:智能保险检测与自动赔付,全面解决企业对 AI 幻觉、质量不稳定的担忧。

Plan 订阅计划好像是最近推出的,LLM 订阅制也是第一家这么做的吧。目前限量开放了 999 个席位,性价比很高,平常也用得多,就直接冲了,cc 中转站后面就停了。有想法的朋友可以先占个坑试一试,按月付就好。 使用我的邀请链接, https://zenmux.ai/invite/ATGM7I 可以获取 25% 的奖励优惠,不过仅限购买 tokens。

Anthropic 刚刚发布了 Claude Opus 4.6,ZenMux 也是第一批就接入了,我也是立马就接入到 openclaw,发到 Discord,社群已经可以使用了。

想加入这个 Discord 频道,一起玩耍 openclaw 的朋友请点击:https://discordhunt.com/servers/appsaildev-1369133651891327110

目前给 Discord 频道已经配置了 ZenMux 100刀订阅、Claude 订阅、ChatGPT Codex Auth、3个 Antigravity Auth,用完为止!

配置很简单,官方有详细的文档,照着配置几分钟就搞定了:

{
  "models": {
    "mode": "merge",
    "providers": {
      "zenmux": {
        "baseUrl": "https://zenmux.ai/api/v1",
        "apiKey": "sk-ss-v1-your-api-key-here",
        "api": "openai-completions",
        "models": [
          {
            "id": "deepseek/deepseek-chat",
            "name": "DeepSeek Chat via ZenMux",
            "reasoning": false,
            "input": ["text"],
            "cost": { "input": 0, "output": 0, "cacheRead": 0, "cacheWrite": 0 },
            "contextWindow": 64000,
            "maxTokens": 8192
          },
          {
            "id": "openai/gpt-5.2",
            "name": "GPT-5.2 via ZenMux",
            "reasoning": false,
            "input": ["text", "image"],
            "cost": { "input": 0, "output": 0, "cacheRead": 0, "cacheWrite": 0 },
            "contextWindow": 200000,
            "maxTokens": 8192
          },
          {
            "id": "google/gemini-3-pro-preview",
            "name": "Gemini 3 Pro via ZenMux",
            "reasoning": false,
            "input": ["text", "image"],
            "cost": { "input": 0, "output": 0, "cacheRead": 0, "cacheWrite": 0 },
            "contextWindow": 200000,
            "maxTokens": 8192
          },
          {
            "id": "anthropic/claude-opus-4.6",
            "name": "Claude Opus 4.6 via ZenMux",
            "reasoning": false,
            "input": ["text", "image"],
            "cost": { "input": 0, "output": 0, "cacheRead": 0, "cacheWrite": 0 },
            "contextWindow": 200000,
            "maxTokens": 8192
          }
        ]
      }
    }
  },
  "agents": {
    "defaults": {
      "model": {
        "primary": "zenmux/anthropic/claude-opus-4.6"
      },
      "models": {
        "zenmux/deepseek/deepseek-chat": {},
        "zenmux/openai/gpt-5.2": {},
        "zenmux/google/gemini-3-pro-preview": {},
        "zenmux/anthropic/claude-opus-4.6": {}
      }
    }
  }
}

注意:请将 sk-ss-v1-your-api-key-here 替换为您的实际 ZenMux API Key(订阅后在当前页面就创建订阅 API Key)。

总结

两招组合拳:

  • QMD 本地语义搜索:省 75% token,把 50k 的上下文压到 6k
  • ZenMux 聚合平台:再省 80% 费用,5-10 倍价格杠杆

综合下来,原本 100 刀的消耗,现在可能只要 4-5 刀,节省 20 倍 Token 消耗,爽用 Claude Opus 4.6 啊。这才是 OpenClaw 正确的打开方式。

都看到这里了,请帮忙转发这篇文章哈,感谢!

下篇文章主要分享 QMD 的深入玩法,如何调优和在 Discord 使用 QMD 构建知识库,回答社群问题。

相关资源

  • QMD GitHub
  • OpenClaw Memory 文档
  • ZenMux
OpenClaw QMD 本地语义搜索 * ZenMux,节省 20 倍 Token 消耗,爽用 Claude Opus 4.6
© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容