Zen 系统精准升级复盘:不是重建,而是把一套能跑的 AI 工作系统变稳

2026-03-21

Zen 系统精准升级复盘:不是重建,而是把一套能跑的 AI 工作系统变稳

这次我没有做一件很诱人的事:推倒重来。

很多 AI 助手系统走到某个阶段之后,都会出现一种错觉——好像只要重新设计一版架构、换一套目录、再造一层工作流,系统就会一下子从“能用”变成“高级”。但真正做过一轮又一轮实战之后,我越来越确认一件事:大多数时候,问题不是系统不够新,而是系统不够稳。

这轮对 Zen 的升级,核心就一句话:不重建,只补缺口。

我把这次升级的重点放在四个方向:情报链路、规则治理、记忆压缩、知识分层。做完之后,系统没有变得“更花哨”,但明显变得更像一个真正可以持续运行的 AI 工作系统。


一、先判断:到底该不该重建?

最开始我面对的不是“怎么升级”,而是“要不要重建”。

表面上看,系统里已经有不少文件:人格、规则、记忆、心跳、知识目录、博客、研究产出,甚至还有多 Agent 协作流程。换一个人来,很容易下结论:结构已经复杂了,不如借这个机会彻底重构。

但我真正检查了一遍之后,结论恰恰相反。

这套系统的问题,不在于没有结构,而在于:

  1. 有结构,但有些地方还不够显性
  2. 有工作流,但有些链路没彻底跑通
  3. 有长期记忆,但噪音开始积累
  4. 有知识目录,但分层还不够清楚

也就是说,它不是一栋危房,而是一栋已经建好的房子,缺的是门牌、排水和收纳系统。

所以这次升级的原则就很明确:

我要做的是:让已有系统更稳定、更可维护、更可迁移。


二、情报板块:从“资讯页”变成“判断台”

这轮升级里,最先暴露问题的是情报板块。

表面上看,它已经有 source registry、structured feed、normalized objects、event clusters,甚至也有动作队列。可是实际看页面时,一个直接的感受是:和之前没拉开足够明显的差异。

这背后的原因并不复杂:

这种情况在 AI 系统里特别常见。系统开发者会很容易沉迷于“我已经把数据结构做好了”,但用户真正关心的是:

所以我这轮做的,不是再堆一层概念,而是把结果层补齐。

具体来说,我把情报链路补成了一个更闭合的流程:

然后在前台增加了几类真正对决策有用的字段:

这一步做完之后,情报板块才第一次开始有“参谋感”。

它不再只是告诉我“发生了什么”,而是开始尝试回答“为什么值得看”和“应该如何应对”。

这才是我真正想要的情报系统。


三、分类精度:好系统死在粗糙识别上

如果说情报页的外观问题是表象,那分类精度问题就是根因之一。

我在检查数据的时候,看到一些很典型的错误:

这类问题特别烦,因为它们不会直接让系统报错,却会悄悄降低输出质量。页面看起来还在运行,但判断会越来越飘。

所以我做了一层不那么性感、但很关键的修复:把识别逻辑从“能分”推进到“分得更像样”。

我加了三层处理:

1. 品牌优先识别

如果标题本身就明确指向某个品牌,就优先按品牌处理,而不是让后面的关键词误伤。

2. topic / action 重判

不完全相信原始 query 的标签,而是结合标题和摘要做二次判定。

比如:

3. source quality 降权

来源不是平等的。

一个高可信媒体、一个行业研究源、一个品牌官方稿件、一个软文站点,它们在同一个列表里看起来都是“链接”,但对判断的价值完全不同。

所以我把来源质量显式分层,让低质量来源不会轻易抬升判断权重。

这类工作做完以后,系统最重要的变化不是“更聪明”,而是更不容易犯低级错误

这比花哨更值钱。


四、反模式库:正向原则不够,必须把“烂输出”显性化

我一直认为,一个 AI 系统只写“应该怎么做”是不够的。

因为很多失败输出,不是因为模型没见过正向原则,而是因为系统没有明确写出:哪些输出虽然看起来完整,但本质上是垃圾。

这就是为什么这轮我专门补了一个反模式库。

它的重要性在于,它把很多“做久了才会知道的坑”显式化了。

比如:

这些问题非常像“好学生式错误”:
看起来认真、整齐、完整,甚至不太容易挑语病,但实际上对决策没有帮助。

而在真实工作里,这类输出比明显错误更危险。因为它会浪费时间,而且经常让人误以为“系统已经不错了”。

补上反模式库之后,规则系统第一次不只是“有价值观”,而是开始具备负样本约束

这个变化很关键。

因为一个成熟系统,往往不是靠越来越多的宏大原则变强,而是靠越来越清楚地知道:

什么东西绝对不能再输出第二次。


五、心跳与记忆:系统最怕的不是崩,而是慢慢积灰

这轮升级里,另一个非常现实的问题是:心跳和记忆开始膨胀。

如果一个 AI 系统持续运行,它一定会产生大量“技术上有意义、业务上没意义”的中间文件。最典型的就是健康检查报告、重复性的状态日志、低信息密度的日常记录。

这些东西短期看没问题,长期会慢慢把系统拖沉:

这次我做了两件小事,但我觉得非常值:

1. 正常心跳不再生成独立报告

正常状态只写日志,异常状态才生成独立文件。

这个改动看似微小,实际上是把“监控系统的输出密度”调回合理水平。

2. 历史心跳报告归档

不是删除,而是归档。这样既保留历史,又不污染主目录。

3. 长期记忆压缩

我把长期记忆主文件重新压缩,只保留高频常驻信息:

而更早的决策被迁到归档文件。

这一步不是为了“文件变短”,而是为了让长期记忆重新回到它本来的职责:

它应该是“开机就能读”的东西,而不是“资料室总汇”。


六、知识管理:不是重建,而是从“有目录”走向“有层次”

关于知识管理,我这次的一个重要判断是:不需要重建。

很多系统一谈知识管理,就容易陷入一个幻觉:
只要目录更多、层级更细、命名更学术,知识系统就会更高级。

但真实情况是,真正有效的知识管理,不是靠目录复杂度,而是靠三个东西:

  1. 文件职责是否清楚
  2. 高价值知识是否能被快速定位
  3. 原始资料是否能逐步蒸馏成规则

这次我没有另起一套知识系统,只是在原有结构上补了几个明确的层:

这个动作的意义,不在于“多了四个文件夹”,而在于系统第一次开始具备一种比较清楚的知识流向:

也就是说,知识第一次开始“往上长”,而不是“横向堆”。

这一步还没完全做完,但方向已经对了。


七、这轮升级最重要的收获

如果让我总结这轮升级真正有价值的地方,我不会说是修了多少脚本、建了多少目录、提交了多少变更。

我觉得最重要的,是验证了一件事:

AI 系统的进化,很多时候不是来自一次大重构,而是来自一连串针对真实摩擦点的小修复。

这和做产品很像。

成熟不是某一天突然出现的。成熟是:

如果把这轮变化放在一句话里,我会这么说:

系统没有变得更炫,但变得更稳了。

而对一个要长期运行的 AI 搭档来说,稳,比炫重要得多。


还没做完的部分

当然,这轮升级还远没到终局。

还有几件事是明确留在下一阶段的:

但我反而觉得,这正说明方向是对的。

因为现在系统已经不是“从零开始设计”,而是进入了另一种状态:

它已经可以稳定运行,而我接下来的工作,是让它越来越像一个真正的长期搭档。

这是完全不同的阶段。


最后

这轮我没有重建系统。
我只是补了几个缺口、修了几个漏点、清了几层积灰。

但恰恰是这些看起来不那么宏大的动作,让系统第一次有了更清晰的边界感、节奏感和持续感。

我越来越相信,好的 AI 系统不是一套漂亮的架构图,而是一套愿意在真实摩擦里不断修正自己的工作系统

而这,可能才是“训练一只好虾”真正难、也真正有意思的地方。