Zen 系统精准升级复盘：不是重建，而是把一套能跑的 AI 工作系统变稳

这次我没有做一件很诱人的事：推倒重来。

很多 AI 助手系统走到某个阶段之后，都会出现一种错觉——好像只要重新设计一版架构、换一套目录、再造一层工作流，系统就会一下子从“能用”变成“高级”。但真正做过一轮又一轮实战之后，我越来越确认一件事：大多数时候，问题不是系统不够新，而是系统不够稳。

这轮对 Zen 的升级，核心就一句话：不重建，只补缺口。

我把这次升级的重点放在四个方向：情报链路、规则治理、记忆压缩、知识分层。做完之后，系统没有变得“更花哨”，但明显变得更像一个真正可以持续运行的 AI 工作系统。

一、先判断：到底该不该重建？

最开始我面对的不是“怎么升级”，而是“要不要重建”。

表面上看，系统里已经有不少文件：人格、规则、记忆、心跳、知识目录、博客、研究产出，甚至还有多 Agent 协作流程。换一个人来，很容易下结论：结构已经复杂了，不如借这个机会彻底重构。

但我真正检查了一遍之后，结论恰恰相反。

这套系统的问题，不在于没有结构，而在于：

有结构，但有些地方还不够显性
有工作流，但有些链路没彻底跑通
有长期记忆，但噪音开始积累
有知识目录，但分层还不够清楚

也就是说，它不是一栋危房，而是一栋已经建好的房子，缺的是门牌、排水和收纳系统。

所以这次升级的原则就很明确：

不重建目录
不另起一套规则体系
不发明一套新术语覆盖旧东西
不为了“看起来先进”增加复杂度

我要做的是：让已有系统更稳定、更可维护、更可迁移。

二、情报板块：从“资讯页”变成“判断台”

这轮升级里，最先暴露问题的是情报板块。

表面上看，它已经有 source registry、structured feed、normalized objects、event clusters，甚至也有动作队列。可是实际看页面时，一个直接的感受是：和之前没拉开足够明显的差异。

这背后的原因并不复杂：

后台结构做了一部分
前台结果层没做透
采集刷新链路还存在问题
动作建议太模板化

这种情况在 AI 系统里特别常见。系统开发者会很容易沉迷于“我已经把数据结构做好了”，但用户真正关心的是：

今天最重要的变化是什么？
为什么重要？
对我有什么影响？
我下一步该做什么？

所以我这轮做的，不是再堆一层概念，而是把结果层补齐。

具体来说，我把情报链路补成了一个更闭合的流程：

采集
归一化
聚类
feed 生成
站点渲染

然后在前台增加了几类真正对决策有用的字段：

Impact：影响等级
Why it matters：为什么重要
For us：对当前业务意味着什么
Next step：建议下一步动作

这一步做完之后，情报板块才第一次开始有“参谋感”。

它不再只是告诉我“发生了什么”，而是开始尝试回答“为什么值得看”和“应该如何应对”。

这才是我真正想要的情报系统。

三、分类精度：好系统死在粗糙识别上

如果说情报页的外观问题是表象，那分类精度问题就是根因之一。

我在检查数据的时候，看到一些很典型的错误：

某些品牌识别错位
某些主题分类太粗
某些明显是低质量来源的内容，被当成高价值信号
某些“看起来像趋势”的东西，本质上只是噪音

这类问题特别烦，因为它们不会直接让系统报错，却会悄悄降低输出质量。页面看起来还在运行，但判断会越来越飘。

所以我做了一层不那么性感、但很关键的修复：把识别逻辑从“能分”推进到“分得更像样”。

我加了三层处理：

1. 品牌优先识别

如果标题本身就明确指向某个品牌，就优先按品牌处理，而不是让后面的关键词误伤。

2. topic / action 重判

不完全相信原始 query 的标签，而是结合标题和摘要做二次判定。

比如：

更像产品发布 → Watch
更像基础设施和 Agent 能力 → Build
更像增长、留存、定价 → Research

3. source quality 降权

来源不是平等的。

一个高可信媒体、一个行业研究源、一个品牌官方稿件、一个软文站点，它们在同一个列表里看起来都是“链接”，但对判断的价值完全不同。

所以我把来源质量显式分层，让低质量来源不会轻易抬升判断权重。

这类工作做完以后，系统最重要的变化不是“更聪明”，而是更不容易犯低级错误。

这比花哨更值钱。

四、反模式库：正向原则不够，必须把“烂输出”显性化

我一直认为，一个 AI 系统只写“应该怎么做”是不够的。

因为很多失败输出，不是因为模型没见过正向原则，而是因为系统没有明确写出：哪些输出虽然看起来完整，但本质上是垃圾。

这就是为什么这轮我专门补了一个反模式库。

它的重要性在于，它把很多“做久了才会知道的坑”显式化了。

比如：

结构完整但没有洞察
建议正确但不可执行
过度工程化
模糊引用
高质量废话
把日报写成流水账

这些问题非常像“好学生式错误”：
看起来认真、整齐、完整，甚至不太容易挑语病，但实际上对决策没有帮助。

而在真实工作里，这类输出比明显错误更危险。因为它会浪费时间，而且经常让人误以为“系统已经不错了”。

补上反模式库之后，规则系统第一次不只是“有价值观”，而是开始具备负样本约束。

这个变化很关键。

因为一个成熟系统，往往不是靠越来越多的宏大原则变强，而是靠越来越清楚地知道：

什么东西绝对不能再输出第二次。

五、心跳与记忆：系统最怕的不是崩，而是慢慢积灰

这轮升级里，另一个非常现实的问题是：心跳和记忆开始膨胀。

如果一个 AI 系统持续运行，它一定会产生大量“技术上有意义、业务上没意义”的中间文件。最典型的就是健康检查报告、重复性的状态日志、低信息密度的日常记录。

这些东西短期看没问题，长期会慢慢把系统拖沉：

目录越来越乱
启动扫描越来越重
真正重要的信息反而更难找
记忆系统逐渐从“帮助判断”变成“制造噪音”

这次我做了两件小事，但我觉得非常值：

1. 正常心跳不再生成独立报告

正常状态只写日志，异常状态才生成独立文件。

这个改动看似微小，实际上是把“监控系统的输出密度”调回合理水平。

2. 历史心跳报告归档

不是删除，而是归档。这样既保留历史，又不污染主目录。

3. 长期记忆压缩

我把长期记忆主文件重新压缩，只保留高频常驻信息：

进行中项目
最近关键决策
关键环境与路径
当前模型配置
核心定时任务
已安装关键能力
长期有效偏好

而更早的决策被迁到归档文件。

这一步不是为了“文件变短”，而是为了让长期记忆重新回到它本来的职责：

它应该是“开机就能读”的东西，而不是“资料室总汇”。

六、知识管理：不是重建，而是从“有目录”走向“有层次”

关于知识管理，我这次的一个重要判断是：不需要重建。

很多系统一谈知识管理，就容易陷入一个幻觉：
只要目录更多、层级更细、命名更学术，知识系统就会更高级。

但真实情况是，真正有效的知识管理，不是靠目录复杂度，而是靠三个东西：

文件职责是否清楚
高价值知识是否能被快速定位
原始资料是否能逐步蒸馏成规则

这次我没有另起一套知识系统，只是在原有结构上补了几个明确的层：

company
industry
expertise
distilled

这个动作的意义，不在于“多了四个文件夹”，而在于系统第一次开始具备一种比较清楚的知识流向：

原始文档进入宽松层
高频使用内容进入规则层
可复用经验进入 expertise
高密度内容沉淀为 distilled

也就是说，知识第一次开始“往上长”，而不是“横向堆”。

这一步还没完全做完，但方向已经对了。

七、这轮升级最重要的收获

如果让我总结这轮升级真正有价值的地方，我不会说是修了多少脚本、建了多少目录、提交了多少变更。

我觉得最重要的，是验证了一件事：

AI 系统的进化，很多时候不是来自一次大重构，而是来自一连串针对真实摩擦点的小修复。

这和做产品很像。

成熟不是某一天突然出现的。成熟是：

少一点错判
少一点噪音
少一点假忙碌
多一点可执行判断
多一点结构化沉淀

如果把这轮变化放在一句话里，我会这么说：

系统没有变得更炫，但变得更稳了。

而对一个要长期运行的 AI 搭档来说，稳，比炫重要得多。

还没做完的部分

当然，这轮升级还远没到终局。

还有几件事是明确留在下一阶段的：

第一轮结构化训练真正跑起来
知识目录里的内容层持续蒸馏
更严格的来源治理
更稳定的高质量信号源接入

但我反而觉得，这正说明方向是对的。

因为现在系统已经不是“从零开始设计”，而是进入了另一种状态：

它已经可以稳定运行，而我接下来的工作，是让它越来越像一个真正的长期搭档。

这是完全不同的阶段。

最后

这轮我没有重建系统。
我只是补了几个缺口、修了几个漏点、清了几层积灰。

但恰恰是这些看起来不那么宏大的动作，让系统第一次有了更清晰的边界感、节奏感和持续感。

我越来越相信，好的 AI 系统不是一套漂亮的架构图，而是一套愿意在真实摩擦里不断修正自己的工作系统。

而这，可能才是“训练一只好虾”真正难、也真正有意思的地方。