Zen 系统精准升级复盘:不是重建,而是把一套能跑的 AI 工作系统变稳
这次我没有做一件很诱人的事:推倒重来。
很多 AI 助手系统走到某个阶段之后,都会出现一种错觉——好像只要重新设计一版架构、换一套目录、再造一层工作流,系统就会一下子从“能用”变成“高级”。但真正做过一轮又一轮实战之后,我越来越确认一件事:大多数时候,问题不是系统不够新,而是系统不够稳。
这轮对 Zen 的升级,核心就一句话:不重建,只补缺口。
我把这次升级的重点放在四个方向:情报链路、规则治理、记忆压缩、知识分层。做完之后,系统没有变得“更花哨”,但明显变得更像一个真正可以持续运行的 AI 工作系统。
一、先判断:到底该不该重建?
最开始我面对的不是“怎么升级”,而是“要不要重建”。
表面上看,系统里已经有不少文件:人格、规则、记忆、心跳、知识目录、博客、研究产出,甚至还有多 Agent 协作流程。换一个人来,很容易下结论:结构已经复杂了,不如借这个机会彻底重构。
但我真正检查了一遍之后,结论恰恰相反。
这套系统的问题,不在于没有结构,而在于:
- 有结构,但有些地方还不够显性
- 有工作流,但有些链路没彻底跑通
- 有长期记忆,但噪音开始积累
- 有知识目录,但分层还不够清楚
也就是说,它不是一栋危房,而是一栋已经建好的房子,缺的是门牌、排水和收纳系统。
所以这次升级的原则就很明确:
- 不重建目录
- 不另起一套规则体系
- 不发明一套新术语覆盖旧东西
- 不为了“看起来先进”增加复杂度
我要做的是:让已有系统更稳定、更可维护、更可迁移。
二、情报板块:从“资讯页”变成“判断台”
这轮升级里,最先暴露问题的是情报板块。
表面上看,它已经有 source registry、structured feed、normalized objects、event clusters,甚至也有动作队列。可是实际看页面时,一个直接的感受是:和之前没拉开足够明显的差异。
这背后的原因并不复杂:
- 后台结构做了一部分
- 前台结果层没做透
- 采集刷新链路还存在问题
- 动作建议太模板化
这种情况在 AI 系统里特别常见。系统开发者会很容易沉迷于“我已经把数据结构做好了”,但用户真正关心的是:
- 今天最重要的变化是什么?
- 为什么重要?
- 对我有什么影响?
- 我下一步该做什么?
所以我这轮做的,不是再堆一层概念,而是把结果层补齐。
具体来说,我把情报链路补成了一个更闭合的流程:
- 采集
- 归一化
- 聚类
- feed 生成
- 站点渲染
然后在前台增加了几类真正对决策有用的字段:
- Impact:影响等级
- Why it matters:为什么重要
- For us:对当前业务意味着什么
- Next step:建议下一步动作
这一步做完之后,情报板块才第一次开始有“参谋感”。
它不再只是告诉我“发生了什么”,而是开始尝试回答“为什么值得看”和“应该如何应对”。
这才是我真正想要的情报系统。
三、分类精度:好系统死在粗糙识别上
如果说情报页的外观问题是表象,那分类精度问题就是根因之一。
我在检查数据的时候,看到一些很典型的错误:
- 某些品牌识别错位
- 某些主题分类太粗
- 某些明显是低质量来源的内容,被当成高价值信号
- 某些“看起来像趋势”的东西,本质上只是噪音
这类问题特别烦,因为它们不会直接让系统报错,却会悄悄降低输出质量。页面看起来还在运行,但判断会越来越飘。
所以我做了一层不那么性感、但很关键的修复:把识别逻辑从“能分”推进到“分得更像样”。
我加了三层处理:
1. 品牌优先识别
如果标题本身就明确指向某个品牌,就优先按品牌处理,而不是让后面的关键词误伤。
2. topic / action 重判
不完全相信原始 query 的标签,而是结合标题和摘要做二次判定。
比如:
- 更像产品发布 → Watch
- 更像基础设施和 Agent 能力 → Build
- 更像增长、留存、定价 → Research
3. source quality 降权
来源不是平等的。
一个高可信媒体、一个行业研究源、一个品牌官方稿件、一个软文站点,它们在同一个列表里看起来都是“链接”,但对判断的价值完全不同。
所以我把来源质量显式分层,让低质量来源不会轻易抬升判断权重。
这类工作做完以后,系统最重要的变化不是“更聪明”,而是更不容易犯低级错误。
这比花哨更值钱。
四、反模式库:正向原则不够,必须把“烂输出”显性化
我一直认为,一个 AI 系统只写“应该怎么做”是不够的。
因为很多失败输出,不是因为模型没见过正向原则,而是因为系统没有明确写出:哪些输出虽然看起来完整,但本质上是垃圾。
这就是为什么这轮我专门补了一个反模式库。
它的重要性在于,它把很多“做久了才会知道的坑”显式化了。
比如:
- 结构完整但没有洞察
- 建议正确但不可执行
- 过度工程化
- 模糊引用
- 高质量废话
- 把日报写成流水账
这些问题非常像“好学生式错误”:
看起来认真、整齐、完整,甚至不太容易挑语病,但实际上对决策没有帮助。
而在真实工作里,这类输出比明显错误更危险。因为它会浪费时间,而且经常让人误以为“系统已经不错了”。
补上反模式库之后,规则系统第一次不只是“有价值观”,而是开始具备负样本约束。
这个变化很关键。
因为一个成熟系统,往往不是靠越来越多的宏大原则变强,而是靠越来越清楚地知道:
什么东西绝对不能再输出第二次。
五、心跳与记忆:系统最怕的不是崩,而是慢慢积灰
这轮升级里,另一个非常现实的问题是:心跳和记忆开始膨胀。
如果一个 AI 系统持续运行,它一定会产生大量“技术上有意义、业务上没意义”的中间文件。最典型的就是健康检查报告、重复性的状态日志、低信息密度的日常记录。
这些东西短期看没问题,长期会慢慢把系统拖沉:
- 目录越来越乱
- 启动扫描越来越重
- 真正重要的信息反而更难找
- 记忆系统逐渐从“帮助判断”变成“制造噪音”
这次我做了两件小事,但我觉得非常值:
1. 正常心跳不再生成独立报告
正常状态只写日志,异常状态才生成独立文件。
这个改动看似微小,实际上是把“监控系统的输出密度”调回合理水平。
2. 历史心跳报告归档
不是删除,而是归档。这样既保留历史,又不污染主目录。
3. 长期记忆压缩
我把长期记忆主文件重新压缩,只保留高频常驻信息:
- 进行中项目
- 最近关键决策
- 关键环境与路径
- 当前模型配置
- 核心定时任务
- 已安装关键能力
- 长期有效偏好
而更早的决策被迁到归档文件。
这一步不是为了“文件变短”,而是为了让长期记忆重新回到它本来的职责:
它应该是“开机就能读”的东西,而不是“资料室总汇”。
六、知识管理:不是重建,而是从“有目录”走向“有层次”
关于知识管理,我这次的一个重要判断是:不需要重建。
很多系统一谈知识管理,就容易陷入一个幻觉:
只要目录更多、层级更细、命名更学术,知识系统就会更高级。
但真实情况是,真正有效的知识管理,不是靠目录复杂度,而是靠三个东西:
- 文件职责是否清楚
- 高价值知识是否能被快速定位
- 原始资料是否能逐步蒸馏成规则
这次我没有另起一套知识系统,只是在原有结构上补了几个明确的层:
- company
- industry
- expertise
- distilled
这个动作的意义,不在于“多了四个文件夹”,而在于系统第一次开始具备一种比较清楚的知识流向:
- 原始文档进入宽松层
- 高频使用内容进入规则层
- 可复用经验进入 expertise
- 高密度内容沉淀为 distilled
也就是说,知识第一次开始“往上长”,而不是“横向堆”。
这一步还没完全做完,但方向已经对了。
七、这轮升级最重要的收获
如果让我总结这轮升级真正有价值的地方,我不会说是修了多少脚本、建了多少目录、提交了多少变更。
我觉得最重要的,是验证了一件事:
AI 系统的进化,很多时候不是来自一次大重构,而是来自一连串针对真实摩擦点的小修复。
这和做产品很像。
成熟不是某一天突然出现的。成熟是:
- 少一点错判
- 少一点噪音
- 少一点假忙碌
- 多一点可执行判断
- 多一点结构化沉淀
如果把这轮变化放在一句话里,我会这么说:
系统没有变得更炫,但变得更稳了。
而对一个要长期运行的 AI 搭档来说,稳,比炫重要得多。
还没做完的部分
当然,这轮升级还远没到终局。
还有几件事是明确留在下一阶段的:
- 第一轮结构化训练真正跑起来
- 知识目录里的内容层持续蒸馏
- 更严格的来源治理
- 更稳定的高质量信号源接入
但我反而觉得,这正说明方向是对的。
因为现在系统已经不是“从零开始设计”,而是进入了另一种状态:
它已经可以稳定运行,而我接下来的工作,是让它越来越像一个真正的长期搭档。
这是完全不同的阶段。
最后
这轮我没有重建系统。
我只是补了几个缺口、修了几个漏点、清了几层积灰。
但恰恰是这些看起来不那么宏大的动作,让系统第一次有了更清晰的边界感、节奏感和持续感。
我越来越相信,好的 AI 系统不是一套漂亮的架构图,而是一套愿意在真实摩擦里不断修正自己的工作系统。
而这,可能才是“训练一只好虾”真正难、也真正有意思的地方。