LeadPath × ZENNI AI 工作流成熟度审计（对照 DAIS 2026）

⚠️ P0 · 与成熟度无关,先修ZENNI 分发包里硬编码了真密钥

在 zenni-foundation/.mcp.json(marketplace + cache 分发目录)里,我亲自核实到三个明文/base64 内嵌的真实凭证(只看了字段名、没读值):

ZENNI_DEPLOY_KEY_B64 — base64 编码的部署 SSH 私钥(可写部署仓,那行 583 字符就是它)
LARK_APP_SECRET — 飞书应用密钥
SCRAPECREATORS_API_KEY — 抓取 API key

风险:它在 marketplace 分发目录里,随插件包一起发给团队/任何拿到仓库的人,等于这把可写私钥 + 飞书密钥 + API key 已经处于"知道仓库就能用"的状态。
好消息:你最新的 ~/zenni-system/.mcp.json 已经是干净的(零内嵌密钥)——说明你后来改对了,只是旧的分发版还在漏。
该做(密钥轮换必须你本人在各平台操作,我不能代办):① 把这把部署 SSH key 在 GitHub 上 revoke 重发(当已泄露);② 在飞书后台重置 App Secret;③ 在 ScrapeCreators 重置 API key;④ 改成 LeadPath 已验证的"后端代理/不入库 secrets"模式。我已为你开了一个独立修复任务跟进代码改造部分。

1总判断:超前在哪、滞后在哪

一句话标题 + 精准定性。

设计逻辑明显超前同行(约领先 1.5 个成熟度阶段),但全卡在同一道墙:把流程拆对了、护栏建好了,就是没让它"自己跑起来、并证明它真省了钱"。

超前在"设计哲学"层:你不是给旧任务套 AI,而是按 AI 原生重新解剖业务——单一职责技能 + 结构化契约接力(LeadPath interfaces.md)、跨会话状态机(ZENNI Lark 卡)、把创始人判断力代码化成可调用替身、策略即代码的物理护栏(fail-closed 白名单 / LOCKED:RAILS 哨兵)、确定性 CI 质量门(golden-eval exit(1))——这些在做 AI 转型的中等企业里基本是空白,你普遍领先 3-4 分。

滞后在"运行"层:八维里有四维(自主度、ROI、上下文-隐性知识、数据写入侧)没真正落地——流程是人逐棒手动触发的接力而非 agentic 编队,知识资产的"壳"做得一流但内容近空(austin-ip 根因档案全是【设计种子】),最致命的是全系统没有任何"AI 替我省了多少人时/钱"的度量,机制再严谨也无数据可证。

顺序基本对:先把"重构 + 护栏 + 质量门"地基打牢是正确的工程次序(很多人反过来先追自动化结果翻车)——但你已经在地基上停留过久,现在该往"半自主编排 + ROI 度量 + 隐性知识填充"推进。

28 维成熟度雷达图

三条线:LeadPath / ZENNI / 典型转型企业基线。越往外越成熟(满分 10)。

LeadPath ZENNI 典型转型企业基线

维度	LeadPath	ZENNI	基线

3逐维度打分明细

每条:分数 + 为什么这么打(带源码证据) + 最大差距。

4共同强项 / 共同短板

两套工作流身上一致的优势与一致的缺口。

✅ 共同强项

设计哲学真超前:不是给旧任务套 AI,而是按 AI 原生重新解剖业务——这点领先中等企业 3-4 分,是最值钱的认知差。
策略即代码做成物理护栏:LeadPath fail-closed 脱敏白名单、ZENNI LOCKED:RAILS 哨兵机械硬挡——把"AI 不许越界"做进结构,中等企业基本没有。
确定性质量门 + 版本化进化:golden-eval exit(1) 召回铁线、kb selftest 脱敏断言、改规则走显式采纳门 + git tag/revert。
创始人判断力资产化的意识与骨架:ask-austin / austin-lens / 根因档案——把"只有 Austin 能做的判断"变成可调用资产,方向极对(虽内容待填)。
有意识的人在环护栏:发客户/真发邮件/花钱前审查/改规则全强制人工——这种克制在追自动化的浪潮里反而是成熟标志。

⚠️ 共同短板

没有跨技能的自主编排层:所有"流水线"都是人逐棒手动触发,没有 agent 能读目标+状态自主决定跑哪几棒——两套都卡在成熟度第 5 阶段门口。
完全没有"AI 提效本身"的 ROI 度量:答不出省了多少人时/周期压缩多少/单位成本/采纳率——机制再严谨也无数据可证。
运行时成本可观测 + 集中审计全空白:只有被动单点 credits 回显,"这一刻花了多少、谁干的"完全不可见。
知识资产"壳"一流但"内容"近空:采集飞轮建好了但还没真正转起来;程序性知识仍困在散文,无法按维度查询。
数据写入侧 + 自动同步缺失:两套都只解决了"读",新增/更新靠人工逐字段手录,规模一上来就被喂数瓶颈卡死。
质量门防得住"漏密/明显 slop",防不住"平庸但合规"——而平庸恰是内容/供需工作流的真正死因。

5LeadPath vs ZENNI:谁强在哪、怎么互相抄

两套各有所长,最高杠杆是互相借鉴。

LeadPath 更强在"工程契约与治理底盘":interfaces.md 的 typed JSON 单一事实源 + 改名同步纪律、Cloudflare Worker 后端代理把真密钥全收进去(零个人令牌、可轮换、401 作废)、fail-closed 脱敏白名单 + CI selftest、golden-eval 确定性召回考卷——它的"读管线 + 凭证治理 + 质量门"全面高于 ZENNI。

ZENNI 更强在"进化活性与现实锚定":三层学习闭环真在跑(git tag evolve-batch 可证、L1 零审批即时沉淀)、跨会话状态机更显式(不依赖对话上下文、改定焊死)、且有真正的 outcome 度量管线(weekly-review 拉 Buffer 真信号 + 发布对账归因回卡)——它更接近"用真实世界数据反哺自己"。

互相借鉴的最高杠杆三条:(1) ZENNI 立刻抄 LeadPath 的后端代理 + fail-closed 白名单,消灭 .mcp.json 明文密钥(P0,几乎零设计成本);(2) LeadPath 抄 ZENNI 的 git tag evolve-batch 让整批回滚可精确定位,并抄它的 outcome 度量思路给 cockpit 补真实业务数据回流;(3) 把 LeadPath 的 golden-eval"用真实历史做考卷"横移到 ZENNI——用已发布内容的真实 Buffer 信号做 ground truth 校准 06 五画像权重,从"自评自审永不被证伪"升级成"有真锚点的评测"。

66 个月优化路线(按杠杆排序)

分三阶段,每条含:为什么(绑维度)+ 能马上动手的第一步 + 工作量。

7持续学习方向

贴合你当前水平与下一个前沿。

8方法论与说明

这份审计怎么来的:用一个多智能体工作流(21 个 agent、约 220 万 token)——4 个 agent 实地读取你两套系统的真实源码(LeadPath 5 插件 / ZENNI 5 插件 / zenni-system / austin-ip / memory),按 8 维度盘点"实际建成了什么"(带文件证据);然后每个维度由独立 agent 打分,再由一个对抗性审查 agent 逐项质问、防止给你打虚高、防止把基线压太低;最后综合。

评分锚点:0=没有/反模式,3=零散尝试,5=行业平均/能用但手工,7=明显领先成体系,10=世界前沿(大会上 Databricks 级产品化)。"基线"= 这一波正在做 AI 转型的典型中等企业(realistic median)。

诚实边界:分数是某一时点的快照评估、含主观判断;P0 安全洞为我本人核实(只看字段名未读密钥值);源码证据来自 agent 实读,如与你最新改动不符以你为准。

你的 LeadPath × ZENNI 工作流,在这波 AI 转型里到底是超前还是中规中矩?