课程目录

从 Agent 真实案例聊起,看看业界前沿,和人之为人

这次分享分成三段:先从商家 Claw 的真实案例进入,看看我们在 to be Agent 上做了什么;再看行业前沿仍在快速变化,后面可能还会发生什么;最后回到“人之为人”,讨论当智力可以被调度,我们要怎么选择自己的站位。

01 第一部分

从商家 Claw 真实案例聊起

一个给商家用的数字员工,到底能干什么?

先用真实商家、真实截图和真实采纳动作建立直觉,再进入 to be Agent 的实现方案。

  • 商家 Claw 的真实案例:生图、商圈对标、菜单排序
  • to be Agent 上我们做了什么
  • LLM 选型、Harness / Agent Loop、评测与质量保障
进入真实案例
02 第二部分

看看业界前沿

整个行业仍在高度不确定性之中,后面还可能发生什么?

不追求给定论,而是用几个仍在演进的方向,理解 AI 能力边界还会继续移动。

  • 历史信息处理:Memory / Dreaming、Long Context、Parametric Memory
  • 统一架构 / 全模态:文字、图片、语音、表格、动作逐渐汇合
  • 自进化:AI 参与改进自己的工具链
查看前沿趋势
03 第三部分

人之为人

AI 能做更多事之后,前线价值会迁移到哪里?

不急着回答谁会被替代,先看清一个变化:技能变得普及之后,真正被放大的是会定义问题、组织资源、验证结果的人。

  • 写字与写代码:技能平权后,稀缺点会迁移
  • 工业革命类比:体力被调度之后,智力也开始被调度
  • 贴着能力边界用 AI,把结果带回真实经营
进入人之为人
已经做到什么 真实商家案例建立直觉
还会发生什么 前沿方向继续移动边界
人站在哪里 目标、判断、关系与责任

Part 1

真实案例:商家 Claw 到底能做什么

从真实商家、真实截图和真实采纳动作开始,看一个给商家用的数字员工如何进入经营现场。

01 装修及菜品生图 / 门店装修焕新

装修生图采纳:从单张海报到完整装修

沅湘小馆现场看到 AI 生成的芒种海报后直接换上;宅门记忆则提供了完整门店装修 Before / After 素材。这个案例的重点不是“AI 建议看起来不错”,而是 AI 生成的经营素材真的进入了商家动作。

现场采纳 生成海报被老板直接换上
成本感知 商家反馈一年约 6 万代运营费用,另有摄影成本
能力延展 从替换单张海报,延展到完整门店装修焕新
关键价值 Agent 接入具体业务动作后,价值从“咨询”转向“低成本经营能力交付”。商家不只需要一句建议,更需要能立刻使用、能省钱省时间的素材和动作。
商家 Claw 装修及菜品生图链路截图
链路截图:从商家问题进入,生成可采纳的装修及菜品素材。
沅湘小馆 AI 生成芒种海报
AI 生成海报
沅湘小馆现场换上海报后的截图
现场换上
Before 宅门记忆完整装修前截图
After 宅门记忆完整装修后提亮版截图
港记甜品商圈和标杆分析截图
港记甜品:商圈、货源、标杆菜单结构与活动建议。
02 经营分析诊断 / 商圈标杆对标

港记甜品:商圈和标杆证据推动当场采纳

同商圈多个商家是同货源,商家 Claw 基于标杆给出菜单结构及活动调整建议,商家当场采纳。这里的关键不是“AI 说得有道理”,而是它把分散证据组织成了可推进的经营建议。

商圈参照 先把门店放回同商圈竞争环境里看。
标杆证据 用同货源和菜单结构对齐建议依据。
现场采纳 建议不只停留在分析页,而进入商家动作。
关键启发 Agent 的强项是把分散证据组织成可行动建议;人负责选择、沟通和推进,把证据转化成商家愿意采纳的动作。
03 菜单商品优化 / 采纳与边界

第酒烧场:菜单排序建议有效,但真实约束决定边界

第酒烧场采纳了基于销量、加购和转化数据的菜单排序建议。采纳后,在未剔除其他动作干扰的情况下,下单转化提升 3.4pp。但上新和组套建议没有被采纳,因为真实经营里还有厨房、食材、区域口味和用餐偏好这些约束。

关键启发 Agent 进入经营闭环后,评价标准不是“答案看起来合理”,而是能否被商家采纳、能否产生业务指标变化、是否贴合真实经营约束。
3.4pp 下单转化提升

排序建议被采纳后出现的指标变化;该结果未剔除其他经营动作干扰。

被采纳 菜单排序 销量、加购、转化数据支撑明确,动作路径清晰。
未采纳 上新 / 组套 涉及厨房能力、食材损耗、出餐时长和区域口味,不能只靠通用推荐。
出餐时长 厨房设备 食材损耗 区域口味 用餐偏好

Product

更多产品交互展示

产品交互截图一
产品交互截图二
产品交互截图三
产品交互截图四

System

从案例回到系统:LLM、Harness 和评测撑起数字员工

前面的案例看到的是结果:素材被采纳、证据推动沟通、排序建议进入经营动作。回到系统里,一个商家问题要先被理解,再被组织进 Agent Loop,最后通过工具、数据和评测进入可执行结果。

商家 Claw Agent Loop 架构图
一个商家问题进入系统后,会在理解、决策、行动、观察之间反复循环,直到形成建议、完成动作,或进入人工确认。
01 商家问题

来自经营、活动、商品、装修、规则等真实场景。

02 LLM

理解目标、推理路径、判断下一步该查什么或做什么。

03 Harness

把模型组织进 Agent Loop,让它按步骤执行、观察和修正。

04 业务工具 / 数据 / 知识库

查证据、读状态、调能力,把语言判断接到真实业务世界。

05 评测

持续监控软错误、证据链、稳定性、成本和业务结果。

06 可执行建议

输出经营建议、素材方案、操作路径,或进入人工确认。

Core 01

LLM 是数字员工的脑子

它让系统不再只是固定流程自动化,而能面对新问题理解目标、寻找路径、在失败后换方向。

Core 02

Harness 让聪明可控

它负责循环、工具调用、重试、停止、确认和兜底,让模型在可预期的轨道里完成任务。

Core 03

评测让系统可上线

当错误变得像人一样“看似合理”,评测就要盯住证据链、稳定性、成本和真实业务效果。

3.3 LLM

脑子是 Agent 成立的核心驱动力

Agent 不只是因为有循环才成立,而是因为 LLM 已经具备理解目标、规划路径、调用工具、失败后换方向的能力。模型越会自己找路,越需要同时看能力、成本、稳定性和边界。

Principle & Training

从预测下一个 token,到学会在复杂任务里找路径

Pre-train 让模型学会语言和世界知识;SFT 让模型学会按人的指令格式做事;RL 在复杂、可验证的任务里,让模型自己探索路径,再根据结果反馈调整行为。

Pre-train 学会语言、知识和模式。
SFT 学会对话、指令跟随、工具调用格式。
RL 在可验证结果里学习探索和泛化。
predict next token 原理图
SFT 密集监督示例图
RL 结果奖励示例图
Cost & Cache

Token 成本不是模型单价问题,而是 Agent 工程问题

同样是 1M tokens,不同模型成本差异很大;但真正决定是否划算的,是任务能不能稳定完成、上下文能不能复用、失败能不能及时停下来。

query 数量占比与成本占比分桶图
模型 / 版本 加权成本 / 1M tokens 适合说明
DeepSeek V4-Pro 促销价 ¥0.2994 极低成本口径
DeepSeek V4-Pro 原价 ¥1.1981 约为 Opus 的 1/6
Kimi K2.6 ¥1.6390 约为 Opus 的 1/4 到 1/5
Claude Sonnet 4.6 ¥4.3770 中高成本口径
Claude Opus 4.6 / 4.7 ¥7.2948 当前强 Agent 模型成本口径
70% 可能被浪费的 token

框架机制、工具质量、环境不稳定和使用不当都会放大成本。

Cache 稳定前缀才有价值

动态 DOM、截图、长日志会破坏缓存连续性,让成本膨胀。

难任务复盘

LLM 会 best try,但不一定沿着你预期的轨道完成任务

“导出开业 30 天内未开启明厨亮灶的门店列表”没有现成路径。强模型会搜索能力、猜接口、写脚本、扫页面、解析 JS bundle,最后甚至用替代指标把任务做成。

¥84.33 第一次尝试未交付
3447 覆盖门店池
19 最终导出未开启门店

LLM 的价值是会找路,风险也是会乱找路。Harness 的价值,是让它在可控轨道上找路。

从野生探索到有护栏的 Agent Loop
完整路径 一次难任务里,模型真实走过的完整过程

现场不需要逐字读完,只看几个高亮节点:失败、试探、误判、换方向、替代口径、交付。

前两次尝试

11:57 第一次开始 ¥84.33,未真正交付
搜索 明厨 / 亮灶 / kitchen / openDate 先找已有能力入口
试探 猜接口、枚举 exCode、写临时脚本 向系统边界外扩
误判 showFoodSafety ≠ 明厨亮灶状态 看似接近,但口径不稳
13:55 第二次仍然失败 结论转向人工协助

最终突破

14:03 换方向:从 foodSafety 页面入手 从页面和前端资源反推接口
解析 /gw/food/safety/merchant/display/status/query 扫 JS bundle,定位真实接口
替代 is_new_poi ≈ 开业 30 天内 完成任务,但口径变成替代口径
交付 3447 → 154 → 19 导出未开启门店列表
不轻易放弃 会绕到意想不到的路径 同样需要边界、预算和停止条件

3.4 Harness

Harness:让聪明的大脑在可控轨道上做事

前面明厨亮灶的例子说明,LLM 能在没有现成路径时主动找路;但要把这种能力放进真实商家场景,还需要流程、工具、预算和边界一起工作。

Agent Loop 工作循环:感知、决策、行动、观察、再决策
Agent Loop

Harness 不是让模型更聪明,而是让模型把聪明稳定地用出来

一个新 BD 接到商家问题,不会只靠脑子想一句答案,而是会确认问题、查数据、看规则、判断证据,再决定继续追问、推进执行,还是交给更合适的人。Harness 做的就是把这套工作习惯系统化。

理解目标 判断下一步 调用能力 观察结果 修正计划 继续 / 停止 / 交给人
01

任务组织

把“最近单量差怎么办”拆成可执行步骤:先看流量、进店、下单、活动、评价和商品,而不是直接给一句泛泛建议。

02

工具调度

LLM 判断要查什么,Harness 把数据、知识库和业务工具的调用过程跑稳,避免模型自己去猜不存在的接口。

03

结果观察

工具返回后继续判断:证据够不够,口径有没有冲突,是否需要补查,能不能进入下一步。

04

边界控制

决定什么时候继续、什么时候停止、什么时候二次确认、什么时候交给人。商家经营动作越真实,这一点越关键。

只有 LLM

会主动找路,也可能反复试探、误判口径、猜接口、写临时脚本,成本和动作边界都不稳定。

LLM + Harness

把探索收束到白名单工具、预算阈值、停止条件和人工确认里,让 Agent 在真实业务里可运行、可追踪、可兜底。

LLM 负责找路,Harness 负责让它在可控轨道上找路。

3.5 评测

评测:把一个“软员工”训练到可上线、可监控、可迭代

Agent 系统的错误不总是接口报错,也可能是答案看起来合理、路径看起来努力,但证据链、口径、成本或动作边界出了问题。

评测平台质量闭环:开发准入评测、线上真实对话评测、运行监控告警、BadCase 回流治理
Quality Loop

不是一次打分,而是一条质量闭环

上线前看准入,线上看真实对话,运行中看监控告警,失败后把 BadCase 回流成新的样本、断言和规则。

01 准入评测 能不能上线
02 真实对话 用户怎么问
03 运行监控 成本、耗时、失败
04 回流治理 让下一版更稳
证据链不对

答案像是合理的,但引用的数据、规则或工具来源并不能支持结论。

输出不稳定

同一个问题多问几次,路径和结果可能变化,商家拿到的建议不一致。

工具顺序变化

先查什么、后查什么会影响最终判断,Agent 不能每次都随缘组织动作。

信息源冲突

多个工具、页面和数据源给出不同信号时,需要判断该相信哪个口径。

旁证推理过度

模型会像明厨亮灶案例一样找替代证据;这有价值,也必须被边界约束。

升级带来新风险

模型更强之后会尝试新路径,旧评测不一定能覆盖新的行为模式。

Part 2

前沿趋势:行业边界还在快速移动

这一部分不追求给出定论,而是看几个仍在演进的方向,以及这些方向成熟后,我们使用 AI 的方式可能如何变化。

4.3 方向 1

历史信息处理:Memory / Dreaming、Long Context、Parametric Memory

当历史对话、商家资料、经营动作和失败经验越来越多,AI 必须有技术方案处理“过去”。Memory / Dreaming 是人类最容易理解的路线,但不是唯一答案。

Research Question

AI 不能每次都像第一次认识你

如果每次任务都重新解释背景,Agent 的上限会被上下文、成本和用户耐心卡住。前沿方向正在解决同一个问题:怎样让系统带着过去的经验继续工作。

Train with finite context, use as infinite context.
成熟后的使用姿势

我们可能不再反复补充背景,而是让 AI 自动沉淀偏好、复盘失败路径、整理长期经验,再把这些经验带入下一次任务。

人类记忆机制与 AI 系统的映射:上下文、记忆文件、模型权重、系统提示词和 Auto Dream
Dreaming 机制:把碎片经验整理成可读记忆和复盘结果
01

Memory / Dreaming

研究进展:从把历史对话塞进上下文,走向长期记忆、经验压缩和后台复盘。

使用变化:系统把碎片经验整理成人可读的记忆文件、规则和复盘,下次任务直接继承。

02

Long Context

研究进展:训练和推理阶段都在变长,1M 级上下文已经进入前沿模型能力范围。

使用变化:一次任务现场可以带着更多文档、规则、聊天记录和经营历史一起工作。

03

Parametric Memory

研究进展:把长期经验、知识和模式压进模型参数里,不一定以人可读文件存在。

使用变化:经验可能被更深层地内化进模型能力,而不是每次都显式拿出来读。

4.4 方向 2

统一架构 / 全模态:理解、生成、对齐会不会走向同一套系统?

语言模型已经把“读、写、对齐”相对收进同一套 Transformer 范式里;图像和多模态还长期是理解一套、生成一套、对齐一套。最近一些工作开始露出“大一统”的影子。

Unification

从多个能力栈,走向一个统一系统

未来的 AI 使用姿势,可能不再区分“让它看图、让它生图、让它写文案、让它操作工具”。用户给出混合材料和目标,模型系统自己完成理解、生成、编辑、对齐和行动。

关键变化

竞争不只看单项能力榜单,而要看一套系统能否把多模态输入、生成能力、工具行动、成本和延迟放在一起优化。

语言侧 Transformer + next token
理解 生成 对齐

读、写、偏好对齐被收进同一套语言模型范式。

多模态侧 理解 / 生成 / 对齐正在汇合
视觉编码器 / VLM Diffusion / Flow 跨模态对齐

从三套能力栈,走向统一的多模态模型系统。

Autoregressive

逐 token 生成

像打字机一样从左到右,一个 token 接一个 token 输出。它稳定、成熟,但延迟和并行度会受生成顺序限制。

ELF / Diffusion / Flow

先在连续空间里形成整体,再逐步修正

ELF 提示语言生成未必只能在离散 token 上进行,也可能进入 continuous embedding / latent 空间,通过 diffusion 或 flow 完成生成,再映射回 token。

Product Signal

最先改变的是交互体感

如果并行生成和低延迟成熟,用户首先感受到的不是论文术语,而是 AI 响应更快、更实时、更像一个可以连续协作的系统。

4.5 方向 3

自进化:AI 正在进入自己的研发闭环

这里的重点不是科幻式“AI 自我觉醒”,而是一个更现实的趋势:AI 正在接管越来越多改进 AI 系统本身的工作,从写代码、跑实验、修 bug、做评测,到提出下一步实验。

When AI builds itself

执行越来越便宜,判断会变得更贵

Anthropic 的主线很清楚:AI 参与开发的范围正在扩大,但完整 recursive self-improvement 还没有发生,也不必然发生。真正已经开始变化的是组织瓶颈:执行被加速以后,目标选择、结果验证、风险控制和协同会成为更稀缺的环节。

Anthropic Institute 原文
01 人写代码和文档 AI 只是被动工具
02 Chatbot 生成片段 补全、解释、草稿
03 Coding Agent 改文件 读仓库、改代码、跑测试
04 Autonomous Agent 跑任务 运行代码,委托数小时工作
05 可能的 Closing the loop 设计、开发、训练后继模型
12h

任务时间窗口变长

Anthropic 引用外部趋势:AI 能可靠独立完成的任务时长约每 4 个月翻倍;示例从 2024 年约 4 分钟,到 2026 年约 12 小时。

80%+

AI 参与代码合入

截至 2026 年 5 月,Anthropic 称其合入代码中超过 80% 可归因于 Claude。这个数字是方向信号,不等同于质量。

8x

工程产出被放大

2026 年第二季度,典型工程师每天合入代码量约为 2024 年的 8 倍。代码行数不是生产力本身,但说明执行环节在加速。

800+

长期问题被批量修复

Claude 曾完成 800 多个修复,把一类 API 错误降低 1000 倍;过去“不值得做”的改善项,可能突然变得值得做。

Merchant Agent

从“让 AI 做任务”,到“让 AI 改进任务系统”

商家 Claw 下一阶段不只是回答商家问题,也可以让 AI 参与发现高频失败、归因能力缺口、生成评测样本、提出工具和评测改进建议,再由人审核进入系统迭代。

商家 query Agent 执行 失败 / 低分样本 AI 归因 生成 tool / eval 改进建议 人审核 系统升级

Part 3

当智力可以被调度,人往哪里站?

这不是一句“AI 替不替代人”的单选题。更重要的变化是:技能会被普及,能力会被调度,人的位置会从亲自执行迁移到定义目标、组织资源、验证结果和承担责任。

不是站在 AI 对面,而是站到任务上方

当某种能力从少数人掌握,变成更多人可以调用,它不会简单抹掉人的价值,而是重定价“什么才稀缺”。稀缺点会从“我会不会做”,迁移到“我能不能把更复杂的事组织起来”。

定目标 拆任务 验结果 担责任
技能普及 能力调度 价值迁移
类比 01

写字与代码:技能平权后,稀缺点会迁移

写字普及后,代写书信不再是核心稀缺,但更好的文字工作者、编辑、叙事者出现了。代码能力被普及后,写代码本身也会被重新定价,但会有更多人用代码能力构建更大的系统。

关键变化 从“会不会写”,迁移到“能不能表达清楚、组织复杂、验证结果”。
类比 02

工业革命与 AI:能力被调度后,规模会变大

蒸汽机出现时,人们很难想象被集中调度的巨大力量会带来桥梁、高楼、工厂和现代工业。今天,智力也开始从个体身上部分抽离,变成可以组织和调度的资源。

关键变化 AI 不是复制一个人的脑力,而是让大量智力像工业动力一样被组织起来。
人的站位

前线价值不在“抢着亲手做”,而在把 AI 结果带回真实经营

商家信不信、动作能不能落地、什么时候该推、什么时候该停,这些判断来自关系、现场感和责任位置。AI 给的是候选路径,前线同学决定哪些路径值得被执行。

01

贴着能力边界用

不要用半年前的印象判断 AI。把最新能力放进真实问题里试,知道它现在能做到哪里,也知道哪里还不稳。

02

把问题拆成可委托任务

把“帮商家变好”拆成看数据、找证据、生成方案、准备沟通、跟踪效果,让 AI 接住明确的工作单元。

03

把结果带回真实经营

AI 给的是候选路径。最终要看商家是否采纳、经营是否改善、风险是否可控,这一步仍然需要人来判断。