返回详情如何把 Agent 放进真实工作流
导出演示 PDF

01 / Reframe

Agent 不是工具列表

更准确的表征是:Agent 是被放进上下文、角色、交付物和反馈回路里的工作单元。

  • 工具关注能力
  • 工作流关注位置
  • 系统关注反馈

02 / Resources

三个主要对象

一个真实工作流不是聊天记录,而是一组可以被识别、分配、检查和复用的对象;反馈让它们循环起来。

1

上下文

目标、资料、限制、历史决策和当前状态。

2

角色

Reader、Planner、Reviewer、Writer 只是工作边界。

3

交付物

文档、任务、判断、代码或可继续迭代的记录。

03 / Flow

一次协作的流动

工作不是一次问答,而是一个能重复运行的回路:目标进去,判断回来。

Input

设定目标

先讲清要解决什么、边界在哪。

Context

整理上下文

把资料、约束和历史决策交给 Agent。

Run

执行记录

运行工具,产出可检查的交付物。

Feedback

写回判断

把人的取舍变成下一轮的上下文。

04 / Baseline

先跑出一个基线

不要先优化提示词。先让工作流能被重复运行、记录和比较。

workflow-baseline — zsh
git clone <repo> && cd agent-workflowpnpm installcp .env.example .envpnpm eval --case beforepnpm run session -- --record

每次优化都要能回到同一组输入和同一套判断。

05 / Evals

用可验证任务定义好坏

评估不是为了考试,而是让工作流知道自己到底在改善哪一段。

ID任务测试什么判定方式
R1提取上下文是否遗漏约束人工抽查
R2生成计划步骤是否可执行结构匹配
R3产出草稿是否符合目标读者人工评分
R4复核风险是否指出关键假设清单检查
R5交付摘要是否能被下一轮复用复用率
分数 = 可重复输入 + 可检查交付 + 人类判断。

06 / Dashboard

一页看懂工作流是否变好

优秀的 Agent 系统不是“更会说”,而是上下文更短、判断更稳、交付更可复用。

4工作对象
3检查点
0隐形步骤
82%可复用率
Context

输入更短

背景被压缩成能复用的块。

Artifact

输出更稳

每轮都有可检查的交付物。

Feedback

判断可回写

人的取舍会进入下一轮。

07 / Doer vs Tutor

Doer 和 Tutor 的分界

同一个 Agent 行为,可能是在帮你形成心智模型,也可能是在替你绕过心智模型。

Doer

直接交答案

省掉搜索,也省掉理解、取舍和内化。

Tutor

逐步给支架

降低外在负荷,但把关键判断留给你。

08 / Feedback

把反馈写回下一轮

工作流真正变强,不是因为 Agent 记住更多,而是因为人的判断变成了下一轮上下文。

feedback-loop.ts
artifact = agent.run(context)review = human.check(artifact)memory.add(review.decision)rules.add(review.risk)next.run(memory, rules)
01

记录决定

这次为什么这样取舍。

02

保留风险

哪些条件变化会推翻结果。

03

压缩规则

下次可以直接复用什么。

09 / Shift

从工具列表到工作系统

同样是用 AI,表征方式不同,长期结果完全不同。

Before

工具列表

关注模型、插件、命令和按钮,越学越散。

After

工作系统

关注对象、机制、反馈和交付,越用越清楚。

10 / Inner Map

真正带走的是内在地图

一次好的 Agent 协作,不只是完成任务,而是让你下次更快识别局面、更准判断路径、更稳交付结果。

  • 先重画对象:我到底在操作什么
  • 再压缩结构:它能不能复用到下次
  • 最后保留判断:人是否仍然负责取舍