返回详情如何把 Agent 放进真实工作流

00 / Cover

如何把 Agent 放进真实工作流

一次交流分享：把 Agent 从工具列表重新表征为上下文、角色、交付物和反馈组成的工作系统。

先定义位置，再讨论能力。

01 / Reframe

Agent 不是工具列表

更准确的表征是：Agent 是被放进上下文、角色、交付物和反馈回路里的工作单元。

工具关注能力
工作流关注位置
系统关注反馈

02 / Resources

三个主要对象

一个真实工作流不是聊天记录，而是一组可以被识别、分配、检查和复用的对象；反馈让它们循环起来。

上下文

目标、资料、限制、历史决策和当前状态。

角色

Reader、Planner、Reviewer、Writer 只是工作边界。

交付物

文档、任务、判断、代码或可继续迭代的记录。

03 / Flow

一次协作的流动

工作不是一次问答，而是一个能重复运行的回路：目标进去，判断回来。

Input

设定目标

先讲清要解决什么、边界在哪。

Context

整理上下文

把资料、约束和历史决策交给 Agent。

Run

执行记录

运行工具，产出可检查的交付物。

Feedback

写回判断

把人的取舍变成下一轮的上下文。

04 / Baseline

先跑出一个基线

不要先优化提示词。先让工作流能被重复运行、记录和比较。

workflow-baseline — zsh

git clone <repo> && cd agent-workflowpnpm installcp .env.example .envpnpm eval --case beforepnpm run session -- --record

每次优化都要能回到同一组输入和同一套判断。

05 / Evals

用可验证任务定义好坏

评估不是为了考试，而是让工作流知道自己到底在改善哪一段。

ID	任务	测试什么	判定方式
R1	提取上下文	是否遗漏约束	人工抽查
R2	生成计划	步骤是否可执行	结构匹配
R3	产出草稿	是否符合目标读者	人工评分
R4	复核风险	是否指出关键假设	清单检查
R5	交付摘要	是否能被下一轮复用	复用率

分数 = 可重复输入 + 可检查交付 + 人类判断。

06 / Dashboard

一页看懂工作流是否变好

优秀的 Agent 系统不是“更会说”，而是上下文更短、判断更稳、交付更可复用。

4工作对象

3检查点

0隐形步骤

82%可复用率

Context

输入更短

背景被压缩成能复用的块。

Artifact

输出更稳

每轮都有可检查的交付物。

Feedback

判断可回写

人的取舍会进入下一轮。

07 / Doer vs Tutor

Doer 和 Tutor 的分界

同一个 Agent 行为，可能是在帮你形成心智模型，也可能是在替你绕过心智模型。

Doer

直接交答案

省掉搜索，也省掉理解、取舍和内化。

Tutor

逐步给支架

降低外在负荷，但把关键判断留给你。

08 / Feedback

把反馈写回下一轮

工作流真正变强，不是因为 Agent 记住更多，而是因为人的判断变成了下一轮上下文。

feedback-loop.ts

artifact = agent.run(context)review = human.check(artifact)memory.add(review.decision)rules.add(review.risk)next.run(memory, rules)

记录决定

这次为什么这样取舍。

保留风险

哪些条件变化会推翻结果。

压缩规则

下次可以直接复用什么。

09 / Shift

从工具列表到工作系统

同样是用 AI，表征方式不同，长期结果完全不同。

Before

工具列表

关注模型、插件、命令和按钮，越学越散。

After

工作系统

关注对象、机制、反馈和交付，越用越清楚。

10 / Line

一句话收住这场分享

如果只能留下一个判断，就留下这个。

Agent 的价值，不在于替你完成所有步骤，而在于让工作留下可复用的判断。

Zhaphar · Build with agents

11 / Closing

真正带走的是内在地图

一次好的 Agent 协作，不只是完成任务，而是让你下次更快识别局面、更准判断路径、更稳交付结果。

先重画对象：我到底在操作什么
再压缩结构：它能不能复用到下次
最后保留判断：人是否仍然负责取舍

结构留下来，下次判断才会更快。