agent

OpenCLI 学习 07：我的工作方向与方法抽象

ladydd

14 Apr 2026 — 2 min read

1. 我目前开始形成的一个工作判断

我觉得之后我的工作可以分成两个主要方向。

方向一：构建一个聪明且通用的 Agent

这个 Agent 的重点，不是把所有具体业务逻辑都写死在内部，而是让它擅长：

理解任务
选择工具
读取状态
逐步决策
失败后调整
结合 Skill 和结构化输出来完成多步编排

也就是说，它更像是一个通用的编排和判断层。

方向二：把具体业务需求落成 Agent-Friendly Harness

当一个具体业务需求到来时，我不再优先想着：

直接暴露零散 API
直接写一个固定 workflow

而是优先考虑：

能不能把这类业务能力整理成命令树
能不能有清晰的状态模型
能不能有结构化输出
能不能让 Agent 更容易识别这些能力并自主组合

也就是说，重点从“写固定流程”转向“设计能力接口”。

2. 一个重要修正：不是不要 API，而是不要把 API 直接等同于 Agent 接口

我当前逐渐意识到：

底层仍然可以有 API、SDK、数据库、第三方服务
但 Agent 不一定应该直接面对这些底层接口

更合理的分层可能是：

底层：API / SDK / service
中层：CLI-harness / 命令树 / 状态模型
上层：Agent 编排

所以不是否定 API，而是提升一层抽象后再给 Agent 使用。

3. 为什么这种分层有价值

我现在觉得，这种方式的一个很大好处是：

把 Agent 设计和具体业务能力落地相对解耦

这样就可以：

先做一个通用 Agent
再把具体业务逐步落成不同 harness
最后形成“通用 Agent + 领域 harness”的组合

它不一定天然完美，但会比把所有逻辑都揉在一起更清晰、更可替换、更容易演进。

4. 这里最难的地方不在于“写几个命令”

我目前觉得真正难的点在于：

哪些能力应该暴露
命令如何分组
命令粒度多大最合适
哪些状态必须显式暴露
如何降低 Agent 的理解成本
如何让 Agent 既有自由度又不至于乱用能力

所以真正的难点是 Agent 和 harness 之间的接口设计，而不是单纯的代码实现。

5. 我当前最认可的一句话

我的工作将分成两层：

上层做通用 Agent
下层做面向具体业务的 harness

前者负责思考和编排，后者负责把业务能力整理成 Agent 可理解、可调用的结构化接口。

把 Codex CLI 的登录态"搬"到一台新服务器

场景:你在一台老机器上早就登录好了 Codex CLI,现在开了台新服务器、装好了 codex,但它没登录。你不想在新机上重新走一遍 OAuth 网页授权(有时候服务器上根本打不开浏览器),只想把老机器上那份"已经登录好的身份"复制过去。这篇讲的就是这个搬运动作的完整方法论——为什么能搬、怎么搬、有哪些坑。命令里所有隐私都用占位符,照着换成你自己的即可。一、先理解一件事:Codex 的登录就是一个文件这是整个操作的地基。Codex CLI(ChatGPT OAuth 登录模式下)的登录状态,不在什么系统钥匙串里,也不在环境变量里,就是家目录下一个单独的 JSON 文件: ~/.codex/auth.json 它长这样(字段名是真的,值我打码了): { "auth_mode": "

哨兵机制:让 Agent 一触即醒

0. 一句话点破本质 **让"等"发生在便宜的子进程里,让贵的 agent 只在有事时醒。**心跳解决"最迟多久必有人查岗",探针解决"事情一发生几乎立刻有人到场"——两个机制回答的是两个不同的问题,谁也替代不了谁。 1. 机制全貌:会自杀的轮询进程 + 宿主的"尸体通知" 我的实现只有两块积木: 积木一:一个有明确死法的后台循环 # 放行任务的同时,后台挂上(run_in_background) for i in $(seq 1 20); do 信号=$(ssh data "tmux capture-pane -t dna

Agent 心跳机制·设计与实现

0. 一句话点破本质 **心跳不是闹钟,是"带着完整世界快照的自我唤醒"。**闹钟只解决"什么时候醒";心跳真正要解决的是你点出的那个问题——醒来的那个瞬间,清楚自己是谁、任务到哪了、这一跳该干什么。我所有跑得好的心跳,提示词都写得像给一个失忆的陌生人看的;所有出过事的心跳,都是因为假设"我还记得"。 1. 第一性原理:为什么"醒来知道干啥"这么难一个长期任务里的 agent 面临三重失忆: 1. 上下文会被压缩——多轮之后早期细节只剩摘要,心跳打进来时,那条心跳提示词可能是上下文里唯一高保真的任务描述 2. 世界在你睡着时变了——下属可能干完了、卡死了、跑偏了,你脑子里的"进度"从睡着那刻就开始过期 3. 任务本身会变—

我没手动映射 3000，公网为什么还能访问？一次 UPnP 误开孔复盘

写在前面：标题里的“自己打开”只是当时的主观感受。路由器没有失控，也不存在神秘穿透。真正发生的是：排障自动化从局域网主动调用了 UPnP AddPortMapping，路由器按协议新增了公网映射。 1. 原本的设计边界家里的 Open WebUI 跑在一台 Ubuntu 主机的 Docker 中：内网主机 192.168.x.x:3000 路由器上手动配置的入口是：公网 TCP 13000 → 内网主机:3000 外部用户不直接访问家宽端口，而是先到云端 Caddy：用户浏览器 → https://ai.example.com （云端 Caddy） → http://home.example.com:13000 （DDNS → 家宽公网