OpenCLI 学习 08:现实约束与兼容层思路

1. 我当前面对的现实约束

虽然我现在越来越倾向于:

  • 上层做 Agent
  • 下层做 Harness

但现实里调用我的人,很多时候只会通过 API 的形式来调用能力。

这意味着:

  • 我未必能决定上层最终长成什么样
  • 外部接入形式可能仍然是 HTTP、函数调用或者一次性接口

2. 我当前的重要判断

我现在认为,这并不和 Agent + Harness 的方向冲突。

更合理的理解是:

  • Agent + Harness 是内部核心结构
  • API、函数调用、HTTP 等形式是外部兼容层

也就是说,我真正需要先做好的是:

  • Agent 的能力设计
  • Harness 的抽象与落地
  • Agent 和 Harness 之间的接口关系

而不是一开始就被外部接入形式绑死。

3. 一个重要认识:不是 API 和 Agent 二选一

我当前更认可的分层是:

  • 内部:Agent + Harness
  • 外部:按现实需要外挂 API / HTTP / function-like interface

所以:

  • API 不需要消失
  • 它只是退到系统最外层,变成接入和兼容形式

这让我不再需要把“是否还要支持 API”理解成和 Agent 路线冲突的问题。

4. 关于 Agent“灵魂”的担心

我也意识到一个重要担心:

  • Agent 最灵魂的部分之一,可能正是中间的 checkpoint、澄清提问和用户确认
  • 如果最后被强行包成一次 HTTP 函数调用,这部分能力会被压缩掉

但我现在不打算一开始就被这个问题卡住。

我的当前选择是:

  • 先按我自己的思路把核心做好
  • 先把 Agent + Harness 这套结构做起来
  • 之后如果现实需求要求我把它收敛成某种固定形式,再去外挂适配层

5. 我当前的态度

我不再要求系统一开始就“完美兼容所有未来形态”。

我更愿意先坚持:

  • 核心结构要对
  • 内部能力组织方式要对
  • 真正有复利的部分要先沉淀出来

至于外面到底包成:

  • HTTP
  • 函数
  • 单轮接口
  • 工作流节点
  • 聊天式交互

这些都可以是后续适配层的问题。

6. 我当前的一句话总结

我现在更愿意先把自己的核心路线定为 Agent + Harness,把 API 或其他外部形态看成后挂的兼容层。即使未来现实需求要求我把能力收敛成一次 HTTP 或函数形式,也不影响我先把内部能力结构做对。

7. 暂时停在这里

当前阶段,我不再继续泛化思考。

下一次继续时,更适合进入的问题会是:

如何具体落地一个 harness。

Read more

三台机器部署 ClickHouse 高可用集群实战记录

本文是一份可发布版部署记录。真实 IP、域名、账号、密码、下载链接、业务目录名、机器唯一标识等敏感信息已经替换为占位符。命令中的 <...> 需要按自己的环境替换。 目标与拓扑 这次目标是用三台数据节点部署一套 ClickHouse 高可用集群,拓扑采用: 1 shard x 3 replicas 含义是:集群只有一个逻辑分片,三台机器都保存同一份数据的完整副本。任意一台数据节点宕机时,只要 ClickHouse Keeper 仍然有多数派,剩余节点仍可继续提供读写服务。 规划节点如下: 主机名示例地址角色ch-01<ch-01-ip>ClickHouse Server + ClickHouse Keeperch-02<ch-02-ip>ClickHouse Server + ClickHouse Keeperch-03<ch-03-ip&

By ladydd

折腾记(二):接入火山引擎实时语音 API,家庭语音助手体验直接拉满

接上篇 上一篇用全开源组件(Whisper + Hermes + Edge-TTS)搭了个语音助手,能跑,但体验就是"能用"二字: * 中文识别只有 70 分,方言基本歇菜 * 英文唤醒词"Alexa"喊着别扭 * 说完到回复要等 4-8 秒 * 它说话的时候你插不了嘴 这些问题靠堆开源组件很难根治。于是我去试了火山引擎(字节跳动)的语音服务,结果直接换了条路。 这篇分两段:先讲怎么用火山引擎的 ASR/TTS 替换掉开源组件(小改),再讲怎么上端到端实时语音模型(大改)。 第一段:先把 ASR 和 TTS 换成火山引擎 为什么换 我用豆包输入法的时候发现它语音识别准得离谱。一查,豆包用的就是字节自家的火山引擎 Seed-ASR。开通后有免费额度(

By ladydd

折腾记(一):用全开源组件给家里搭一个语音助手,对接自己的 Hermes Agent

起因 事情是从一块 ESP32-S3 开发板开始的。 我手上有一块 Seeed Studio XIAO ESP32-S3 Sense,带摄像头和麦克风。最初的想法很美好:用这块板子做一个无线语音终端,对着它说话,连到我服务器上跑的 Hermes Agent(一个自托管的 AI agent),让它回答我。 但折腾到一半我突然意识到一件事:我的麦克风、音响、服务器全在家里,为什么要绕一圈用 ESP32?直接把麦克风和音响插到服务器上不就行了? ESP32 那条路(做无线拾音终端)当然也有价值,但那是"为了学嵌入式而学",不是解决问题的最短路径。于是这个项目就从"嵌入式项目"变成了"在服务器上拼一个语音助手"。这篇就记录后者。 教训零:先想清楚你要解决的是什么问题。很多时候最优解比你最初设想的简单得多。 目标

By ladydd

Kiro 的三种代理设置方法:本地、服务端、Remote

作为kiro的骨灰级用户,这篇是我自己折腾 Kiro / Kiro Remote / Ubuntu Server 代理问题后的复盘。 核心不是“怎么配一个代理”,而是先判断:到底是谁在访问外网? 谁访问外网,代理就要配给谁。 0. 先说结论 Kiro 相关代理大概分三类: 场景真正访问外网的进程在哪里代理应该配在哪里本地 KiroWindows / Mac 本机本机 Clash / Proxifier / 系统代理服务端 Kiro / CLIUbuntu Server 上的 shell、CLI、node、kiro 进程Ubuntu 的环境变量,比如 HTTP_PROXY / HTTPS_PROXYKiro Remote远程 Ubuntu 上的 ~/.kiro-server 和 extensionHost远程 Ubuntu 的 Kiro Server

By ladydd
陕公网安备61011302002223号 | 陕ICP备2025083092号