agent

pi-mono 学习 03｜pi-ai 的输入输出：事件流、最终消息与可重放上下文

ladydd

01 Apr 2026 — 3 min read

这篇写什么

聚焦 pi-ai 的统一输入输出协议：为什么要把输出分成“事件流”和“最终消息”，以及为什么“可重放性”是 agent 系统的关键约束。

先说结论

pi-ai 的核心价值是：把多厂商模型调用统一成一套对 agent 友好的输入输出协议。

对 agent 友好意味着它要覆盖：

多轮上下文
工具调用
流式增量输出
thinking/reasoning
usage/cost
失败与中断
跨模型继续对话

统一输入：上层真正需要表达的只有四类

用哪个模型
当前上下文是什么
这轮可以用哪些工具
这轮调用的运行参数是什么

模型输入不是字符串

模型对象应携带能力与调用语义：provider、协议类型、上下文窗口、是否支持 reasoning/多模态、成本与兼容配置等。

上下文输入不是单一 prompt

必须能表达 system 指令、历史消息、tool result 历史、以及多模态内容块。

工具输入必须结构化

工具是一组能力清单（名称/描述/参数 schema），而不是靠纯文本提示“你可以用这些工具”。

运行参数与上下文分层

运行参数影响执行方式（温度、max tokens、abort、transport、metadata…），但不应污染上下文语义。

统一输出：为什么要两层

1) 过程层：事件流

事件流用于表达进行中的状态变化，例如：

文本增量
thinking 增量
tool call 及参数增量
结束或错误

价值：UI 可实时渲染，runtime 可在 tool call 完整时接管执行。

2) 结果层：最终消息

最终消息是“这轮调用的官方结算单”：

完整 assistant 内容（可能包含 text/thinking/tool call 等内容块）
来源信息（provider/model/协议）
usage/cost
stop reason
error（如有）

价值：便于落库、回放、续接会话、统计分析。

为什么必须强调可重放性

一句话：输出最终要能够回流为下一轮输入。

这看起来简单，但现实里要面对：

thinking/reasoning 可能无法跨模型无损重放
tool call 标识或格式在不同 provider 下可能不兼容
aborted/error 消息是否应进入历史

因此设计要允许：

表达 thinking/tool call
同时不假设它们一定能跨模型原样重放
必要时降级、剔除或转换

stop reason 为什么必须标准化

不同 provider 的结束语义很不统一，但上层真正关心的是：

是否自然结束
是否需要执行工具
是否长度截断
是否错误或中断

标准化 stop reason 是 agent runtime 决策（继续/停止、补救、重试）的关键依据。

小结

pi-ai 输入侧统一“模型 + 上下文 + 工具 + 运行参数”，输出侧统一“事件流 + 最终消息”，并把“可重放性”作为设计约束。

这些是它能支撑 agent 系统稳定多轮运行的骨架。

三台机器部署 ClickHouse 高可用集群实战记录

本文是一份可发布版部署记录。真实 IP、域名、账号、密码、下载链接、业务目录名、机器唯一标识等敏感信息已经替换为占位符。命令中的 <...> 需要按自己的环境替换。目标与拓扑这次目标是用三台数据节点部署一套 ClickHouse 高可用集群，拓扑采用： 1 shard x 3 replicas 含义是：集群只有一个逻辑分片，三台机器都保存同一份数据的完整副本。任意一台数据节点宕机时，只要 ClickHouse Keeper 仍然有多数派，剩余节点仍可继续提供读写服务。规划节点如下：主机名示例地址角色ch-01<ch-01-ip>ClickHouse Server + ClickHouse Keeperch-02<ch-02-ip>ClickHouse Server + ClickHouse Keeperch-03<ch-03-ip&

折腾记（二）：接入火山引擎实时语音 API，家庭语音助手体验直接拉满

接上篇上一篇用全开源组件（Whisper + Hermes + Edge-TTS）搭了个语音助手，能跑，但体验就是"能用"二字： * 中文识别只有 70 分，方言基本歇菜 * 英文唤醒词"Alexa"喊着别扭 * 说完到回复要等 4-8 秒 * 它说话的时候你插不了嘴这些问题靠堆开源组件很难根治。于是我去试了火山引擎（字节跳动）的语音服务，结果直接换了条路。这篇分两段：先讲怎么用火山引擎的 ASR/TTS 替换掉开源组件（小改），再讲怎么上端到端实时语音模型（大改）。第一段：先把 ASR 和 TTS 换成火山引擎为什么换我用豆包输入法的时候发现它语音识别准得离谱。一查，豆包用的就是字节自家的火山引擎 Seed-ASR。开通后有免费额度（

折腾记（一）：用全开源组件给家里搭一个语音助手，对接自己的 Hermes Agent

起因事情是从一块 ESP32-S3 开发板开始的。我手上有一块 Seeed Studio XIAO ESP32-S3 Sense，带摄像头和麦克风。最初的想法很美好：用这块板子做一个无线语音终端，对着它说话，连到我服务器上跑的 Hermes Agent（一个自托管的 AI agent），让它回答我。但折腾到一半我突然意识到一件事：我的麦克风、音响、服务器全在家里，为什么要绕一圈用 ESP32？直接把麦克风和音响插到服务器上不就行了？ ESP32 那条路（做无线拾音终端）当然也有价值，但那是"为了学嵌入式而学"，不是解决问题的最短路径。于是这个项目就从"嵌入式项目"变成了"在服务器上拼一个语音助手"。这篇就记录后者。教训零：先想清楚你要解决的是什么问题。很多时候最优解比你最初设想的简单得多。目标

Kiro 的三种代理设置方法：本地、服务端、Remote

作为kiro的骨灰级用户,这篇是我自己折腾 Kiro / Kiro Remote / Ubuntu Server 代理问题后的复盘。核心不是“怎么配一个代理”，而是先判断：到底是谁在访问外网？谁访问外网，代理就要配给谁。 0. 先说结论 Kiro 相关代理大概分三类：场景真正访问外网的进程在哪里代理应该配在哪里本地 KiroWindows / Mac 本机本机 Clash / Proxifier / 系统代理服务端 Kiro / CLIUbuntu Server 上的 shell、CLI、node、kiro 进程Ubuntu 的环境变量，比如 HTTP_PROXY / HTTPS_PROXYKiro Remote远程 Ubuntu 上的 ~/.kiro-server 和 extensionHost远程 Ubuntu 的 Kiro Server