agent

pi-mono 学习 02｜pi-ai：为什么需要单独一层来统一模型调用

ladydd

01 Apr 2026 — 3 min read

这篇写什么

只讲 packages/ai（pi-ai）的设计动机与职责边界：它到底统一了什么、为什么对 agent 很关键、它和 pi-agent-core 的分工是什么。

先说结论

pi-ai 的本质不是“又一个模型 SDK”，而是：一个面向 agent 场景的多模型统一抽象层。

它的目标是把不同厂商、不同协议、不同风格的大模型调用方式，收敛成一套统一输入输出标准，让上层系统稳定工作。

为什么值得单独做一层

如果没有这一层，上层会直接面对：

不同厂商的 API 结构、消息格式、流式协议差异
tool calling 表达差异
reasoning/thinking 支持差异
usage / cost 统计差异

最终会导致：

agent 层被 provider 细节污染
每加一个 provider 都要横向改大量代码
跨模型继续对话变得不稳定

pi-ai 的价值不是“让调用更方便一点”，而是：让上层架构不被底层模型差异拖垮。

它到底统一了什么

可以粗分四类：

统一输入
统一输出
统一模型描述
统一兼容策略

1) 统一输入

上层只表达：

用哪个模型
当前上下文是什么
这轮允许哪些工具
运行参数是什么

2) 统一输出

对 agent 来说，统一输出比统一输入更关键，因为 agent 需要过程：

文本增量
thinking/reasoning 增量
tool call 增量
stop reason
usage/cost

pi-ai 把各家原始流式返回翻译成统一事件流，上层不需要理解各家 chunk 细节。

3) 统一模型描述

模型不是一个字符串，而是调用语义载体：

provider / 协议类型
上下文窗口与最大输出
是否支持 reasoning、多模态
成本信息
兼容配置

这些信息让上层可以做能力判断、成本统计与路由。

4) 统一兼容策略

现实里“兼容”带脏细节。pi-ai 把兼容处理集中在底层适配与模型兼容配置里，而不是让上层四处写 if/else。

协议层视角：不以 provider 为唯一抽象单位

一个关键设计点是：抽象单位更像“协议类型”，而不是“厂商名”。

这样 OpenAI-compatible 或 Anthropic-compatible 的服务可以大量复用实现，只在少数不兼容点做局部修正。

它为什么特别适合 agent

因为 agent 需要：

工具调用
多轮循环
中间态事件
上下文可重放
成本与 stop reason

pi-ai 从一开始就不是“聊天式封装”，而是“agent 式封装”。

和 `pi-agent-core` 的边界

pi-ai 负责：统一模型调用、上下文表示、流式事件、工具表达、usage/cost/stop reason、屏蔽 provider 差异。
pi-agent-core 负责：什么时候调模型、什么时候执行工具、工具结果怎么回灌、是否继续下一轮、什么时候停止。

一句话：pi-ai 解决“怎么和模型说话”，pi-agent-core 解决“怎么让模型持续干活”。

三台机器部署 ClickHouse 高可用集群实战记录

本文是一份可发布版部署记录。真实 IP、域名、账号、密码、下载链接、业务目录名、机器唯一标识等敏感信息已经替换为占位符。命令中的 <...> 需要按自己的环境替换。目标与拓扑这次目标是用三台数据节点部署一套 ClickHouse 高可用集群，拓扑采用： 1 shard x 3 replicas 含义是：集群只有一个逻辑分片，三台机器都保存同一份数据的完整副本。任意一台数据节点宕机时，只要 ClickHouse Keeper 仍然有多数派，剩余节点仍可继续提供读写服务。规划节点如下：主机名示例地址角色ch-01<ch-01-ip>ClickHouse Server + ClickHouse Keeperch-02<ch-02-ip>ClickHouse Server + ClickHouse Keeperch-03<ch-03-ip&

折腾记（二）：接入火山引擎实时语音 API，家庭语音助手体验直接拉满

接上篇上一篇用全开源组件（Whisper + Hermes + Edge-TTS）搭了个语音助手，能跑，但体验就是"能用"二字： * 中文识别只有 70 分，方言基本歇菜 * 英文唤醒词"Alexa"喊着别扭 * 说完到回复要等 4-8 秒 * 它说话的时候你插不了嘴这些问题靠堆开源组件很难根治。于是我去试了火山引擎（字节跳动）的语音服务，结果直接换了条路。这篇分两段：先讲怎么用火山引擎的 ASR/TTS 替换掉开源组件（小改），再讲怎么上端到端实时语音模型（大改）。第一段：先把 ASR 和 TTS 换成火山引擎为什么换我用豆包输入法的时候发现它语音识别准得离谱。一查，豆包用的就是字节自家的火山引擎 Seed-ASR。开通后有免费额度（

折腾记（一）：用全开源组件给家里搭一个语音助手，对接自己的 Hermes Agent

起因事情是从一块 ESP32-S3 开发板开始的。我手上有一块 Seeed Studio XIAO ESP32-S3 Sense，带摄像头和麦克风。最初的想法很美好：用这块板子做一个无线语音终端，对着它说话，连到我服务器上跑的 Hermes Agent（一个自托管的 AI agent），让它回答我。但折腾到一半我突然意识到一件事：我的麦克风、音响、服务器全在家里，为什么要绕一圈用 ESP32？直接把麦克风和音响插到服务器上不就行了？ ESP32 那条路（做无线拾音终端）当然也有价值，但那是"为了学嵌入式而学"，不是解决问题的最短路径。于是这个项目就从"嵌入式项目"变成了"在服务器上拼一个语音助手"。这篇就记录后者。教训零：先想清楚你要解决的是什么问题。很多时候最优解比你最初设想的简单得多。目标

Kiro 的三种代理设置方法：本地、服务端、Remote

作为kiro的骨灰级用户,这篇是我自己折腾 Kiro / Kiro Remote / Ubuntu Server 代理问题后的复盘。核心不是“怎么配一个代理”，而是先判断：到底是谁在访问外网？谁访问外网，代理就要配给谁。 0. 先说结论 Kiro 相关代理大概分三类：场景真正访问外网的进程在哪里代理应该配在哪里本地 KiroWindows / Mac 本机本机 Clash / Proxifier / 系统代理服务端 Kiro / CLIUbuntu Server 上的 shell、CLI、node、kiro 进程Ubuntu 的环境变量，比如 HTTP_PROXY / HTTPS_PROXYKiro Remote远程 Ubuntu 上的 ~/.kiro-server 和 extensionHost远程 Ubuntu 的 Kiro Server