摘要:你还在打字指挥 AI 吗?Hermes Agent 现在可以和 ElevenLabs、Twilio 组合成一个真正能打电话的 AI 助手。你拨通一个真实手机号,用自然语音下达任务,Hermes 在后台调用记忆、Skills、文件系统、任务调度和代码工具,完成后再用语音反馈。本文从原理、架构、配置步骤、优化技巧和风险边界讲清楚这套方案,并顺手说明如何把 Hermes 的模型接入层配置到 4sAPI 大模型 API 中转站,降低多模型接入和成本管理门槛。
1. 开篇:你还在打字指挥 AI 吗?
过去一年,很多人已经习惯了在 ChatGPT、Claude、Codex、Hermes 里打字:
这当然有用,但它依然有一个限制:你必须坐在电脑前,打开窗口,输入指令,等待回复。
真正让人兴奋的下一步,是把 Agent 从聊天框里放出来。
比如你在开车、健身、通勤、做饭、出门路上,直接拨通一个电话,对 Hermes Agent 说:
然后 Agent 一边用自然人声和你对话,一边真的去写文件、查记忆、调度任务、运行代码。完成后,它再用语音告诉你结果。
这不是“语音版闲聊机器人”,而是能通过电话执行真实工作的 Hermes Agent。
2. 为什么这波操作值得关注
大多数 Voice AI 的体验,仍然停留在聊天层:
- 问天气;
- 讲笑话;
- 陪聊;
- 做简单问答;
- 读一段文本。
Hermes + ElevenLabs + Twilio 这套方案不一样。
它把三个系统各自擅长的部分拼起来:
| 组件 | 负责什么 | 价值 |
|---|---|---|
| Twilio | 提供真实可拨打手机号和电话接入 | 让你可以像打普通电话一样呼叫 Agent |
| ElevenLabs | 负责 STT、TTS、低延迟语音对话和电话基础设施 | 让 Agent 听得懂、说得自然、响应快 |
| Hermes Agent | 负责大脑、记忆、Skills、工具调用、文件操作和任务调度 | 让电话不只是聊天,而是能干活 |
| 4sAPI | 负责模型 API 中转、模型选择、Key、额度和日志管理 | 让 Hermes 的模型接入更统一、更好控成本 |
这套链路的核心变化是:语音不再只是输入法,而是 Agent 的远程控制入口。
你不需要坐在电脑前,也不需要打开桌面界面。只要能打电话,就能调用 Hermes。
3. 核心原理:电话如何变成 Agent 指令
整体链路可以理解成这样:
更简单一点:
这里最关键的是 Hermes 暴露的 OpenAI-compatible endpoint。
ElevenLabs Agents 可以把 Hermes 当作一个 Custom LLM 来调用。这样,ElevenLabs 不需要知道 Hermes 内部怎么调工具、怎么查记忆、怎么写文件;它只要把用户语音转成文本,发给 Hermes,再把 Hermes 的回复转成语音即可。
Hermes 仍然保留自己的核心能力:
- 持久记忆;
- 60+ Skills;
- Tool Gateway;
- 文件读写;
- 代码执行;
- cron 任务;
- 多 profile;
- 本地或远程部署。
所以,这不是把 Hermes “接了个语音壳”,而是给 Hermes 增加了一个电话入口。
4. 方案对比:桌面 Jarvis vs 电话 Agent
Hermes v0.16 Surface Release 之后,桌面端体验已经明显增强。很多人会把它理解成“桌面 Jarvis 模式”:你坐在电脑前,用语音控制屏幕、文件、工具和任务。
电话集成解决的是另一个场景。
| 模式 | 使用场景 | 优点 | 限制 |
|---|---|---|---|
| 桌面 Jarvis | 你在电脑前办公 | 适合屏幕操作、文件管理、代码协作 | 需要人在电脑旁边 |
| 电话 Agent | 你出门、开车、健身、通勤 | 随时拨打,完全 hands-free | 不适合长代码审查和复杂确认 |
| 两者结合 | 家里用桌面,外面打电话 | Agent 始终在线,场景连续 | 需要更细的权限和成本管理 |
我更推荐把电话 Agent 当成“远程调度入口”,而不是把所有复杂任务都塞到电话里做。
适合电话里做的任务:
- 创建提醒;
- 查询记忆;
- 简短总结;
- 生成文件草稿;
- 调度后台任务;
- 让 Agent 先检查问题;
- 给正在运行的项目补充指令。
不太适合电话里直接做的任务:
- 大规模代码重构;
- 需要逐行确认的修改;
- 涉及敏感数据的操作;
- 需要长时间阅读屏幕的内容;
- 需要精确复制复杂命令的流程。
5. 4sAPI配置:给 Hermes 一个稳定的模型接入层
在这套电话 Agent 方案里,很多人会先关注 ElevenLabs 和 Twilio,但真正长期影响体验的,是 Hermes 背后的模型接入层。
电话场景有几个特点:
- 对延迟更敏感;
- 每次交互都可能产生语音费用和模型费用;
- 简单任务需要快,复杂任务需要稳;
- 你可能需要在不同模型之间切换;
- 需要知道到底是哪类任务花了钱。
这时,把 Hermes 接到 4sAPI 大模型 API 中转站会更顺手。
4sAPI 在这里承担的是“模型路由和成本管理层”:
- 一个 API Key 接入多个模型;
- 可以按 Hermes 电话 Agent 单独创建 Key;
- 可以查看调用日志和消耗;
- 可以给电话场景单独设置额度;
- 可以按任务切换快模型和强模型;
- 国内环境下更适合快速测试和迭代。
5.1 推荐的链路
推荐链路如下:
也就是说,ElevenLabs 不直接连 4sAPI,而是先连 Hermes。Hermes 作为 Agent 大脑,决定是否查记忆、调工具、写文件、执行任务,再通过 4sAPI 调模型完成推理。
这样设计更清晰:
- ElevenLabs 只负责语音交互;
- Hermes 负责 Agent 逻辑;
- 4sAPI 负责模型接入;
- Twilio 负责电话入口。
5.2 Hermes侧模型配置思路
不同 Hermes 版本的配置入口可能略有差异,但思路是一致的:
如果你用的是环境变量方式,可以参考:
模型 ID 不要照抄示例,建议到 4sAPI 模型广场复制实际可用的模型名称。
电话场景建议准备两个模型:
这样你可以在 Hermes profile 里按场景切换,既保证响应速度,也避免所有任务都用高成本模型。
6. 一步步上手指南
下面是一条新手友好的 SOP。
6.1 准备账号和环境
你需要准备:
- Hermes Agent 最新版,推荐 v0.16 Surface Release 或更新版本;
- ElevenLabs 账号,并开通 API Key 和 Agents 功能;
- Twilio 账号,并购买一个可接入的电话号码;
- 4sAPI 账号,并创建 Hermes 电话 Agent 专用 API Key;
- 一台运行 Hermes 的机器,可以是本地电脑,也可以是 VPS。
如果你只是测试,建议先用本地 Hermes + 小额额度跑通流程。
如果你想随时随地打电话调用 Agent,更适合把 Hermes 放到稳定在线的 VPS 上,再做好权限、日志和访问控制。
6.2 启动 Hermes endpoint
先启动 Hermes,确保它的 Tool Gateway 或 chat completions endpoint 可用。
你需要得到一个 ElevenLabs 可以访问的 endpoint,例如:
或者在本地测试时使用:
注意:如果 ElevenLabs 云端服务要调用你的 Hermes,本地 localhost 通常不可直接访问。正式测试时建议使用 VPS、隧道服务或受控公网地址,并做好鉴权。
6.3 在 ElevenLabs 创建 Agent
进入 ElevenLabs 后台:
填入 Hermes endpoint:
语音建议先选低延迟、清晰、稳定的声音。电话场景里,不需要声音特别夸张,重点是听得清、响应快、不要啰嗦。
6.4 接入 Twilio 号码
在 Twilio 购买号码后,可以通过 ElevenLabs 的电话集成功能导入或绑定。
典型流程是:
配置完成后,来电链路会变成:
不同平台后台界面可能会更新,实际按钮名称以 ElevenLabs 和 Twilio 当前控制台为准。
6.5 配置 Hermes 使用 ElevenLabs TTS
如果你还想让 Hermes 桌面端或其他语音入口也使用 ElevenLabs,可以在 Hermes 环境变量中配置 ElevenLabs API Key。
示例:
这一步不是电话接入的唯一方式,但能让 Hermes 的语音体验保持一致。
6.6 拨打电话测试
第一次测试不要上来就让 Agent 改代码。
建议按这个顺序测:
确认语音、模型、工具、文件和记忆链路都通了,再测试更复杂的任务。
7. 让体验更顺的优化技巧
电话 Agent 最怕两个问题:慢和啰嗦。
所以优化重点不是“让它更会说”,而是让它更快、更短、更确定。
7.1 选快模型
电话场景优先选低延迟模型。
例如轻量任务可以使用类似 Claude Haiku、GPT mini、DeepSeek 快速模型这一类,复杂任务再切到更强模型。
一个实用策略:
如果你通过 4sAPI 接入多模型,可以把这两类模型都放进同一个后台管理,后续看日志和成本会清楚很多。
7.2 在 SOUL.md 里强化电话模式
可以给 Hermes 的系统人格或 SOUL.md 增加电话模式规则:
电话不是写长文的地方。电话里最舒服的 Agent,是少说废话、动作明确、关键节点会确认。
7.3 用 profiles 分场景
建议给 Hermes 建不同 profile:
不同 profile 可以绑定不同 Skills、不同记忆范围、不同模型和不同权限。
这比一个 Agent 什么都能干更安全,也更容易控制成本。
7.4 控制语音成本
语音调用通常比纯文字更贵,因为你同时消耗:
- 电话费用;
- 语音识别费用;
- 语音合成费用;
- 模型推理费用;
- 可能还有服务器费用。
所以建议先小额测试:
电话 Agent 很爽,但不要第一天就让它全天候跑满。
8. 真实可用的任务示例
下面这些任务,比较适合电话场景。
8.1 会议和工作
8.2 学习和提醒
8.3 写作和内容
8.4 代码和项目
电话里尤其要给 Agent 设置权限边界。能读、能写、能运行代码,不代表任何时候都应该直接执行高风险操作。
9. 注意事项:隐私、延迟、费用和合规
这类电话 Agent 很强,但也更需要边界感。
第一,注意隐私。
如果 Hermes 能访问你的文件、记忆和代码,就不要随便把 endpoint 暴露在公网。建议配置鉴权、访问控制、日志审计,敏感资料不要接入第三方语音链路。
第二,注意延迟。
电话体验对延迟非常敏感。简单任务最好几秒内有反馈;复杂任务可以先语音确认“我开始处理”,再后台执行。
第三,注意费用。
ElevenLabs + Twilio + 模型调用都是按量计费。建议一开始给 4sAPI Key、Twilio 和 ElevenLabs 都设预算提醒。
第四,注意法律合规。
电话自动化要遵守当地法律和平台规则。不要用于骚扰电话、未经授权录音、冒充真人、批量外呼、绕过平台限制或处理违规内容。
第五,注意操作权限。
涉及删除文件、覆盖文件、发送消息、付款、访问敏感数据、执行脚本等动作,最好要求 Hermes 必须二次确认。
10. 总结:AI Agent 终于开始离开聊天框
从聊天机器人,到桌面 Agent,再到能打电话干活的 AI 助手,Hermes 代表的方向很清晰:
ElevenLabs 解决了自然语音和低延迟对话,Twilio 解决了真实电话入口,Hermes 负责记忆、Skills 和工具执行,4sAPI 则把模型 API 接入、日志、额度和成本管理统一起来。
这套组合最适合的场景,不是炫技,而是把碎片时间变成可执行任务:
- 开车时安排提醒;
- 健身时记录灵感;
- 出门时调度 Agent 写文件;
- 通勤时查询项目记忆;
- 回电脑前先让 Agent 检查问题。
2026 年的 AI Agent,不应该只待在聊天框里。它应该能在你需要的时候,被你直接叫起来。
如果你已经在用 Hermes,可以先从一个低风险电话任务开始:创建提醒、写测试文件、查询记忆。等这三件事跑顺,再逐步开放代码、文件和自动化任务权限。




