Hermes电话Agent | ElevenLabs+Twilio实战

摘要：你还在打字指挥 AI 吗？Hermes Agent 现在可以和 ElevenLabs、Twilio 组合成一个真正能打电话的 AI 助手。你拨通一个真实手机号，用自然语音下达任务，Hermes 在后台调用记忆、Skills、文件系统、任务调度和代码工具，完成后再用语音反馈。本文从原理、架构、配置步骤、优化技巧和风险边界讲清楚这套方案，并顺手说明如何把 Hermes 的模型接入层配置到 4sAPI 大模型 API 中转站，降低多模型接入和成本管理门槛。

1. 开篇：你还在打字指挥 AI 吗？

过去一年，很多人已经习惯了在 ChatGPT、Claude、Codex、Hermes 里打字：

text

帮我整理会议纪要
帮我写一份计划
帮我检查代码
帮我安排提醒

这当然有用，但它依然有一个限制：你必须坐在电脑前，打开窗口，输入指令，等待回复。

真正让人兴奋的下一步，是把 Agent 从聊天框里放出来。

比如你在开车、健身、通勤、做饭、出门路上，直接拨通一个电话，对 Hermes Agent 说：

text

帮我写一份明天会议的议程总结，放到 Downloads。
从记忆里拉一下上周项目进度，整理成三条重点。
安排下午 3 点日语学习提醒。
检查项目里的一个 bug，能修就直接 patch。

然后 Agent 一边用自然人声和你对话，一边真的去写文件、查记忆、调度任务、运行代码。完成后，它再用语音告诉你结果。

这不是“语音版闲聊机器人”，而是能通过电话执行真实工作的 Hermes Agent。

2. 为什么这波操作值得关注

大多数 Voice AI 的体验，仍然停留在聊天层：

问天气；
讲笑话；
陪聊；
做简单问答；
读一段文本。

Hermes + ElevenLabs + Twilio 这套方案不一样。

它把三个系统各自擅长的部分拼起来：

组件	负责什么	价值
Twilio	提供真实可拨打手机号和电话接入	让你可以像打普通电话一样呼叫 Agent
ElevenLabs	负责 STT、TTS、低延迟语音对话和电话基础设施	让 Agent 听得懂、说得自然、响应快
Hermes Agent	负责大脑、记忆、Skills、工具调用、文件操作和任务调度	让电话不只是聊天，而是能干活
4sAPI	负责模型 API 中转、模型选择、Key、额度和日志管理	让 Hermes 的模型接入更统一、更好控成本

这套链路的核心变化是：语音不再只是输入法，而是 Agent 的远程控制入口。

你不需要坐在电脑前，也不需要打开桌面界面。只要能打电话，就能调用 Hermes。

3. 核心原理：电话如何变成 Agent 指令

整体链路可以理解成这样：

text

你拨打 Twilio 号码
        -> Twilio 接入来电
        -> ElevenLabs 处理语音识别和语音回复
        -> ElevenLabs Agent 调用 Custom LLM
        -> Hermes OpenAI-compatible endpoint / Tool Gateway
        -> Hermes 调用 Skills、记忆、文件、代码、任务
        -> Hermes 通过 4sAPI 调用模型
        -> ElevenLabs 把结果转成自然语音
        -> 电话里回复你

更简单一点：

text

Twilio 管电话
ElevenLabs 管声音
Hermes 管行动
4sAPI 管模型接入

这里最关键的是 Hermes 暴露的 OpenAI-compatible endpoint。

ElevenLabs Agents 可以把 Hermes 当作一个 Custom LLM 来调用。这样，ElevenLabs 不需要知道 Hermes 内部怎么调工具、怎么查记忆、怎么写文件；它只要把用户语音转成文本，发给 Hermes，再把 Hermes 的回复转成语音即可。

Hermes 仍然保留自己的核心能力：

持久记忆；
60+ Skills；
Tool Gateway；
文件读写；
代码执行；
cron 任务；
多 profile；
本地或远程部署。

所以，这不是把 Hermes “接了个语音壳”，而是给 Hermes 增加了一个电话入口。

4. 方案对比：桌面 Jarvis vs 电话 Agent

Hermes v0.16 Surface Release 之后，桌面端体验已经明显增强。很多人会把它理解成“桌面 Jarvis 模式”：你坐在电脑前，用语音控制屏幕、文件、工具和任务。

电话集成解决的是另一个场景。

模式	使用场景	优点	限制
桌面 Jarvis	你在电脑前办公	适合屏幕操作、文件管理、代码协作	需要人在电脑旁边
电话 Agent	你出门、开车、健身、通勤	随时拨打，完全 hands-free	不适合长代码审查和复杂确认
两者结合	家里用桌面，外面打电话	Agent 始终在线，场景连续	需要更细的权限和成本管理

我更推荐把电话 Agent 当成“远程调度入口”，而不是把所有复杂任务都塞到电话里做。

适合电话里做的任务：

创建提醒；
查询记忆；
简短总结；
生成文件草稿；
调度后台任务；
让 Agent 先检查问题；
给正在运行的项目补充指令。

不太适合电话里直接做的任务：

大规模代码重构；
需要逐行确认的修改；
涉及敏感数据的操作；
需要长时间阅读屏幕的内容；
需要精确复制复杂命令的流程。

5. 4sAPI配置：给 Hermes 一个稳定的模型接入层

在这套电话 Agent 方案里，很多人会先关注 ElevenLabs 和 Twilio，但真正长期影响体验的，是 Hermes 背后的模型接入层。

电话场景有几个特点：

对延迟更敏感；
每次交互都可能产生语音费用和模型费用；
简单任务需要快，复杂任务需要稳；
你可能需要在不同模型之间切换；
需要知道到底是哪类任务花了钱。

这时，把 Hermes 接到 4sAPI 大模型 API 中转站会更顺手。

4sAPI 在这里承担的是“模型路由和成本管理层”：

一个 API Key 接入多个模型；
可以按 Hermes 电话 Agent 单独创建 Key；
可以查看调用日志和消耗；
可以给电话场景单独设置额度；
可以按任务切换快模型和强模型；
国内环境下更适合快速测试和迭代。

5.1 推荐的链路

推荐链路如下：

text

ElevenLabs Agent
        -> Hermes Custom LLM Endpoint
        -> Hermes 模型配置
        -> 4sAPI OpenAI-compatible API
        -> Claude / GPT / Gemini / DeepSeek 等模型

也就是说，ElevenLabs 不直接连 4sAPI，而是先连 Hermes。Hermes 作为 Agent 大脑，决定是否查记忆、调工具、写文件、执行任务，再通过 4sAPI 调模型完成推理。

这样设计更清晰：

ElevenLabs 只负责语音交互；
Hermes 负责 Agent 逻辑；
4sAPI 负责模型接入；
Twilio 负责电话入口。

5.2 Hermes侧模型配置思路

不同 Hermes 版本的配置入口可能略有差异，但思路是一致的：

text

Provider 类型：OpenAI-compatible / Custom Endpoint
Base URL：https://4sapi.com/v1
API Key：填写 4sAPI 控制台创建的 Key
Model：填写 4sAPI 模型广场里的模型 ID

如果你用的是环境变量方式，可以参考：

env

OPENAI_BASE_URL=https://4sapi.com/v1
OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxx
OPENAI_MODEL=gpt-5.5-xhigh

模型 ID 不要照抄示例，建议到 4sAPI 模型广场复制实际可用的模型名称。

电话场景建议准备两个模型：

text

fast-phone-model：用于提醒、查询、短总结、轻量对话
strong-agent-model：用于写文件、代码检查、长文整理、复杂规划

这样你可以在 Hermes profile 里按场景切换，既保证响应速度，也避免所有任务都用高成本模型。

6. 一步步上手指南

下面是一条新手友好的 SOP。

6.1 准备账号和环境

你需要准备：

Hermes Agent 最新版，推荐 v0.16 Surface Release 或更新版本；
ElevenLabs 账号，并开通 API Key 和 Agents 功能；
Twilio 账号，并购买一个可接入的电话号码；
4sAPI 账号，并创建 Hermes 电话 Agent 专用 API Key；
一台运行 Hermes 的机器，可以是本地电脑，也可以是 VPS。

如果你只是测试，建议先用本地 Hermes + 小额额度跑通流程。

如果你想随时随地打电话调用 Agent，更适合把 Hermes 放到稳定在线的 VPS 上，再做好权限、日志和访问控制。

6.2 启动 Hermes endpoint

先启动 Hermes，确保它的 Tool Gateway 或 chat completions endpoint 可用。

你需要得到一个 ElevenLabs 可以访问的 endpoint，例如：

text

https://your-domain.com/v1/chat/completions

或者在本地测试时使用：

text

http://localhost:xxxx/v1/chat/completions

注意：如果 ElevenLabs 云端服务要调用你的 Hermes，本地 localhost 通常不可直接访问。正式测试时建议使用 VPS、隧道服务或受控公网地址，并做好鉴权。

6.3 在 ElevenLabs 创建 Agent

进入 ElevenLabs 后台：

text

ElevenLabs Console
  -> Agents
  -> Create / Edit Agent
  -> LLM / Brain
  -> Custom LLM

填入 Hermes endpoint：

text

Custom LLM URL：https://your-domain.com/v1/chat/completions
Authentication：填写 Hermes endpoint 需要的鉴权信息

语音建议先选低延迟、清晰、稳定的声音。电话场景里，不需要声音特别夸张，重点是听得清、响应快、不要啰嗦。

6.4 接入 Twilio 号码

在 Twilio 购买号码后，可以通过 ElevenLabs 的电话集成功能导入或绑定。

典型流程是：

text

Twilio Console
  -> Buy a Number
  -> 获取 Account SID / Auth Token / Phone Number
  -> ElevenLabs 电话集成
  -> 导入 Twilio 号码
  -> 自动配置 webhook

配置完成后，来电链路会变成：

text

用户拨打 Twilio 号码
  -> Twilio webhook
  -> ElevenLabs Agent
  -> Hermes
  -> 语音回复用户

不同平台后台界面可能会更新，实际按钮名称以 ElevenLabs 和 Twilio 当前控制台为准。

6.5 配置 Hermes 使用 ElevenLabs TTS

如果你还想让 Hermes 桌面端或其他语音入口也使用 ElevenLabs，可以在 Hermes 环境变量中配置 ElevenLabs API Key。

示例：

env

ELEVENLABS_API_KEY=sk_xxxxxxxxxxxxxxxx
ELEVENLABS_VOICE_ID=your_voice_id

这一步不是电话接入的唯一方式，但能让 Hermes 的语音体验保持一致。

6.6 拨打电话测试

第一次测试不要上来就让 Agent 改代码。

建议按这个顺序测：

text

第一轮：你好，听得到吗？
第二轮：请用一句话介绍你现在能做什么。
第三轮：帮我创建一个测试提醒，内容是晚上 8 点看书。
第四轮：帮我在 Downloads 生成一个 test-agent-call.txt，写入一句测试文本。
第五轮：从记忆里查询我最近的项目关键词。

确认语音、模型、工具、文件和记忆链路都通了，再测试更复杂的任务。

7. 让体验更顺的优化技巧

电话 Agent 最怕两个问题：慢和啰嗦。

所以优化重点不是“让它更会说”，而是让它更快、更短、更确定。

7.1 选快模型

电话场景优先选低延迟模型。

例如轻量任务可以使用类似 Claude Haiku、GPT mini、DeepSeek 快速模型这一类，复杂任务再切到更强模型。

一个实用策略：

text

提醒 / 查询 / 短总结：快模型
写文件 / 分析资料 / 检查代码：强模型
最终确认 / 重要输出：强模型 + 简短复述

如果你通过 4sAPI 接入多模型，可以把这两类模型都放进同一个后台管理，后续看日志和成本会清楚很多。

7.2 在 SOUL.md 里强化电话模式

可以给 Hermes 的系统人格或 SOUL.md 增加电话模式规则：

text

当用户通过电话与你交互时：
1. 回复要简短，优先确认已理解的任务。
2. 能执行就先执行，不要长篇解释。
3. 涉及删除、覆盖、付款、发送消息等高风险动作时，必须二次确认。
4. 完成后用一句话汇报结果。
5. 如果任务需要较长时间，先告知正在处理，再继续执行。

电话不是写长文的地方。电话里最舒服的 Agent，是少说废话、动作明确、关键节点会确认。

7.3 用 profiles 分场景

建议给 Hermes 建不同 profile：

text

phone-work：工作电话助手
phone-personal：个人提醒和记忆助手
phone-code：代码检查和项目任务助手
phone-writing：写作和内容整理助手

不同 profile 可以绑定不同 Skills、不同记忆范围、不同模型和不同权限。

这比一个 Agent 什么都能干更安全，也更容易控制成本。

7.4 控制语音成本

语音调用通常比纯文字更贵，因为你同时消耗：

电话费用；
语音识别费用；
语音合成费用；
模型推理费用；
可能还有服务器费用。

所以建议先小额测试：

text

每天限制测试次数
给 4sAPI Key 设置额度
给 Twilio 设置预算提醒
给 ElevenLabs 设置使用监控
复杂任务让 Agent 生成草稿，最终在桌面确认

电话 Agent 很爽，但不要第一天就让它全天候跑满。

8. 真实可用的任务示例

下面这些任务，比较适合电话场景。

8.1 会议和工作

text

帮我写一份明天会议的议程，保存到 Downloads。
把上周项目进度整理成三条，我等下要汇报。
查一下记忆里关于 A 项目的风险点。
给我生成一个今天的工作收尾清单。

8.2 学习和提醒

text

安排下午 3 点提醒我学日语。
把今天通勤时想到的三个选题记下来。
晚上 9 点提醒我复盘今天的训练。
从记忆里找一下我上次学到哪一课。

8.3 写作和内容

text

帮我把刚才说的观点整理成一篇博客提纲。
把这个选题记到内容池，标题先写三个版本。
生成一份小红书卡片大纲，等我回电脑后再细化。
把今天的灵感整理成 Markdown 文件。

8.4 代码和项目

text

检查一下当前项目有没有明显报错。
先跑测试，如果失败，把错误摘要读给我。
看一下上次 TODO 里还有什么没做。
帮我 patch 一个小问题，但涉及删除文件前先问我。

电话里尤其要给 Agent 设置权限边界。能读、能写、能运行代码，不代表任何时候都应该直接执行高风险操作。

9. 注意事项：隐私、延迟、费用和合规

这类电话 Agent 很强，但也更需要边界感。

第一，注意隐私。

如果 Hermes 能访问你的文件、记忆和代码，就不要随便把 endpoint 暴露在公网。建议配置鉴权、访问控制、日志审计，敏感资料不要接入第三方语音链路。

第二，注意延迟。

电话体验对延迟非常敏感。简单任务最好几秒内有反馈；复杂任务可以先语音确认“我开始处理”，再后台执行。

第三，注意费用。

ElevenLabs + Twilio + 模型调用都是按量计费。建议一开始给 4sAPI Key、Twilio 和 ElevenLabs 都设预算提醒。

第四，注意法律合规。

电话自动化要遵守当地法律和平台规则。不要用于骚扰电话、未经授权录音、冒充真人、批量外呼、绕过平台限制或处理违规内容。

第五，注意操作权限。

涉及删除文件、覆盖文件、发送消息、付款、访问敏感数据、执行脚本等动作，最好要求 Hermes 必须二次确认。

10. 总结：AI Agent 终于开始离开聊天框

从聊天机器人，到桌面 Agent，再到能打电话干活的 AI 助手，Hermes 代表的方向很清晰：

text

AI 不只是一个网页工具，而是一个可以随时联系的工作伙伴。

ElevenLabs 解决了自然语音和低延迟对话，Twilio 解决了真实电话入口，Hermes 负责记忆、Skills 和工具执行，4sAPI 则把模型 API 接入、日志、额度和成本管理统一起来。

这套组合最适合的场景，不是炫技，而是把碎片时间变成可执行任务：

开车时安排提醒；
健身时记录灵感；
出门时调度 Agent 写文件；
通勤时查询项目记忆；
回电脑前先让 Agent 检查问题。

2026 年的 AI Agent，不应该只待在聊天框里。它应该能在你需要的时候，被你直接叫起来。

如果你已经在用 Hermes，可以先从一个低风险电话任务开始：创建提醒、写测试文件、查询记忆。等这三件事跑顺，再逐步开放代码、文件和自动化任务权限。

Hermes电话Agent | ElevenLabs+Twilio实战

1. 开篇：你还在打字指挥 AI 吗？

2. 为什么这波操作值得关注

3. 核心原理：电话如何变成 Agent 指令

4. 方案对比：桌面 Jarvis vs 电话 Agent

5. 4sAPI配置：给 Hermes 一个稳定的模型接入层

5.1 推荐的链路

5.2 Hermes侧模型配置思路

6. 一步步上手指南

6.1 准备账号和环境

6.2 启动 Hermes endpoint

6.3 在 ElevenLabs 创建 Agent

6.4 接入 Twilio 号码

6.5 配置 Hermes 使用 ElevenLabs TTS

6.6 拨打电话测试

7. 让体验更顺的优化技巧

7.1 选快模型

7.2 在 SOUL.md 里强化电话模式

7.3 用 profiles 分场景

7.4 控制语音成本

8. 真实可用的任务示例

8.1 会议和工作

8.2 学习和提醒

8.3 写作和内容

8.4 代码和项目

9. 注意事项：隐私、延迟、费用和合规

10. 总结：AI Agent 终于开始离开聊天框

推荐阅读

Remotion批量素材 | 发布会带货视频

文章口播榜单视频 | 4SAPI批量栏目

Codex+Remotion | 4类视频模板

Mac Mini跑Claude | 7x24第二大脑