返回博客

Hermes电话Agent | ElevenLabs+Twilio实战

人工智能3372
Hermes电话Agent | ElevenLabs+Twilio实战

摘要:你还在打字指挥 AI 吗?Hermes Agent 现在可以和 ElevenLabs、Twilio 组合成一个真正能打电话的 AI 助手。你拨通一个真实手机号,用自然语音下达任务,Hermes 在后台调用记忆、Skills、文件系统、任务调度和代码工具,完成后再用语音反馈。本文从原理、架构、配置步骤、优化技巧和风险边界讲清楚这套方案,并顺手说明如何把 Hermes 的模型接入层配置到 4sAPI 大模型 API 中转站,降低多模型接入和成本管理门槛。

1. 开篇:你还在打字指挥 AI 吗?

过去一年,很多人已经习惯了在 ChatGPT、Claude、Codex、Hermes 里打字:

text
帮我整理会议纪要
帮我写一份计划
帮我检查代码
帮我安排提醒

这当然有用,但它依然有一个限制:你必须坐在电脑前,打开窗口,输入指令,等待回复。

真正让人兴奋的下一步,是把 Agent 从聊天框里放出来。

比如你在开车、健身、通勤、做饭、出门路上,直接拨通一个电话,对 Hermes Agent 说:

text
帮我写一份明天会议的议程总结,放到 Downloads。
从记忆里拉一下上周项目进度,整理成三条重点。
安排下午 3 点日语学习提醒。
检查项目里的一个 bug,能修就直接 patch。

然后 Agent 一边用自然人声和你对话,一边真的去写文件、查记忆、调度任务、运行代码。完成后,它再用语音告诉你结果。

这不是“语音版闲聊机器人”,而是能通过电话执行真实工作的 Hermes Agent。

2. 为什么这波操作值得关注

大多数 Voice AI 的体验,仍然停留在聊天层:

Hermes + ElevenLabs + Twilio 这套方案不一样。

它把三个系统各自擅长的部分拼起来:

组件负责什么价值
Twilio提供真实可拨打手机号和电话接入让你可以像打普通电话一样呼叫 Agent
ElevenLabs负责 STT、TTS、低延迟语音对话和电话基础设施让 Agent 听得懂、说得自然、响应快
Hermes Agent负责大脑、记忆、Skills、工具调用、文件操作和任务调度让电话不只是聊天,而是能干活
4sAPI负责模型 API 中转、模型选择、Key、额度和日志管理让 Hermes 的模型接入更统一、更好控成本

这套链路的核心变化是:语音不再只是输入法,而是 Agent 的远程控制入口。

你不需要坐在电脑前,也不需要打开桌面界面。只要能打电话,就能调用 Hermes。

3. 核心原理:电话如何变成 Agent 指令

整体链路可以理解成这样:

text
你拨打 Twilio 号码
        -> Twilio 接入来电
        -> ElevenLabs 处理语音识别和语音回复
        -> ElevenLabs Agent 调用 Custom LLM
        -> Hermes OpenAI-compatible endpoint / Tool Gateway
        -> Hermes 调用 Skills、记忆、文件、代码、任务
        -> Hermes 通过 4sAPI 调用模型
        -> ElevenLabs 把结果转成自然语音
        -> 电话里回复你

更简单一点:

text
Twilio 管电话
ElevenLabs 管声音
Hermes 管行动
4sAPI 管模型接入

这里最关键的是 Hermes 暴露的 OpenAI-compatible endpoint。

ElevenLabs Agents 可以把 Hermes 当作一个 Custom LLM 来调用。这样,ElevenLabs 不需要知道 Hermes 内部怎么调工具、怎么查记忆、怎么写文件;它只要把用户语音转成文本,发给 Hermes,再把 Hermes 的回复转成语音即可。

Hermes 仍然保留自己的核心能力:

所以,这不是把 Hermes “接了个语音壳”,而是给 Hermes 增加了一个电话入口。

4. 方案对比:桌面 Jarvis vs 电话 Agent

Hermes v0.16 Surface Release 之后,桌面端体验已经明显增强。很多人会把它理解成“桌面 Jarvis 模式”:你坐在电脑前,用语音控制屏幕、文件、工具和任务。

电话集成解决的是另一个场景。

模式使用场景优点限制
桌面 Jarvis你在电脑前办公适合屏幕操作、文件管理、代码协作需要人在电脑旁边
电话 Agent你出门、开车、健身、通勤随时拨打,完全 hands-free不适合长代码审查和复杂确认
两者结合家里用桌面,外面打电话Agent 始终在线,场景连续需要更细的权限和成本管理

我更推荐把电话 Agent 当成“远程调度入口”,而不是把所有复杂任务都塞到电话里做。

适合电话里做的任务:

不太适合电话里直接做的任务:

5. 4sAPI配置:给 Hermes 一个稳定的模型接入层

在这套电话 Agent 方案里,很多人会先关注 ElevenLabs 和 Twilio,但真正长期影响体验的,是 Hermes 背后的模型接入层。

电话场景有几个特点:

这时,把 Hermes 接到 4sAPI 大模型 API 中转站会更顺手。

4sAPI 在这里承担的是“模型路由和成本管理层”:

5.1 推荐的链路

推荐链路如下:

text
ElevenLabs Agent
        -> Hermes Custom LLM Endpoint
        -> Hermes 模型配置
        -> 4sAPI OpenAI-compatible API
        -> Claude / GPT / Gemini / DeepSeek 等模型

也就是说,ElevenLabs 不直接连 4sAPI,而是先连 Hermes。Hermes 作为 Agent 大脑,决定是否查记忆、调工具、写文件、执行任务,再通过 4sAPI 调模型完成推理。

这样设计更清晰:

5.2 Hermes侧模型配置思路

不同 Hermes 版本的配置入口可能略有差异,但思路是一致的:

text
Provider 类型:OpenAI-compatible / Custom Endpoint
Base URL:https://4sapi.com/v1
API Key:填写 4sAPI 控制台创建的 Key
Model:填写 4sAPI 模型广场里的模型 ID

如果你用的是环境变量方式,可以参考:

env
OPENAI_BASE_URL=https://4sapi.com/v1
OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxx
OPENAI_MODEL=gpt-5.5-xhigh

模型 ID 不要照抄示例,建议到 4sAPI 模型广场复制实际可用的模型名称。

电话场景建议准备两个模型:

text
fast-phone-model:用于提醒、查询、短总结、轻量对话
strong-agent-model:用于写文件、代码检查、长文整理、复杂规划

这样你可以在 Hermes profile 里按场景切换,既保证响应速度,也避免所有任务都用高成本模型。

6. 一步步上手指南

下面是一条新手友好的 SOP。

6.1 准备账号和环境

你需要准备:

  1. Hermes Agent 最新版,推荐 v0.16 Surface Release 或更新版本;
  2. ElevenLabs 账号,并开通 API Key 和 Agents 功能;
  3. Twilio 账号,并购买一个可接入的电话号码;
  4. 4sAPI 账号,并创建 Hermes 电话 Agent 专用 API Key;
  5. 一台运行 Hermes 的机器,可以是本地电脑,也可以是 VPS。

如果你只是测试,建议先用本地 Hermes + 小额额度跑通流程。

如果你想随时随地打电话调用 Agent,更适合把 Hermes 放到稳定在线的 VPS 上,再做好权限、日志和访问控制。

6.2 启动 Hermes endpoint

先启动 Hermes,确保它的 Tool Gateway 或 chat completions endpoint 可用。

你需要得到一个 ElevenLabs 可以访问的 endpoint,例如:

text
https://your-domain.com/v1/chat/completions

或者在本地测试时使用:

text
http://localhost:xxxx/v1/chat/completions

注意:如果 ElevenLabs 云端服务要调用你的 Hermes,本地 localhost 通常不可直接访问。正式测试时建议使用 VPS、隧道服务或受控公网地址,并做好鉴权。

6.3 在 ElevenLabs 创建 Agent

进入 ElevenLabs 后台:

text
ElevenLabs Console
  -> Agents
  -> Create / Edit Agent
  -> LLM / Brain
  -> Custom LLM

填入 Hermes endpoint:

text
Custom LLM URL:https://your-domain.com/v1/chat/completions
Authentication:填写 Hermes endpoint 需要的鉴权信息

语音建议先选低延迟、清晰、稳定的声音。电话场景里,不需要声音特别夸张,重点是听得清、响应快、不要啰嗦。

6.4 接入 Twilio 号码

在 Twilio 购买号码后,可以通过 ElevenLabs 的电话集成功能导入或绑定。

典型流程是:

text
Twilio Console
  -> Buy a Number
  -> 获取 Account SID / Auth Token / Phone Number
  -> ElevenLabs 电话集成
  -> 导入 Twilio 号码
  -> 自动配置 webhook

配置完成后,来电链路会变成:

text
用户拨打 Twilio 号码
  -> Twilio webhook
  -> ElevenLabs Agent
  -> Hermes
  -> 语音回复用户

不同平台后台界面可能会更新,实际按钮名称以 ElevenLabs 和 Twilio 当前控制台为准。

6.5 配置 Hermes 使用 ElevenLabs TTS

如果你还想让 Hermes 桌面端或其他语音入口也使用 ElevenLabs,可以在 Hermes 环境变量中配置 ElevenLabs API Key。

示例:

env
ELEVENLABS_API_KEY=sk_xxxxxxxxxxxxxxxx
ELEVENLABS_VOICE_ID=your_voice_id

这一步不是电话接入的唯一方式,但能让 Hermes 的语音体验保持一致。

6.6 拨打电话测试

第一次测试不要上来就让 Agent 改代码。

建议按这个顺序测:

text
第一轮:你好,听得到吗?
第二轮:请用一句话介绍你现在能做什么。
第三轮:帮我创建一个测试提醒,内容是晚上 8 点看书。
第四轮:帮我在 Downloads 生成一个 test-agent-call.txt,写入一句测试文本。
第五轮:从记忆里查询我最近的项目关键词。

确认语音、模型、工具、文件和记忆链路都通了,再测试更复杂的任务。

7. 让体验更顺的优化技巧

电话 Agent 最怕两个问题:慢和啰嗦。

所以优化重点不是“让它更会说”,而是让它更快、更短、更确定。

7.1 选快模型

电话场景优先选低延迟模型。

例如轻量任务可以使用类似 Claude Haiku、GPT mini、DeepSeek 快速模型这一类,复杂任务再切到更强模型。

一个实用策略:

text
提醒 / 查询 / 短总结:快模型
写文件 / 分析资料 / 检查代码:强模型
最终确认 / 重要输出:强模型 + 简短复述

如果你通过 4sAPI 接入多模型,可以把这两类模型都放进同一个后台管理,后续看日志和成本会清楚很多。

7.2 在 SOUL.md 里强化电话模式

可以给 Hermes 的系统人格或 SOUL.md 增加电话模式规则:

text
当用户通过电话与你交互时:
1. 回复要简短,优先确认已理解的任务。
2. 能执行就先执行,不要长篇解释。
3. 涉及删除、覆盖、付款、发送消息等高风险动作时,必须二次确认。
4. 完成后用一句话汇报结果。
5. 如果任务需要较长时间,先告知正在处理,再继续执行。

电话不是写长文的地方。电话里最舒服的 Agent,是少说废话、动作明确、关键节点会确认。

7.3 用 profiles 分场景

建议给 Hermes 建不同 profile:

text
phone-work:工作电话助手
phone-personal:个人提醒和记忆助手
phone-code:代码检查和项目任务助手
phone-writing:写作和内容整理助手

不同 profile 可以绑定不同 Skills、不同记忆范围、不同模型和不同权限。

这比一个 Agent 什么都能干更安全,也更容易控制成本。

7.4 控制语音成本

语音调用通常比纯文字更贵,因为你同时消耗:

所以建议先小额测试:

text
每天限制测试次数
给 4sAPI Key 设置额度
给 Twilio 设置预算提醒
给 ElevenLabs 设置使用监控
复杂任务让 Agent 生成草稿,最终在桌面确认

电话 Agent 很爽,但不要第一天就让它全天候跑满。

8. 真实可用的任务示例

下面这些任务,比较适合电话场景。

8.1 会议和工作

text
帮我写一份明天会议的议程,保存到 Downloads。
把上周项目进度整理成三条,我等下要汇报。
查一下记忆里关于 A 项目的风险点。
给我生成一个今天的工作收尾清单。

8.2 学习和提醒

text
安排下午 3 点提醒我学日语。
把今天通勤时想到的三个选题记下来。
晚上 9 点提醒我复盘今天的训练。
从记忆里找一下我上次学到哪一课。

8.3 写作和内容

text
帮我把刚才说的观点整理成一篇博客提纲。
把这个选题记到内容池,标题先写三个版本。
生成一份小红书卡片大纲,等我回电脑后再细化。
把今天的灵感整理成 Markdown 文件。

8.4 代码和项目

text
检查一下当前项目有没有明显报错。
先跑测试,如果失败,把错误摘要读给我。
看一下上次 TODO 里还有什么没做。
帮我 patch 一个小问题,但涉及删除文件前先问我。

电话里尤其要给 Agent 设置权限边界。能读、能写、能运行代码,不代表任何时候都应该直接执行高风险操作。

9. 注意事项:隐私、延迟、费用和合规

这类电话 Agent 很强,但也更需要边界感。

第一,注意隐私。

如果 Hermes 能访问你的文件、记忆和代码,就不要随便把 endpoint 暴露在公网。建议配置鉴权、访问控制、日志审计,敏感资料不要接入第三方语音链路。

第二,注意延迟。

电话体验对延迟非常敏感。简单任务最好几秒内有反馈;复杂任务可以先语音确认“我开始处理”,再后台执行。

第三,注意费用。

ElevenLabs + Twilio + 模型调用都是按量计费。建议一开始给 4sAPI Key、Twilio 和 ElevenLabs 都设预算提醒。

第四,注意法律合规。

电话自动化要遵守当地法律和平台规则。不要用于骚扰电话、未经授权录音、冒充真人、批量外呼、绕过平台限制或处理违规内容。

第五,注意操作权限。

涉及删除文件、覆盖文件、发送消息、付款、访问敏感数据、执行脚本等动作,最好要求 Hermes 必须二次确认。

10. 总结:AI Agent 终于开始离开聊天框

从聊天机器人,到桌面 Agent,再到能打电话干活的 AI 助手,Hermes 代表的方向很清晰:

text
AI 不只是一个网页工具,而是一个可以随时联系的工作伙伴。

ElevenLabs 解决了自然语音和低延迟对话,Twilio 解决了真实电话入口,Hermes 负责记忆、Skills 和工具执行,4sAPI 则把模型 API 接入、日志、额度和成本管理统一起来。

这套组合最适合的场景,不是炫技,而是把碎片时间变成可执行任务:

2026 年的 AI Agent,不应该只待在聊天框里。它应该能在你需要的时候,被你直接叫起来。

如果你已经在用 Hermes,可以先从一个低风险电话任务开始:创建提醒、写测试文件、查询记忆。等这三件事跑顺,再逐步开放代码、文件和自动化任务权限。

标签:爱马仕代理人电话代理ElevenLabsTwilio4SAPI

推荐阅读

探索更多前沿洞察与行业干货。