browser 工具集
| 工具 | 描述 | 所需环境 |
|---|
browser_back | 导航回浏览器历史记录中的上一页。需要先调用 browser_navigate。 | — |
browser_click | 点击由快照中的 ref ID 标识的元素(例如 '@e5')。ref ID 显示在快照输出的方括号中。需要先调用 browser_navigate 和 browser_snapshot。 | — |
browser_console | 获取当前页面的浏览器控制台输出和 JavaScript 错误。返回 console.log/warn/error/info 消息以及未捕获的 JS 异常。用于检测静默的 JavaScript 错误、失败的 API 调用和应用程序警告。需要先调用 browser_navigate。 | — |
browser_get_images | 获取当前页面上所有图片的 URL 和 alt 文本列表。用于查找图片以使用视觉工具进行分析。需要先调用 browser_navigate。 | — |
browser_navigate | 在浏览器中导航到 URL。初始化会话并加载页面。必须在使用其他浏览器工具之前调用。对于简单的信息检索,优先使用 web_search 或 web_extract(更快、更便宜)。当需要交互或 JavaScript 渲染时使用浏览器工具。 | — |
browser_press | 按下键盘按键。用于提交表单(Enter)、导航(Tab)或键盘快捷键。需要先调用 browser_navigate。 | — |
browser_scroll | 按方向滚动页面。用于显示当前视口下方或上方可能隐藏的更多内容。需要先调用 browser_navigate。 | — |
browser_snapshot | 获取当前页面可访问性树的文本快照。返回带有 ref ID(如 @e1、@e2)的交互元素,供 browser_click 和 browser_type 使用。full=false(默认):仅显示交互元素的紧凑视图。full=true:包含所有元素的完整视图。 | — |
browser_type | 在由 ref ID 标识的输入字段中键入文本。先清空字段,然后键入新文本。需要先调用 browser_navigate 和 browser_snapshot。 | — |
browser_vision | 截取当前页面的屏幕截图并使用视觉 AI 进行分析。当需要直观理解页面内容时使用——特别适用于验证码、视觉验证挑战、复杂布局或文本快照无法捕获动态内容的情况。 | — |
browser 工具集(CDP 门控工具)
这两个工具属于 browser 工具集,但仅在会话启动时 Chrome DevTools Protocol 端点可达时注册——通过 /browser connect、browser.cdp_url 配置、Browserbase 会话或 Camofox。
| 工具 | 描述 | 所需环境 |
|---|
browser_cdp | 发送原始 Chrome DevTools Protocol 命令。用于处理高级 browser_* 工具未覆盖的浏览器操作的逃生口。参见 https://chromedevtools.github.io/devtools-protocol/ | CDP 端点 |
browser_dialog | 响应原生 JavaScript 对话框(alert / confirm / prompt / beforeunload)。先调用 browser_snapshot——待处理的对话框会出现在其 pending_dialogs 字段中。然后调用 browser_dialog(action='accept'|'dismiss')。 | CDP 端点 |
clarify 工具集
| 工具 | 描述 | 所需环境 |
|---|
clarify | 在需要澄清、反馈或决策时向用户提问。支持两种模式:1. 多项选择——最多提供 4 个选项。用户选择一个或通过第 5 个“其他”选项输入自己的答案。2. 自由文本输入。 | — |
code_execution 工具集
| 工具 | 描述 | 所需环境 |
|---|
execute_code | 运行一个 Python 脚本,该脚本可以编程方式调用 Hermes 工具。当需要 3 次以上工具调用并在它们之间进行逻辑处理、需要过滤/缩减大型工具输出后再进入上下文、需要条件分支或循环时使用。 | — |
cronjob 工具集
| 工具 | 描述 | 所需环境 |
|---|
cronjob | 统一的定时任务管理器。使用 action="create"、"list"、"update"、"pause"、"resume"、"run" 或 "remove" 来管理任务。支持附加一个或多个技能的技能支持任务,skills=[] 更新时清除附加技能。Cron 运行在全新会话中,没有当前聊天上下文。 | — |
delegation 工具集
| 工具 | 描述 | 所需环境 |
|---|
delegate_task | 生成一个或多个子代理,在隔离的上下文中处理任务。每个子代理拥有自己的对话、终端会话和工具集。仅返回最终摘要——中间工具结果永远不会进入你的上下文窗口。两种模式:... | — |
feishu_doc 工具集
限定在飞书文档评论智能回复处理器(gateway/platforms/feishu_comment.py)中使用。不在 hermes-cli 或常规飞书聊天适配器上暴露。
| 工具 | 描述 | 所需环境 |
|---|
feishu_doc_read | 根据 file_type 和 token 读取飞书/Lark 文档(Docx、Doc 或 Sheet)的完整文本内容。 | 飞书应用凭证 |
feishu_drive 工具集
限定在飞书文档评论处理器中使用。驱动对云盘文件的评论读写操作。
| 工具 | 描述 | 所需环境 |
|---|
feishu_drive_add_comment | 在飞书/Lark 文档或文件上添加顶级评论。 | 飞书应用凭证 |
feishu_drive_list_comments | 列出飞书/Lark 文件上的整文档评论,最新的在前。 | 飞书应用凭证 |
feishu_drive_list_comment_replies | 列出特定飞书评论线程(整文档或局部选择)的回复。 | 飞书应用凭证 |
feishu_drive_reply_comment | 在飞书评论线程中发布回复,可选的 @ 提及。 | 飞书应用凭证 |
file 工具集
| 工具 | 描述 | 所需环境 |
|---|
patch | 在文件中进行精确的查找替换编辑。使用此工具代替终端中的 sed/awk。使用模糊匹配(9 种策略),因此微小的空白/缩进差异不会破坏它。返回统一差异格式。编辑后自动运行语法检查。 | — |
read_file | 读取文本文件,显示行号和分页。使用此工具代替终端中的 cat/head/tail。输出格式:'LINE_NUM|CONTENT'。如果未找到文件,建议相似文件名。对于大文件使用 offset 和 limit。注意:无法读取图片或二进制文件。 | — |
search_files | 搜索文件内容或按名称查找文件。使用此工具代替终端中的 grep/rg/find/ls。基于 Ripgrep,比 shell 等效工具更快。内容搜索(target='content'):在文件内进行正则搜索。输出模式:完整匹配带行号... | — |
write_file | 将内容写入文件,完全替换现有内容。使用此工具代替终端中的 echo/cat heredoc。自动创建父目录。覆盖整个文件——对于精确编辑请使用 'patch'。 | — |
homeassistant 工具集
| 工具 | 描述 | 所需环境 |
|---|
ha_call_service | 调用 Home Assistant 服务以控制设备。使用 ha_list_services 发现每个域可用的服务及其参数。 | — |
ha_get_state | 获取单个 Home Assistant 实体的详细状态,包括所有属性(亮度、颜色、温度设定点、传感器读数等)。 | — |
ha_list_entities | 列出 Home Assistant 实体。可选地按域(light、switch、climate、sensor、binary_sensor、cover、fan 等)或按区域名称(living room、kitchen、bedroom 等)过滤。 | — |
ha_list_services | 列出可用的 Home Assistant 服务(动作)用于设备控制。显示每个设备类型可以执行哪些动作以及它们接受的参数。用于发现如何控制通过 ha_list_entities 找到的设备。 | — |
computer_use 工具集
| 工具 | 描述 | 所需环境 |
|---|
computer_use | 通过 cua-driver 进行后台 macOS 桌面控制——截图(SOM / vision / AX)、点击/拖拽/滚动/输入/按键/等待、列出应用、聚焦应用。不会夺取用户的光标或键盘焦点。适用于任何支持工具的模型。仅限 macOS。 | cua-driver 在 $PATH 中(通过 hermes tools 安装) |
注意
Honcho 工具(honcho_profile、honcho_search、honcho_context、honcho_reasoning、honcho_conclude)不再是内置工具。它们可通过 Honcho 内存提供者插件在 plugins/memory/honcho/ 获得。安装和使用请参见内存提供者。
image_gen 工具集
| 工具 | 描述 | 所需环境 |
|---|
image_generate | 使用 FAL.ai 从文本提示生成高质量图像。底层模型由用户配置(默认:FLUX 2 Klein 9B,亚秒级生成),代理无法选择。返回单个图片 URL。使用  显示。 | FAL_KEY |
kanban 工具集
当代理(a)由看板调度器生成(设置了 HERMES_KANBAN_TASK 环境变量)或(b)在显式启用 kanban 工具集的配置文件中运行时注册。任务范围的工作器使用其分配任务的生命周期工具;编排器配置文件额外获得看板路由工具,如 kanban_list 和 kanban_unblock。完整工作流请参见看板多代理。
| 工具 | 描述 | 所需环境 |
|---|
kanban_show | 显示分配给此工作器的活动看板任务(标题、描述、评论、依赖项)。 | HERMES_KANBAN_TASK 或 kanban 工具集 |
kanban_list | 使用过滤器列出看板任务。仅编排器可用;对调度器生成的任务工作器隐藏。 | 包含 kanban 工具集的配置文件 |
kanban_complete | 将当前任务标记为完成,并附带结构化的交接负载(结果、工件、后续事项)。 | HERMES_KANBAN_TASK 或 kanban 工具集 |
kanban_block | 因用户问题阻塞当前任务——调度器暂停,显示问题,并在用户回复后恢复。 | HERMES_KANBAN_TASK 或 kanban 工具集 |
kanban_heartbeat | 在长时间运行的操作期间发送进度心跳,以便调度器知道工作器仍在运行。 | HERMES_KANBAN_TASK 或 kanban 工具集 |
kanban_comment | 向任务线程添加评论而不改变其状态——用于展示中间发现。 | HERMES_KANBAN_TASK 或 kanban 工具集 |
kanban_create | 从当前任务派生子任务。由编排器和生成后续任务的工作器使用。 | HERMES_KANBAN_TASK 或 kanban 工具集 |
kanban_link | 使用父→子依赖边链接任务。 | HERMES_KANBAN_TASK 或 kanban 工具集 |
kanban_unblock | 将阻塞的任务返回为 ready 状态。仅编排器可用;对调度器生成的任务工作器隐藏。 | 包含 kanban 工具集的配置文件 |
memory 工具集
| 工具 | 描述 | 所需环境 |
|---|
memory | 将重要信息保存到跨会话持久的内存中。你的内存在会话开始时出现在系统提示中——它让你在对话之间记住关于用户和环境的信息。何时保存:... | — |
messaging 工具集
| 工具 | 描述 | 所需环境 |
|---|
send_message | 向已连接的消息平台发送消息,或列出可用目标。重要:当用户要求发送到特定频道或个人(不仅仅是平台名称)时,首先调用 send_message(action='list') 查看可用目标。 | — |
moa 工具集
| 工具 | 描述 | 所需环境 |
|---|
mixture_of_agents | 将困难问题路由到多个前沿 LLM 协作处理。进行 5 次 API 调用(4 个参考模型 + 1 个聚合器),最大推理努力——谨慎用于真正困难的问题。最适合:复杂数学、高级算法、... | OPENROUTER_API_KEY |
session_search 工具集
| 工具 | 描述 | 所需环境 |
|---|
session_search | 搜索存储在本地会话数据库中的过去会话,或在会话内滚动。基于 FTS5 的检索;返回数据库中的实际消息(无 LLM 调用)。三种形式:发现(传递 query)、滚动(传递 session_id + around_message_id)、浏览(无参数)。 | — |
skills 工具集
| 工具 | 描述 | 所需环境 |
|---|
skill_manage | 管理技能(创建、更新、删除)。技能是你的程序性记忆——针对重复任务类型的可复用方法。新技能保存到 ~/.hermes/skills/;现有技能可以在其所在位置修改。动作:create(完整 SKILL.md 内容)、update(更新现有技能)、delete(删除技能)。 | — |
skill_view | 技能允许加载关于特定任务和工作流的信息,以及脚本和模板。加载技能的完整内容或访问其链接文件(引用、模板、脚本)。首次调用返回 SKILL.md 内容以及... | — |
skills_list | 列出可用技能(名称 + 描述)。使用 skill_view(name) 加载完整内容。 | — |
terminal 工具集
| 工具 | 描述 | 所需环境 |
|---|
process | 管理使用 terminal(background=true) 启动的后台进程。动作:'list'(显示所有)、'poll'(检查状态 + 新输出)、'log'(完整输出带分页)、'wait'(阻塞直到完成或超时)、'kill'(终止)、'write'(向进程标准输入发送输入)。 | — |
terminal | 在 Linux 环境中执行 shell 命令。文件系统在调用之间持久化。设置 background=true 用于长时间运行的服务器。设置 notify_on_complete=true(与 background=true 一起)可在进程完成时自动收到通知——无需轮询。不要使用 cat/head/tail——使用 read_file。不要使用 grep/rg/find——使用 search_files。 | — |
todo 工具集
| 工具 | 描述 | 所需环境 |
|---|
todo | 管理当前会话的任务列表。用于包含 3 个以上步骤的复杂任务或用户提供多个任务时。无参数调用以读取当前列表。写入:- 提供 'todos' 数组以创建/更新项目 - merge=... | — |
vision 工具集
| 工具 | 描述 | 所需环境 |
|---|
vision_analyze | 使用 AI 视觉分析图像。在支持视觉的主模型上,返回原始图像像素作为多模态工具结果,使模型在下一轮原生看到它们。在纯文本主模型上,回退到辅助视觉模型,该模型描述图像并将描述作为文本返回。工具签名无论哪种方式都相同。 | — |
video 工具集
可选工具集(默认 hermes-cli 集中不加载)。通过 --toolsets video 添加或在 toolsets: 配置中包含 video。
| 工具 | 描述 | 所需环境 |
|---|
video_analyze | 分析来自 URL 或文件路径的视频内容——字幕、场景分解、关键时间戳和视觉描述。 | — |
video_gen 工具集
可选工具集(默认 hermes-cli 集中不加载)。通过 --toolsets video_gen 添加或在 hermes tools → 视频生成中启用,该过程还会引导你选择后端。
后端作为插件提供,位于 plugins/video_gen/<name>/ 下:
- xAI Grok-Imagine — 文本转视频和图像转视频(SuperGrok OAuth 或
XAI_API_KEY)。
- FAL.ai — Veo 3.1、Pixverse v6、Kling O3(需要
FAL_KEY)。
单个 video_generate 工具涵盖两种模式——传递 image_url 以动画化静态图像,省略则仅从文本生成。活动后端自动路由到正确的端点。工具描述在会话启动时重建,以反映活动后端的实际能力(模式、宽高比、分辨率、持续时间范围、最大参考图像、音频支持)。后端编写请参见视频生成提供者插件。
| 工具 | 描述 | 所需环境 |
|---|
video_generate | 使用用户配置的视频生成后端,从文本提示生成视频(文本转视频)或动画化静态图像(图像转视频)。传递 image_url 以动画化该图像;省略则仅从文本生成。后端自动路由到正确的端点。返回 video 字段中的 HTTP URL 或绝对文件路径。 | 活动的 video_gen 插件及其凭证(例如 XAI_API_KEY、FAL_KEY) |
web 工具集
| 工具 | 描述 | 所需环境 |
|---|
web_search | 搜索网络信息。默认返回最多 5 个结果,包含标题、URL 和描述。接受可选的 limit(1-100,默认 5)。查询会传递给配置的后端,因此当后端支持时,诸如 site:domain、filetype:pdf、intitle:word、-term 和 "exact phrase" 等操作符可能有效。 | EXA_API_KEY 或 PARALLEL_API_KEY 或 FIRECRAWL_API_KEY 或 TAVILY_API_KEY |
web_extract | 从网页 URL 提取内容。以 Markdown 格式返回页面内容。也适用于 PDF URL——直接传递 PDF 链接,它会转换为 Markdown 文本。小于 5000 字符的页面返回完整 Markdown;较大的页面由 LLM 总结。 | EXA_API_KEY 或 PARALLEL_API_KEY 或 FIRECRAWL_API_KEY 或 TAVILY_API_KEY |
x_search 工具集
| 工具 | 描述 | 所需环境 |
|---|
x_search | 使用 xAI 内置的 x_search 响应工具搜索 X(Twitter)帖子、个人资料和线程。用于 X 上的当前讨论、反应或声明,而非一般网页。默认关闭——通过 hermes tools → 🐦 X (Twitter) 搜索选择加入。仅当配置了 xAI 凭证时注册模式(check_fn 门控)。 | XAI_API_KEY 或 xAI Grok OAuth(SuperGrok / Premium+)登录 |
tts 工具集
| 工具 | 描述 | 所需环境 |
|---|
text_to_speech | 将文本转换为语音音频。返回一个 MEDIA: 路径,平台将其作为语音消息传递。在 Telegram 上以语音气泡播放,在 Discord/WhatsApp 上作为音频附件。在 CLI 模式下,保存到 ~/voice-memos/。语音和提供者可配置。 | — |
discord 工具集
在 hermes-discord 平台工具集上注册(仅网关)。使用与消息适配器相同的机器人令牌。
| 工具 | 描述 | 所需环境 |
|---|
discord | 读取并参与 Discord 服务器。动作包括 search_members、fetch_messages、send_message、react、fetch_channel、list_channels 等。 | DISCORD_BOT_TOKEN |
discord_admin 工具集
在 hermes-discord 平台工具集上注册。审核操作要求机器人拥有匹配的 Discord 权限。
| 工具 | 描述 | 所需环境 |
|---|
discord_admin | 通过 REST API 管理 Discord 服务器:列出公会/频道/角色、创建/编辑/删除频道、管理角色授权、超时、踢出和封禁。 | DISCORD_BOT_TOKEN + 机器人权限 |
spotify 工具集
由捆绑的 spotify 插件注册。需要 OAuth 令牌——运行 hermes spotify setup 一次以授权。
| 工具 | 描述 | 所需环境 |
|---|
spotify_playback | 控制 Spotify 播放,检查活动播放状态,或获取最近播放的曲目。 | Spotify OAuth |
spotify_devices | 列出 Spotify Connect 设备或将播放转移到其他设备。 | Spotify OAuth |
spotify_queue | 检查用户的 Spotify 队列或向其中添加项目。 | Spotify OAuth |
spotify_search | 搜索 Spotify 目录中的曲目、专辑、艺术家、播放列表、节目或剧集。 | Spotify OAuth |
spotify_playlists | 列出、检查、创建、更新和修改 Spotify 播放列表。 | Spotify OAuth |
spotify_albums | 获取 Spotify 专辑元数据或专辑曲目。 | Spotify OAuth |
spotify_library | 列出、保存或移除用户保存的 Spotify 曲目或专辑。 | Spotify OAuth |
hermes-yuanbao 工具集
仅在 hermes-yuanbao 平台工具集上注册。元宝是腾讯的聊天应用;这些工具驱动其私信/群组/贴纸 API。
| 工具 | 描述 | 所需环境 |
|---|
yb_query_group_info | 查询群组(应用中称为“派/Pai”)的基本信息:名称、所有者、成员数。 | 元宝凭证 |
yb_query_group_members | 查询群组成员(用于 @ 提及、按名称查找用户、列出机器人)。 | 元宝凭证 |
yb_send_dm | 向群组中的用户发送私信/直接消息,可附带媒体文件。 | 元宝凭证 |
yb_search_sticker | 按关键词搜索内置的元宝贴纸(TIM 表情)目录。 | 元宝凭证 |
yb_send_sticker | 向当前元宝聊天发送内置贴纸。 | 元宝凭证 |