让 AI 智能体调整窗口大小并完成截图
- Metaphor Projects
- 应用
- 29 Apr, 2026
屏幕自动化要让人放心,结果就必须可见、可重复。在这个简短演示中,AI 智能体使用 OverRec 屏幕技能找到一个浏览器窗口,将其调整到精确矩形,并在无需手动拖拽的情况下截取干净的截图。
演示内容
目标是一个打开 Hermes Agent 网站的 Chrome 窗口。智能体运行在终端中,并且可以使用 overrec-screen 技能;这个技能封装了 OverRec 的窗口工具。
工作流很简单:
- 确认 OverRec 可用
- 找到目标窗口
- 将窗口移动并调整到精确位置
- 截取该精确区域的截图
- 将截图复制到指定输出路径
整个过程不需要手动摆放窗口。
第一步:让智能体执行屏幕任务
给智能体的任务可以像这样:
Use overrec-screen skill to resize the Hermes Agent window to 800x600
and take a screenshot.
关键点在于,指令描述的是期望结果,而不是每一个底层命令。技能会给智能体一种可靠方式,将这个请求转换为窗口操作。
第二步:找到窗口
智能体首先搜索匹配的窗口标题:
OverRec.exe cli window hermes
如果没有找到精确标题,它会扩大搜索范围,列出可见窗口:
OverRec.exe cli window --all hermes
OverRec.exe cli window edge
OverRec.exe cli window
在演示中,Hermes Agent 页面打开在 Google Chrome 中,OverRec 返回了它的窗口 ID。智能体拿到这个 ID 后,就可以直接控制该窗口。
第三步:将浏览器吸附到精确矩形
智能体将 Chrome 窗口吸附到位置 150,150,尺寸为 800x600:
OverRec.exe cli snap --windowid 264604 --location 150,150 --size 800x600
OverRec 会在需要时还原窗口,移动它,调整尺寸,并将其置于前台。结果是每次都出现在同一位置的可预测浏览器框架。
这种可重复性适用于:
- 文档截图
- UI 对比图片
- 需要视觉确认的智能体工作流
- 需要每次显示同一区域的错误报告
第四步:截取截图
窗口定位完成后,智能体使用 OverRec 截取同一个矩形区域:
OverRec.exe cli screenshot --location 150,150 --size 800x600 --output "C:\Users\HP\storage\screenshots\overrec\hermes_agent.png" --no-clipboard
截图会直接写入磁盘,因此工作流不依赖剪贴板,也不需要手动保存。
为什么这对 AI 工作流有用
AI 智能体可以推理任务,但桌面截图只有在屏幕状态受控时才真正有用。如果浏览器半截在屏幕外、被其他应用遮住,或每次尺寸都有轻微差异,截图就会变得嘈杂。
OverRec 为智能体提供确定性的屏幕控制:
- 通过标题找到窗口
- 将窗口放到精确坐标
- 将窗口调整为精确尺寸
- 截取所需的精确区域
这会把“给这个应用截图”从脆弱的视觉任务,变成可重复的自动化步骤。
核心模式
对于任意窗口,模式都是:
OverRec.exe cli window <search text>
OverRec.exe cli snap --windowid <ID> --location <X,Y> --size <WIDTH>x<HEIGHT>
OverRec.exe cli screenshot --location <X,Y> --size <WIDTH>x<HEIGHT> --output "<file>"
当你想手动绘制矩形时,使用图形界面。当你想在脚本、终端或 AI 智能体中获得相同结果时,使用 CLI。
从 Microsoft Store 下载 OverRec。