Type something to search...

Deja que un Agente de IA Redimensione una Ventana y Tome la Captura

La automatización de pantalla es más fácil de confiar cuando el resultado es visible y repetible. En esta breve demo, un agente de IA usa la habilidad de pantalla de OverRec para encontrar una ventana del navegador, redimensionarla a un rectángulo exacto y capturar una imagen limpia sin arrastrar nada manualmente.


Qué Muestra la Demo

El objetivo es una ventana de Chrome abierta en el sitio web de Hermes Agent. El agente se ejecuta en una terminal y tiene acceso a la habilidad overrec-screen, que envuelve las herramientas de ventana de OverRec.

El flujo de trabajo es simple:

  1. Confirmar que OverRec está disponible
  2. Encontrar la ventana objetivo
  3. Moverla y redimensionarla a una posición exacta
  4. Tomar una captura de esa región exacta
  5. Copiar la captura a la ruta de salida solicitada

No hace falta posicionar la ventana manualmente.


Paso 1: Pide al Agente la Tarea de Pantalla

El agente recibe una tarea como esta:

Use overrec-screen skill to resize the Hermes Agent window to 800x600
and take a screenshot.

Lo importante es que la instrucción describe el resultado deseado, no cada comando de bajo nivel. La habilidad le da al agente una forma fiable de traducir esa petición en operaciones de ventana.


Paso 2: Encontrar la Ventana

El agente primero busca un título de ventana que coincida:

OverRec.exe cli window hermes

Cuando no encuentra el título exacto, amplía la búsqueda listando ventanas visibles:

OverRec.exe cli window --all hermes
OverRec.exe cli window edge
OverRec.exe cli window

En la demo, la página de Hermes Agent está abierta en Google Chrome, y OverRec devuelve su ID de ventana. Cuando el agente tiene ese ID, puede controlar la ventana directamente.


Paso 3: Ajustar el Navegador a un Rectángulo Exacto

El agente ajusta la ventana de Chrome a la posición 150,150 con tamaño 800x600:

OverRec.exe cli snap --windowid 264604 --location 150,150 --size 800x600

OverRec restaura la ventana si hace falta, la mueve, la redimensiona y la trae al frente. El resultado es un marco de navegador predecible en el mismo lugar cada vez.

Esa repetibilidad importa para:

  • capturas de documentación
  • imágenes de comparación de interfaces
  • flujos de agentes que necesitan confirmación visual
  • informes de errores donde la captura debe mostrar la misma región en cada ejecución

Paso 4: Capturar la Pantalla

Después de posicionar la ventana, el agente usa OverRec para capturar el mismo rectángulo:

OverRec.exe cli screenshot --location 150,150 --size 800x600 --output "C:\Users\HP\storage\screenshots\overrec\hermes_agent.png" --no-clipboard

La captura se escribe directamente en disco, así que el flujo no depende del portapapeles ni de un guardado manual.


Por Qué Es Útil para Flujos de IA

Los agentes de IA pueden razonar sobre tareas, pero las capturas del escritorio solo son útiles cuando el estado de la pantalla está controlado. Si un navegador está medio fuera de la pantalla, oculto detrás de otra app o tiene un tamaño ligeramente distinto cada vez, las capturas generan ruido.

OverRec le da al agente control determinista de la pantalla:

  • encontrar una ventana por título
  • colocarla en coordenadas exactas
  • redimensionarla a dimensiones exactas
  • capturar la región exacta necesaria

Eso convierte “toma una captura de esta app” de una tarea visual frágil en un paso de automatización repetible.


El Patrón Básico

Para cualquier ventana, el patrón es:

OverRec.exe cli window <search text>
OverRec.exe cli snap --windowid <ID> --location <X,Y> --size <WIDTH>x<HEIGHT>
OverRec.exe cli screenshot --location <X,Y> --size <WIDTH>x<HEIGHT> --output "<file>"

Usa la GUI cuando quieras dibujar el rectángulo a mano. Usa la CLI cuando quieras obtener el mismo resultado desde un script, una terminal o un agente de IA.

Descarga OverRec desde Microsoft Store.

Related Posts

Aprende Vocabulario Sin Esfuerzo con Infini Alchemy

Aprende Vocabulario Sin Esfuerzo con Infini Alchemy

¿Estás buscando un juego divertido y atractivo que también pueda ayudarte a aprender nuevas palabras? ¡No busques más! Infini Alchemy es un juego creativo de alquimia donde puedes combinar elementos b

read more
Cómo copiar las fórmulas de la respuesta de ChatGPT a Word

Cómo copiar las fórmulas de la respuesta de ChatGPT a Word

Copia las fórmulas de la respuesta de ChatGPT a Word en solo 3 pasos:Copia la respuesta de ChatGPT como markdown (conservando las fórmulas LaTeX) Selecciona las fórmulas en Word e inserta como

read more
Domina el Vocabulario KET a través de la Alquimia: Una Nueva Aventura de Aprendizaje

Domina el Vocabulario KET a través de la Alquimia: Una Nueva Aventura de Aprendizaje

Infini Alchemy es un juego innovador basado en web que transforma el aprendizaje de vocabulario en una aventura alquímica atractiva. Al arrastrar y soltar elementos para crear nuevos objetos, los juga

read more
Efectos de Video en Tiempo Real con Aceleración GPU

Efectos de Video en Tiempo Real con Aceleración GPU

El renderizado GPU ya está disponible en Sub Dimension Camera. Esta característica elimina la necesidad de esperar a que un video se "renderice" después de grabarlo. Ahora puedes previsualizar y captu

read more
Ve el Mundo de Otra Manera: Efectos de Cámara en Sub Dimension

Ve el Mundo de Otra Manera: Efectos de Cámara en Sub Dimension

Tu cámara captura momentos. Los efectos los transforman en arte. Sub Dimension incluye efectos visuales en tiempo real que se aplican en directo en el visor — lo que ves es lo que obtienes, ya sea qu

read more

Mueve Cualquier Ventana a una Posición y Tamaño Exactos

Has configurado el flujo de trabajo perfecto: tu editor de código a la izquierda, el navegador a la derecha, la terminal abajo. Luego reinicias el equipo y pasas los siguientes cinco minutos arrastran

read more

Move Any Window to an Exact Position and Size

You've set up a perfect workflow: your code editor on the left, browser on the right, terminal at the bottom. Then you restart your machine and spend the next five minutes dragging windows back into p

read more

将任意窗口精确定位到指定位置和尺寸

你精心搭建了完美的工作流:左边代码编辑器,右边浏览器,底部终端。然后重启电脑,又花了五分钟把窗口一个个拖回原位——差不多,但就是不够准。 OverRec 解决了这个问题。手动拖拽窗口的局限 用鼠标拖拽窗口本来就不精确。你瞄准第 960 像素,落点却是 963。你把窗口调到"看起来差不多",却在一秒后发现那道缝隙。日常使用无所谓,但对于录屏、文档截图或需要重复使用的工作区布局

read more

Let an AI Agent Resize a Window and Take the Screenshot

Screen automation is easiest to trust when the result is visible and repeatable. In this short demo, an AI agent uses the OverRec screen skill to find a browser window, resize it to an exact rectangle

read more

让 AI 智能体调整窗口大小并完成截图

屏幕自动化要让人放心,结果就必须可见、可重复。在这个简短演示中,AI 智能体使用 OverRec 屏幕技能找到一个浏览器窗口,将其调整到精确矩形,并在无需手动拖拽的情况下截取干净的截图。

read more