Deja que un Agente de IA Redimensione una Ventana y Tome la Captura
- Metaphor Projects
- Aplicación
- 29 Apr, 2026
La automatización de pantalla es más fácil de confiar cuando el resultado es visible y repetible. En esta breve demo, un agente de IA usa la habilidad de pantalla de OverRec para encontrar una ventana del navegador, redimensionarla a un rectángulo exacto y capturar una imagen limpia sin arrastrar nada manualmente.
Qué Muestra la Demo
El objetivo es una ventana de Chrome abierta en el sitio web de Hermes Agent. El agente se ejecuta en una terminal y tiene acceso a la habilidad overrec-screen, que envuelve las herramientas de ventana de OverRec.
El flujo de trabajo es simple:
- Confirmar que OverRec está disponible
- Encontrar la ventana objetivo
- Moverla y redimensionarla a una posición exacta
- Tomar una captura de esa región exacta
- Copiar la captura a la ruta de salida solicitada
No hace falta posicionar la ventana manualmente.
Paso 1: Pide al Agente la Tarea de Pantalla
El agente recibe una tarea como esta:
Use overrec-screen skill to resize the Hermes Agent window to 800x600
and take a screenshot.
Lo importante es que la instrucción describe el resultado deseado, no cada comando de bajo nivel. La habilidad le da al agente una forma fiable de traducir esa petición en operaciones de ventana.
Paso 2: Encontrar la Ventana
El agente primero busca un título de ventana que coincida:
OverRec.exe cli window hermes
Cuando no encuentra el título exacto, amplía la búsqueda listando ventanas visibles:
OverRec.exe cli window --all hermes
OverRec.exe cli window edge
OverRec.exe cli window
En la demo, la página de Hermes Agent está abierta en Google Chrome, y OverRec devuelve su ID de ventana. Cuando el agente tiene ese ID, puede controlar la ventana directamente.
Paso 3: Ajustar el Navegador a un Rectángulo Exacto
El agente ajusta la ventana de Chrome a la posición 150,150 con tamaño 800x600:
OverRec.exe cli snap --windowid 264604 --location 150,150 --size 800x600
OverRec restaura la ventana si hace falta, la mueve, la redimensiona y la trae al frente. El resultado es un marco de navegador predecible en el mismo lugar cada vez.
Esa repetibilidad importa para:
- capturas de documentación
- imágenes de comparación de interfaces
- flujos de agentes que necesitan confirmación visual
- informes de errores donde la captura debe mostrar la misma región en cada ejecución
Paso 4: Capturar la Pantalla
Después de posicionar la ventana, el agente usa OverRec para capturar el mismo rectángulo:
OverRec.exe cli screenshot --location 150,150 --size 800x600 --output "C:\Users\HP\storage\screenshots\overrec\hermes_agent.png" --no-clipboard
La captura se escribe directamente en disco, así que el flujo no depende del portapapeles ni de un guardado manual.
Por Qué Es Útil para Flujos de IA
Los agentes de IA pueden razonar sobre tareas, pero las capturas del escritorio solo son útiles cuando el estado de la pantalla está controlado. Si un navegador está medio fuera de la pantalla, oculto detrás de otra app o tiene un tamaño ligeramente distinto cada vez, las capturas generan ruido.
OverRec le da al agente control determinista de la pantalla:
- encontrar una ventana por título
- colocarla en coordenadas exactas
- redimensionarla a dimensiones exactas
- capturar la región exacta necesaria
Eso convierte “toma una captura de esta app” de una tarea visual frágil en un paso de automatización repetible.
El Patrón Básico
Para cualquier ventana, el patrón es:
OverRec.exe cli window <search text>
OverRec.exe cli snap --windowid <ID> --location <X,Y> --size <WIDTH>x<HEIGHT>
OverRec.exe cli screenshot --location <X,Y> --size <WIDTH>x<HEIGHT> --output "<file>"
Usa la GUI cuando quieras dibujar el rectángulo a mano. Usa la CLI cuando quieras obtener el mismo resultado desde un script, una terminal o un agente de IA.
Descarga OverRec desde Microsoft Store.