OmniParserOmniParser 是一个用于将用户界面截图解析为结构化且易于理解的元素的工具，显著增强了 GPT-4V 生成准确对应界面区域操作的能力

23:04 · 2025年2月17日 · 周一

OmniParser

OmniParser 是一个用于将用户界面截图解析为结构化且易于理解的元素的工具，显著增强了 GPT-4V 生成准确对应界面区域操作的能力。支持细粒度/小图标检测和预测每个屏幕元素是否可交互。

● 提供了一种全新的基于纯视觉的 GUI 代理方法
● 实现了对屏幕截图的结构化解析,包括检测图标和描述功能
● 支持多种大型语言模型,如 OpenAI、DeepSeek、Qwen 和 Anthropic Computer Use
● 提供了 OmniTool 工具,可以控制 Windows 11 虚拟机

https://github.com/microsoft/OmniParser

https://huggingface.co/spaces/microsoft/OmniParser-v2

#AI #GitHub #Tool

GitHub

GitHub - microsoft/OmniParser: A simple screen parsing tool towards pure vision based GUI agent

A simple screen parsing tool towards pure vision based GUI agent - microsoft/OmniParser