OmniParser
OmniParser 是一个用于将用户界面截图解析为结构化且易于理解的元素的工具,显著增强了 GPT-4V 生成准确对应界面区域操作的能力。支持细粒度/小图标检测和预测每个屏幕元素是否可交互。
● 提供了一种全新的基于纯视觉的 GUI 代理方法
● 实现了对屏幕截图的结构化解析,包括检测图标和描述功能
● 支持多种大型语言模型,如 OpenAI、DeepSeek、Qwen 和 Anthropic Computer Use
● 提供了 OmniTool 工具,可以控制 Windows 11 虚拟机
https://github.com/microsoft/OmniParser
https://huggingface.co/spaces/microsoft/OmniParser-v2
#AI #GitHub #Tool
OmniParser 是一个用于将用户界面截图解析为结构化且易于理解的元素的工具,显著增强了 GPT-4V 生成准确对应界面区域操作的能力。支持细粒度/小图标检测和预测每个屏幕元素是否可交互。
● 提供了一种全新的基于纯视觉的 GUI 代理方法
● 实现了对屏幕截图的结构化解析,包括检测图标和描述功能
● 支持多种大型语言模型,如 OpenAI、DeepSeek、Qwen 和 Anthropic Computer Use
● 提供了 OmniTool 工具,可以控制 Windows 11 虚拟机
https://github.com/microsoft/OmniParser
https://huggingface.co/spaces/microsoft/OmniParser-v2
#AI #GitHub #Tool