Skip to main content

OmniParserOmniParser 是一个用于将用户界面截图解析为结构化且易于理解的元素的工具,显著增强了 GPT-4V 生成准确对应界面区域操作的能力

  1. OmniParser

    OmniParser 是一个用于将用户界面截图解析为结构化且易于理解的元素的工具,显著增强了 GPT-4V 生成准确对应界面区域操作的能力。支持细粒度/小图标检测和预测每个屏幕元素是否可交互。

    提供了一种全新的基于纯视觉的 GUI 代理方法
    实现了对屏幕截图的结构化解析,包括检测图标和描述功能
    支持多种大型语言模型,如 OpenAI、DeepSeek、Qwen 和 Anthropic Computer Use
    提供了 OmniTool 工具,可以控制 Windows 11 虚拟机

    https://github.com/microsoft/OmniParser

    https://huggingface.co/spaces/microsoft/OmniParser-v2

    #AI #GitHub #Tool GitHub - microsoft/OmniParser: A simple screen parsing tool towards pure vision based GUI agent
OKHK