Midscene.js 是由字节跳动 Web Infra 团队开源的 AI 驱动 UI 自动化测试工具,旨在通过自然语言与多模态大语言模型(如 GPT-4o、Qwen2.5-VL 等)结合,实现网页和 Android 应用的自动化操作、数据提取和断言验证。

核心功能

  • 自然语言交互:用户可通过自然语言描述测试步骤,AI 将自动解析并执行相应的 UI 操作,降低了编写测试脚本的门槛。
  • 数据提取与断言:支持使用自然语言定义数据提取格式,AI 可返回结构化的 JSON 数据;同时,可进行页面元素的断言验证,确保 UI 符合预期。
  • 多平台支持:兼容 Web 和 Android 平台,提供 Chrome 扩展、JavaScript SDK、YAML 脚本等多种集成方式,满足不同开发需求。
  • 可视化报告:每次测试运行后生成可视化报告,包含操作回放和详细日志,便于调试和优化测试流程。

使用方式

  • Chrome 扩展:通过安装 Midscene.js Chrome 扩展,用户可在任意网页上直接使用自然语言进行测试,无需编写代码。
  • JavaScript SDK:开发者可在项目中引入 SDK,与 Puppeteer 或 Playwright 集成,实现更复杂的自动化测试。
  • YAML 脚本:支持使用 YAML 编写测试流程,适用于 CI/CD 流程中的自动化测试任务。

模型支持

Midscene.js 支持多种多模态大语言模型,包括:

  • GPT-4o
  • Qwen2.5-VL
  • Gemini-2.5-Pro
  • UI-TARS(专为 UI 自动化设计的开源模型)

数据隐私

所有页面数据将直接发送至配置的模型提供商(如 OpenAI),Midscene.js 不会通过第三方平台处理数据,确保数据隐私和安全。

应用场景

  • 端到端自动化测试
  • 网页数据抓取与分析
  • UI 组件一致性检查
  • 性能监控与优化

引用信息