Midscene.js 是由字节跳动 Web Infra 团队开源的 AI 驱动 UI 自动化测试工具,旨在通过自然语言与多模态大语言模型(如 GPT-4o、Qwen2.5-VL 等)结合,实现网页和 Android 应用的自动化操作、数据提取和断言验证。
核心功能
- 自然语言交互:用户可通过自然语言描述测试步骤,AI 将自动解析并执行相应的 UI 操作,降低了编写测试脚本的门槛。
- 数据提取与断言:支持使用自然语言定义数据提取格式,AI 可返回结构化的 JSON 数据;同时,可进行页面元素的断言验证,确保 UI 符合预期。
- 多平台支持:兼容 Web 和 Android 平台,提供 Chrome 扩展、JavaScript SDK、YAML 脚本等多种集成方式,满足不同开发需求。
- 可视化报告:每次测试运行后生成可视化报告,包含操作回放和详细日志,便于调试和优化测试流程。
使用方式
- Chrome 扩展:通过安装 Midscene.js Chrome 扩展,用户可在任意网页上直接使用自然语言进行测试,无需编写代码。
- JavaScript SDK:开发者可在项目中引入 SDK,与 Puppeteer 或 Playwright 集成,实现更复杂的自动化测试。
- YAML 脚本:支持使用 YAML 编写测试流程,适用于 CI/CD 流程中的自动化测试任务。
模型支持
Midscene.js 支持多种多模态大语言模型,包括:
- GPT-4o
- Qwen2.5-VL
- Gemini-2.5-Pro
- UI-TARS(专为 UI 自动化设计的开源模型)
数据隐私
所有页面数据将直接发送至配置的模型提供商(如 OpenAI),Midscene.js 不会通过第三方平台处理数据,确保数据隐私和安全。
应用场景
- 端到端自动化测试
- 网页数据抓取与分析
- UI 组件一致性检查
- 性能监控与优化