MultiModelMobileAgent 是一个智能自动化测试平台,旨在通过自然语言指令控制移动设备执行自动化任务。项目采用前后端分离架构,后端基于 Flask,前端计划使用 React,支持多模态输入(文本、语音、图像)和设备管理。
- 设备管理:支持 Android/iOS 设备连接状态追踪和信息查询。
- 任务系统:创建、执行和追踪自动化任务,支持文本和语音输入。
- 自动化能力:基于 uiautomator2 实现 Android 设备自动化(点击、输入、滑动等)。
- 大模型集成:接入阿里云通义千问(Qwen)系列模型,支持多模态分析和指令生成。
- 实时通信:通过 WebSocket 实现设备状态和任务进度同步。
- 测试界面:提供基础测试页面(test.html),支持实时执行结果展示。
- 大模型通信:优化提示词,定义动作模式,验证指令有效性。
- 动态界面处理:集成 Qwen-VL 视觉模型,提升元素定位能力。
- 上下文管理:支持多轮对话,完善状态存储。
- 完善前端界面(设备管理、任务监控)。
- 增强错误处理和日志记录。
- 添加用户认证和 API 访问控制。
- 提高测试覆盖率(单元测试、集成测试)。
- 部署优化(Docker 容器化)。
- 后端:Python, Flask
- 数据库:PostgreSQL
- 自动化:uiautomator2
- AI:阿里云 DashScope API(Qwen 系列)
- 部署:Docker
- 克隆仓库:
git clone https://github.com/Kamisato520/MultiModelMobileAgent.git cd MultiModelMobileAgent
2.安装依赖pip install -r requirements.txt 3.配置环境变量 4.运行后端 python run.py 贡献 欢迎提交 Issues 或 Pull Requests,共同改进项目!
联系 GitHub: Kamisato520