2026/2/10 14:33:52
网站建设
项目流程
绿色系网站,东莞网站建设 拉伸膜,蛋糕网站制作答辩,网站安全证书存在问题告别手动点击#xff01;Open-AutoGLM让手机自动执行指令
你有没有过这样的时刻#xff1a; 手指划到小红书首页#xff0c;点开搜索框#xff0c;输入“周末咖啡馆”#xff0c;再点一下放大镜#xff1b; 想关注一个博主#xff0c;得先复制ID#xff0c;打开抖音Open-AutoGLM让手机自动执行指令你有没有过这样的时刻手指划到小红书首页点开搜索框输入“周末咖啡馆”再点一下放大镜想关注一个博主得先复制ID打开抖音粘贴、搜索、点进主页、再点“关注”按钮甚至只是想给微信里那个总发养生文章的阿姨回一句“收到谢谢”却在输入法切换、表情包查找、发送确认之间来回折腾……这些动作单看都很简单但每天重复几十次就变成了看不见的时间黑洞。而 Open-AutoGLM —— 这个由智谱开源、专为手机端打造的 AI Agent 框架正在悄悄改写这个规则你只需要说一句话剩下的它来点。这不是概念演示也不是实验室玩具。它已能稳定运行在真实安卓设备上通过视觉理解屏幕、规划操作路径、调用 ADB 精准点击全程无需人工干预。更关键的是它不依赖云端图像上传——所有屏幕感知都在本地完成隐私可控所有指令解析与决策都由轻量但强大的autoglm-phone-9b模型实时完成。下面我们就从零开始带你亲手把这套“手机自动手”装进自己的设备里。1. 它到底能做什么——不是语音助手是视觉语言动作的闭环智能体Open-AutoGLM 的核心身份是一个真正在“看”手机、“听”你说话、“动”你手指的 AI 助理。它和 Siri、小爱同学有本质区别Siri 听懂你的话但它看不到你的屏幕小爱同学能控制智能家居但它无法知道你当前正卡在微信登录页的验证码弹窗而 Open-AutoGLM 会实时截图分析界面元素按钮位置、文字内容、图标语义理解你的自然语言指令“把这张图发给张三附言‘刚拍的’”自主规划操作序列长按图片 → 点击“转发” → 搜索“张三” → 点击头像 → 输入文字 → 点击发送通过 ADB 精准模拟触摸与按键毫秒级坐标控制支持滑动、双击、返回等全部手势在敏感环节主动暂停遇到登录、支付、权限弹窗时自动等待你手动确认1.1 三个典型场景看它如何“接管”你的手机我们实测了三类高频、琐碎、又极易出错的操作效果远超预期场景一跨 App 信息搬运指令“把知乎上那篇《大模型推理优化实践》的摘要复制到备忘录第3条后面。”→ 它自动打开知乎 → 滚动定位文章 → 截图识别文字 → 提取摘要 → 切换到备忘录 → 定位第3条 → 插入内容 → 保存。耗时约 12 秒全程无误。场景二复杂账号管理指令“登录微博搜索用户‘科技茶话会’进入主页后如果没关注就点关注如果已关注就点私信发‘你好想合作’。”→ 它识别微博登录态 → 若未登录自动填入账号密码支持预设→ 搜索 → 进入主页 → 判断“关注”按钮文案“关注”/“已关注”/“私信”→ 执行对应动作 → 输入固定文本并发送。整个流程包含条件分支判断不是固定脚本而是真正理解界面状态。场景三批量重复操作指令“在闲鱼上把‘待发货’列表里的前5个订单全部点击‘发货’然后在弹出的快递单号框里依次填入‘SF1000001’到‘SF1000005’。”→ 它识别订单列表结构 → 逐个点击“发货”按钮 → 等待弹窗出现 → 定位输入框 → 依序填入编号 → 点击确认。省去机械性重复点击且不会因页面加载延迟导致点错位置。这些不是理想化 Demo而是我们在 Pixel 6 和 Redmi Note 12 上反复验证的真实能力。它的强大不在于“能做”而在于“做得稳、判得准、停得及时”。2. 准备工作三步搞定硬件与环境比装微信还简单部署 Open-AutoGLM 不需要服务器、不烧显卡、不配 Docker。它分为两部分控制端运行在你的 Windows/macOS 电脑上负责模型调用、逻辑决策、ADB 指令下发执行端你的安卓手机负责屏幕采集、动作执行、状态反馈整个过程我们拆解为三个清晰阶段每步都有明确验证点。2.1 第一步让电脑“认出”你的手机ADB 连接这是最基础也最关键的一步。只要adb devices能看到设备后面就畅通无阻。Windows 用户下载 Android SDK Platform-Tools解压后得到adb.exe右键“此电脑” → 属性 → 高级系统设置 → 环境变量 → 在“系统变量”中找到Path→ 编辑 → 新建 → 粘贴你解压后的platform-tools文件夹完整路径打开命令提示符输入adb version看到版本号即成功再输入adb devices连接手机 USB 后应显示类似ABC123456789 devicemacOS 用户终端执行# 下载并解压 platform-tools 到 Downloads export PATH$PATH:~/Downloads/platform-tools echo export PATH$PATH:~/Downloads/platform-tools ~/.zshrc source ~/.zshrc执行adb version和adb devices验证如果adb devices显示unauthorized请检查手机是否已弹出“允许 USB 调试”授权弹窗并勾选“始终允许”。2.2 第二步手机端设置——开启“被操控权”只需三处设置5 分钟内完成开启开发者模式设置 → 关于手机 → 连续点击“版本号”7 次 → 输入锁屏密码 → 提示“您现在处于开发者模式”开启 USB 调试设置 → 系统 → 开发者选项 → 找到“USB 调试”开启开关安装 ADB Keyboard关键下载 ADB Keyboard APK推荐 v1.3手机安装该 APK设置 → 语言与输入法 → 当前键盘 → 切换为 “ADB Keyboard”这一步让 AI 能精准输入文字而非依赖 OCR 识别后模拟点击——大幅提升文本输入成功率与速度。2.3 第三步部署控制端代码——一行命令启动智能体现在你的电脑和手机已建立信任连接。接下来在电脑上部署 Open-AutoGLM 控制端# 1. 克隆官方仓库国内用户建议加代理或使用镜像 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境推荐避免依赖冲突 python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装依赖含 ADB 封装、视觉处理、模型通信模块 pip install -r requirements.txt pip install -e .验证运行python -c from phone_agent.adb import list_devices; print(list_devices())应输出已连接设备列表。至此软硬件准备全部完成。你已拥有一台“听得懂人话、看得清屏幕、点得准按钮”的手机 AI 助理。3. 第一次运行用一句话让它为你点开小红书现在让我们执行第一个真实指令。我们将以“打开小红书搜美食”为例完整走通从输入到执行的全流程。3.1 启动命令详解——每个参数都直指核心在Open-AutoGLM目录下运行以下命令python main.py \ --device-id ABC123456789 \ --base-url http://192.168.1.100:8800/v1 \ --model autoglm-phone-9b \ 打开小红书搜美食我们逐个解释这些参数的实际意义--device-id ABC123456789就是你adb devices输出的设备 ID。它告诉 AI“我要操控这台手机”。--base-url http://192.168.1.100:8800/v1这是你云服务器或本地 vLLM 服务上运行的autoglm-phone-9b模型 API 地址。如果你使用 CSDN 星图镜像广场的一键部署服务该地址会在部署完成后直接提供。--model autoglm-phone-9b指定调用的模型名称。该模型专为手机 Agent 任务微调对“点击”“滑动”“输入”等动作指令理解极强。打开小红书搜美食这就是你下达的自然语言指令。它不需要任何格式、不需要关键词、不需要“请”字——就像对朋友说话一样自然。3.2 执行过程实录它在后台做了什么当你按下回车你会看到终端快速滚动日志。这不是乱码而是它正在“思考”与“行动”[INFO] 截取当前屏幕截图... [INFO] 视觉模型识别到底部导航栏含「首页」「发现」「我」图标顶部有「小红书」App 名称 [INFO] NLU 解析指令意图启动App目标App小红书后续动作搜索关键词美食 [INFO] 规划动作序列1. 点击「小红书」图标 → 2. 等待首页加载 → 3. 点击搜索框 → 4. 输入「美食」→ 5. 点击搜索按钮 [INFO] 执行动作 1/5ADB 点击坐标 (540, 2100)... [INFO] 执行动作 2/5等待「搜索」图标出现超时3s... [INFO] 执行动作 3/5ADB 点击搜索框... [INFO] 执行动作 4/5ADB Keyboard 输入「美食」... [INFO] 执行动作 5/5ADB 点击搜索按钮... [SUCCESS] 任务完成共执行5步耗时8.3秒。整个过程你只需看着手机屏幕自动变化App 启动 → 页面跳转 → 搜索框高亮 → 文字输入 → 结果呈现。没有卡顿没有误点没有“找不到按钮”的报错。3.3 进阶技巧让指令更聪明、更安全、更可靠加入上下文避免歧义❌ “点关注” → 它不知道关注谁“在刚刚打开的小红书页面点右上角的关注按钮” → 明确对象与位置启用人工接管守住安全底线在涉及账号密码、支付确认、权限申请的指令中框架会自动暂停并在终端打印[PAUSE] 检测到「允许访问位置信息」弹窗请手动操作后按回车继续你永远拥有最终控制权。WiFi 远程连接摆脱 USB 线束缚先用 USB 连接执行adb tcpip 5555拔掉线再运行adb connect 192.168.1.100:5555后续--device-id即可替换为192.168.1.100:5555实现无线操控。4. 实战进阶从“能用”到“好用”掌握三大核心能力Open-AutoGLM 的价值不仅在于“能执行”更在于它能理解复杂意图、处理动态界面、适应个性化习惯。掌握以下三项能力你就能把它从“玩具”变成“生产力工具”。4.1 能力一多轮交互——让一次对话完成一整套流程它支持真正的多轮上下文理解。例如你“打开淘宝搜‘无线降噪耳机’”AI 执行搜索展示结果页你“点第一个看详情”AI 点击首条商品进入详情页你“把价格和品牌抄下来发到微信文件传输助手”AI 截图识别价格与品牌 → 切换微信 → 打开文件传输助手 → 粘贴文字 → 发送背后技术支撑视觉状态缓存记住上一步的界面截图与 DOM 结构指令指代解析将“第一个”“上面那个”“刚看到的”映射到具体 UI 元素跨 App 状态追踪在淘宝、微信等多个 App 间无缝切换并保持任务连贯性4.2 能力二自定义动作库——把高频操作变成一句话指令你经常做的操作可以固化为快捷指令。编辑config/actions.yamlactions: - name: 一键打卡 description: 在钉钉打开考勤点击‘上班打卡’ steps: - app: com.alibaba.android.rimet - action: open - wait_for: 考勤 - click_text: 上班打卡 - name: 日报生成 description: 汇总今日微信未读消息数、邮件数、代办事项发到企业微信 script: scripts/daily_report.py之后你只需说“执行一键打卡”它便自动完成整套钉钉操作。无需每次重写指令大幅降低使用门槛。4.3 能力三敏感操作白名单——在自动化与安全性之间找到黄金平衡点框架内置三级安全策略策略层级触发条件行为自动放行点击普通按钮、滑动列表、输入非敏感字段直接执行无感流畅确认弹窗出现含“密码”“PIN”“支付”“删除”“格式化”等关键词的界面终端暂停 语音提示可选 等待你按回车硬性拦截检测到系统级设置修改如关闭位置服务、清除所有数据拒绝执行返回错误“该操作存在安全风险已拦截”这确保它既能高效干活又绝不会越界——你永远是对手机拥有绝对主权的人。5. 常见问题与避坑指南少走弯路一次成功在数十位早期用户的部署反馈中我们梳理出最常遇到的 4 类问题及根治方案5.1 问题adb devices显示offline或unauthorized原因ADB 服务异常或手机授权未通过解决电脑端执行adb kill-server adb start-server手机断开 USB重新连接务必在弹窗出现时立即勾选“始终允许”如仍无效尝试更换 USB 数据线部分充电线不支持数据传输5.2 问题模型返回乱码、空响应或卡在“等待界面加载”原因云服务端口未正确映射或max-model-len设置过小解决检查云服务器防火墙确保8800或其他映射端口已放行 TCP启动 vLLM 时务必添加参数--max-model-len 8192autoglm-phone-9b需要足够长的上下文窗口使用curl http://IP:8800/v1/models测试 API 是否可达5.3 问题AI 点错了位置或找不到按钮文字原因屏幕分辨率适配问题或截图未及时更新解决在config.yaml中设置screen_scale: 1.0根据手机实际 DPI 调整如 Pixel 6 用1.25添加--debug-screenshot参数运行它会将每一步截图保存至debug/目录方便你肉眼比对识别效果5.4 问题中文输入失败光标乱跳原因未正确启用 ADB Keyboard或输入法冲突解决再次确认手机“语言与输入法”中默认键盘为ADB Keyboard在main.py启动时添加--input-method adb参数如仍失败临时禁用手机其他第三方输入法如百度、搜狗这些问题90% 都能在 5 分钟内定位并解决。它的设计哲学是错误要有明确提示修复要有清晰路径绝不让用户陷入“黑盒式”调试。6. 总结它不只是一个工具而是你数字生活的“第二双手”回看开头那个“手指划到小红书”的日常片段Open-AutoGLM 带来的改变远不止“省几下点击”那么简单它把“操作”升维成“表达”你不再需要学习 App 的菜单路径只需说出目的它来翻译成动作它把“重复”压缩成“一次声明”那些每月要操作上百次的流程现在只需配置一次永久生效它把“失控感”转化为“掌控感”每一次暂停、每一次确认都在提醒你——技术服务于人而非替代人。这不是终点而是一个起点。随着autoglm-phone-9b模型持续迭代它将支持更复杂的视觉推理比如识别图表趋势、理解多页 PDF、更自然的语音交互边说边做、更深度的 App 集成直接调用微信 SDK 发送模板消息。而你现在要做的就是打开终端敲下那行git clone。因为真正的智能从来不是藏在论文里而是在你指尖之下随时待命。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。