2026/2/18 6:01:56
网站建设
项目流程
设计师投资做项目网站,建一个网站大概需要多少钱,中国企业登记网官网,wordpress 调用导航栏让AI拥有‘手’#xff1a;Open-AutoGLM工作原理通俗讲解
1. 前言#xff1a;当大模型第一次真正“摸到”手机屏幕
你有没有试过对语音助手说#xff1a;“帮我打开小红书#xff0c;搜‘上海咖啡探店’#xff0c;把前三条笔记截图发给我”#xff1f; 结果它只回你一…让AI拥有‘手’Open-AutoGLM工作原理通俗讲解1. 前言当大模型第一次真正“摸到”手机屏幕你有没有试过对语音助手说“帮我打开小红书搜‘上海咖啡探店’把前三条笔记截图发给我”结果它只回你一句“正在为您搜索‘上海咖啡探店’……”——然后就卡在原地再无下文。这不是它不想干是它根本“看不见”屏幕也“够不着”按钮。Siri、小爱同学、YOLO语音助手它们都活在“指令-响应”的二维世界里听懂话 → 调系统API → 返回文字。但真实世界是三维的有界面、有坐标、有弹窗、有滑动条、有验证码图片、有需要长按三秒才能出现的菜单。Open-AutoGLM 改变了这件事。它不是又一个聊天机器人而是一个能看、能想、能点、能输、能等、能问你确认的手机端AI Agent——准确地说是让大模型第一次真正拥有了“手”。它不靠预设脚本不依赖App内部接口也不要求你提前录好操作流程。你只用说一句自然语言比如“登录微信给张三发一条‘周末去爬山吗’附上我昨天拍的梧桐山照片。”它就会截一张当前屏幕看懂界面上哪些是微信图标、哪些是聊天列表、哪个是张三的名字判断下一步该点击微信 → 进入对话框 → 点击输入框 → 调出键盘 → 输入文字 → 点击发送按钮 → 再点“”选照片 → 找到相册里最新那张 → 确认发送整个过程像一个耐心又细致的朋友坐在你旁边替你一步步操作你的手机。本文不讲晦涩的Agent架构图也不堆砌RLHF、ToT、ReAct这些术语。我们用生活里的类比、真实的执行链条、可复现的代码片段带你一层层拆开 Open-AutoGLM 的“手”是怎么长出来的——从眼睛看屏到脑子决策再到手指执行。2. 它不是魔法而是一套闭环的“人机协作流水线”Open-AutoGLM 的核心能力来自三个模块的紧密咬合视觉感知 → 意图规划 → 设备操控。这不像传统自动化工具如Auto.js靠坐标硬编码也不像RPA靠UI元素ID识别。它的特别之处在于所有判断都基于对屏幕图像的理解并由大模型实时生成操作逻辑。2.1 第一步让AI“睁开眼”——多模态屏幕理解当你下达指令时Open-AutoGLM 并不会立刻点屏幕。它先做一件关键的事截屏。adb shell screencap -p /sdcard/screen.png adb pull /sdcard/screen.png ./local_screen.png这张local_screen.png就是AI的“眼睛”。但光有图还不够——它得知道图里有什么。这时视觉语言模型VLM登场了。Open-AutoGLM 使用的是智谱自研的autoglm-phone-9b模型这是一个专为手机UI优化的轻量级多模态模型。它被训练过成千上万张安卓界面截图对应操作描述比如输入图文字输出结构化动作![微信聊天页截图] “给李四发‘会议改到3点’”{action: click, target: 输入框, reason: 需先激活输入区域}![美团首页截图] “搜‘附近2公里内评分4.8以上的川菜’”{action: type, text: 川菜, target: 搜索框}注意它输出的不是“点击坐标(520, 1130)”而是带语义的描述——“输入框”“返回按钮”“搜索图标”。这意味着即使App更新了UI、按钮换了位置、字体变大了只要视觉特征没本质变化它依然能认出来。就像你看到新版微信的“”号挪到了右上角你照样知道那是“发起新消息”的入口。2.2 第二步让AI“动脑子”——分步任务规划与自我验证拿到截图和用户指令后模型要做的不是直接执行而是先写一份“操作说明书”。这个过程叫Task PlanningOpen-AutoGLM 采用的是思维链Chain-of-Thought 自我验证Self-Reflection双机制思维链模型会逐步推理“用户要搜美食→现在在桌面→得先找到小红书图标→点击打开→等App加载完成→找搜索框→输入关键词→点搜索按钮→浏览结果”自我验证每走一步它都会反问自己“上一步成功了吗当前界面是否符合预期”比如点击小红书图标后它会再截一次屏确认看到的是小红书首页而不是“应用未安装”提示——如果不对就自动重试或报错。这种“边走边看、错了就调头”的方式极大提升了鲁棒性。它不像脚本那样一错全崩而更像一个有经验的人在摸索操作。2.3 第三步让AI“伸出手”——通过ADB精准操控设备规划好了怎么落实靠 ADBAndroid Debug Bridge——安卓官方提供的调试桥接工具。Open-AutoGLM 把模型输出的语义动作翻译成具体的 ADB 命令模型输出对应 ADB 命令实际效果{action: click, target: 搜索框}adb shell input tap 420 180在坐标(420,180)模拟一次点击{action: type, text: 火锅}adb shell input text 火锅向当前焦点输入文字{action: swipe, start: [200,1000], end: [200,300]}adb shell input swipe 200 1000 200 300从下往上滑动刷新列表这里有个关键设计它不依赖绝对坐标而是动态计算。模型在分析截图时会同时输出目标控件的相对坐标归一化到0~1范围和置信度。控制端再结合当前屏幕分辨率实时换算成真实像素坐标。所以哪怕你换了一台2K屏手机只要截图清晰它依然能准确定位。更聪明的是它支持敏感操作人工接管。比如遇到登录页、支付密码框、短信验证码弹窗模型会主动暂停输出类似这样的提示“检测到微信登录页面需输入手机号。请手动输入并点击‘下一步’完成后输入‘继续’我将接管后续操作。”这既保障了安全边界又保留了人机协同的灵活性。3. 从零跑通三步搭建你的AI手机助理不需要GPU服务器不用编译复杂环境。一台普通Windows/Mac电脑 一部安卓手机就能让 Open-AutoGLM 跑起来。整个过程分为三步连得上、认得清、动得了。3.1 连得上让电脑“看见”你的手机这是最基础也最容易卡住的环节。核心就两件事ADB通路打通 输入法就位。ADB配置要点避坑版Windows用户下载官方platform-tools解压后把文件夹路径加进系统环境变量Path。验证命令adb version显示版本号→adb devices显示device状态不是unauthorized。手机端设置 → 关于手机 → 连续点击“版本号”7次 → 开启开发者选项 → 返回设置 → 开发者选项 → 打开“USB调试”。重点部分手机如华为、小米还需开启“USB调试安全设置”和“安装未知应用”权限否则adb install会失败。ADB Keyboard 必装这是实现“AI打字”的关键。它让ADB命令能真正输入文字而非仅模拟按键。下载地址ADBKeyboard.apk安装命令adb install -r ADBKeyboard.apk手机设置设置 → 语言与输入法 → 当前输入法 → 切换为ADB Keyboard提示如果adb devices显示为空请检查USB线是否支持数据传输很多充电线不行、手机是否弹出“允许USB调试”提示务必勾选“始终允许”。3.2 认得清调用云端模型跳过本地部署Open-AutoGLM 支持两种模式本地vLLM部署 or 调用智谱BigModel API。对新手强烈推荐后者——零显卡、零编译、5分钟启动。注册智谱账号bigmodel.cn进入控制台 → 创建API Key免费额度充足够日常测试克隆代码并安装依赖git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt3.3 动得了一条命令让AI开始干活准备就绪后只需一条命令即可让AI执行你的自然语言指令python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey your_api_key_here \ 打开高德地图搜索‘最近的苹果授权店’把营业时间截图发给我参数说明--base-url智谱API固定地址--model指定使用手机端专用模型autoglm-phone--apikey你从智谱获取的密钥务必用英文双引号包裹最后字符串你的自然语言指令支持中文无需特殊格式执行后你会看到终端实时打印出AI的思考过程[INFO] 截取当前屏幕... [INFO] 已上传截图至模型服务... [INFO] 模型返回规划1. 点击桌面高德地图图标 → 2. 等待首页加载 → 3. 点击搜索框 → ... [INFO] 正在执行步骤1点击坐标(320, 850)... [INFO] 截取新屏幕验证是否进入高德首页... [INFO] 正在执行步骤2向搜索框输入最近的苹果授权店... ... [INFO] 任务完成结果已保存至 ./output/screenshot_result.png这就是“手”的诞生现场没有一行UI自动化脚本全靠模型对图像和语言的联合理解驱动。4. 它能做什么——真实场景下的能力边界Open-AutoGLM 不是万能神器但它在特定场景下展现出远超预期的实用性。我们用真实可复现的任务来检验它的“手”有多稳。4.1 日常高频场景省掉80%的手动操作场景指令示例AI实际表现关键能力体现信息检索“打开知乎搜‘如何挑选机械键盘轴体’把前两条回答的标题和点赞数抄下来”准确打开知乎 → 输入搜索词 → 点击第一条回答 → 截图并OCR提取文字 → 整理成文本返回多步导航 文字识别 结构化输出电商比价“打开淘宝和京东分别搜‘AirPods Pro 2代’把两家最低价和发货地记下来”同时管理两个App切换 → 分别执行搜索 → 定位价格元素非固定坐标→ 比较后汇总App间切换 跨App状态保持内容整理“打开微信收藏找到昨天转发给我的‘Python异步编程指南’把全文复制到备忘录”进入微信 → 点击“我” → 进入“收藏” → 按时间倒序找 → 点开文章 → 长按选择全部 → 复制 → 切换到备忘录粘贴时间感知 长按操作 跨App粘贴4.2 它暂时还做不到的事理性认知边界❌处理动态验证码图片虽然能识别简单数字验证码但对扭曲、干扰线强的图形验证码仍需人工输入。❌操作游戏类App游戏UI无标准控件、动画频繁、帧率波动大导致截图分析失准。❌理解模糊指令“帮我弄点好吃的”——缺少明确App指向和操作目标模型会要求你补充“请问您想在哪个App操作美团饿了么还是小红书”❌跨设备协同目前仅支持单台安卓设备无法同时操控手机平板电脑。这些限制不是缺陷而是设计选择Open-AutoGLM 的定位是可靠的手机助手不是全能OS。它把“不确定”交给用户把“确定”留给自己。5. 进阶玩法不只是执行还能帮你“学操作”Open-AutoGLM 最有趣的设计之一是它的“教学模式”——它不仅能做事还能解释自己为什么这么做。在交互模式下运行不带具体指令python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model autoglm-phone --apikey xxx然后输入“教我怎么在小红书发布一篇带定位的图文笔记”AI会返回一份带注释的操作指南1. 打开小红书App点击桌面图标 → 理由当前在桌面需先进入主App 2. 点击底部“”号创建按钮 → 理由发布入口统一在此图标为白色加号 3. 选择“图片”类型从相册选取3张照片 → 理由您提到“图文笔记”需先选图 4. 点击右上角“下一步”进入编辑页 5. 在“添加位置”处点击搜索“中关村创业大街” → 理由您未指定位置我推荐一个热门地标 6. 输入文案“今天在中关村偶遇AI创业团队分享他们的技术栈” 7. 点击“发布”按钮这份指南不是静态文档而是AI根据当前界面实时生成的。你可以把它当作一个随时待命的“手机操作教练”尤其适合教长辈用智能手机、或快速学习新App功能。6. 总结它重新定义了“人机交互”的尺度Open-AutoGLM 的价值不在于它能多快完成一个任务而在于它把人从“操作者”解放为“指挥者”。过去我们和手机的关系是我 → 想做什么 → 手指移动 → 点击图标 → 输入文字 → 等待反馈 → 再点击…每一步都需要精确的肌肉记忆和界面熟悉度。现在这个链条缩短为我 → 说一句话 → AI理解意图 → 视觉确认 → 规划路径 → 执行动作 → 返回结果它没有消灭界面而是让界面成为AI的“感官输入”把人的语言变成最自然的控制协议。当然它还有很长的路要走降低延迟、提升小屏识别精度、支持iOS需越狱或MacCatalyst方案、增加多设备协同……但它的开源已经为整个领域立下了一个清晰的路标——真正的智能助理不该只听你说话更要能替你动手。而你的第一只AI之手此刻就在你电脑的终端里等待一句“帮我……”获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。