中国制造网网站类型邵阳网站建设多少钱
2026/2/20 10:29:38 网站建设 项目流程
中国制造网网站类型,邵阳网站建设多少钱,信息流广告代运营公司,易网小白也能懂的AutoGLM教程#xff1a;一键实现AI自动点外卖 1. 这不是语音助手#xff0c;是能“看”会“点”的手机AI管家 你有没有过这样的时刻#xff1a; 手指划到酸软#xff0c;还在美团里翻第37页“附近好评火锅”#xff1b; 输入法卡顿#xff0c;打完“瑞幸拿…小白也能懂的AutoGLM教程一键实现AI自动点外卖1. 这不是语音助手是能“看”会“点”的手机AI管家你有没有过这样的时刻手指划到酸软还在美团里翻第37页“附近好评火锅”输入法卡顿打完“瑞幸拿铁不加冰少糖”发现下单按钮早被误点跳转深夜饿得清醒却连打开外卖App的力气都没有——更别说在几十个弹窗和广告中精准点击“立即支付”。别急着叹气。这次我们不用写代码、不配显卡、不折腾Docker只用一台普通电脑一部安卓手机就能让AI替你完成整套操作看屏幕、识按钮、点图标、输文字、选规格、点下单——全程自然语言一句话搞定。这就是智谱开源的Open-AutoGLM一个真正意义上的“手机端AI Agent”。它不是调API回个文字而是像真人一样用眼睛截图理解你手机当前界面长什么样用脑子视觉语言模型判断“搜索框在哪”“‘去结算’按钮坐标是多少”用手ADB指令真实点击、滑动、输入不模拟、不截图、不猜测——真·执行。标题里说“自动点外卖”只是它最接地气的一个切口。它还能“打开小红书搜‘上海平价日料’保存前三篇笔记”“进微信给‘妈妈’发语音‘我今晚加班不回家吃饭’”“打开高德地图查从公司到虹桥站的地铁末班车时间”只要是你能在手机上手动完成的事它就有可能替你做。而今天这篇教程就是专为零基础小白写的落地指南——不讲原理、不堆参数、不画架构图只告诉你 该装什么、连什么、点哪里 哪一步最容易卡住、怎么一眼看出问题 一句命令就能让AI开始干活连“外卖”两个字都不用提。准备好了吗我们直接开干。2. 三步搭好环境手机、电脑、AI大脑全连通2.1 手机端打开“天眼”和“遥控接收器”这一步决定AI能不能“看见”你的屏幕、“摸到”你的手机。别跳过90%的问题出在这里。第一步开启开发者模式进入手机「设置」→「关于手机」→连续快速点击「版本号」7次部分机型需10次直到弹出提示“您已处于开发者模式”。第二步打开USB调试返回「设置」→「系统与更新」→「开发者选项」→开启「USB调试」。注意部分品牌如华为、小米还需额外开启「USB安装」和「USB调试安全设置」勾选全部。第三步装好ADB Keyboard关键这是让AI能“打字”的核心组件。下载地址https://github.com/senzhk/ADBKeyBoard/releases/download/v1.0/ADBKeyboard.apk用USB线连接手机与电脑在命令行输入adb install -r ADBKeyboard.apk安装成功后进入手机「设置」→「语言与输入法」→「当前输入法」→选择「ADB Keyboard」并设为默认。验证是否成功断开USB线用WiFi连上同一网络再运行adb devices若显示设备ID且状态为device说明手机已准备好接收指令。2.2 电脑端装好“遥控发射器”和“通信协议”你不需要GPU甚至不需要Linux——Windows或Mac都能跑。安装ADB工具5分钟搞定Windows用户下载Android SDK Platform-Tools解压到C:\platform-tools在「系统属性」→「环境变量」→「系统变量」→「Path」中添加该路径打开新命令行输入adb version看到版本号即成功。Mac用户终端执行curl https://dl.google.com/android/repository/platform-tools-latest-darwin.zip -o platform-tools.zip unzip platform-tools.zip export PATH$PATH:$(pwd)/platform-tools建议将export行加入~/.zshrc永久生效创建干净的Python环境强烈推荐# 使用conda更稳 conda create -n autoglm python3.10 conda activate autoglm # 或用venv python -m venv autoglm_env source autoglm_env/bin/activate # Mac/Linux # autoglm_env\Scripts\activate # Windows2.3 AI大脑用智谱API免部署、零显卡Open-AutoGLM支持两种模式本地部署大模型需显卡或调用云端API本文推荐。我们选后者——注册即用、免费额度充足、无需配置vLLM、不占你电脑1MB显存。访问 智谱AI官网注册账号进入「API Key管理」点击「创建API Key」复制保存形如sk-xxx关键提醒这个Key要全程用英文双引号包裹比如sk-abc123漏掉引号必报错。现在你的手机是“手和眼”电脑是“遥控器”智谱API是“大脑”——三者已就位。3. 一行命令启动让AI开始点外卖3.1 最简启动一句话真执行确保手机已通过USB或WiFi连接电脑adb devices能看到设备然后在终端进入项目目录执行python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey sk-你的API密钥 \ 打开美团搜索‘杭州西湖边的龙井虾仁’点进第一家店选‘堂食’加一份龙井虾仁下单注意事项--base-url固定为https://open.bigmodel.cn/api/paas/v4智谱官方API地址--model必须写autoglm-phone注意是phone不是phone-9b或其他指令必须是完整、具体、带动作链的中文自然句避免模糊词如“那个”“上面”“右边”如果用Windows且报UnicodeDecodeErrorGBK读UTF-8文件错误请打开scripts/check_deployment_cn.py在with open(...)行末尾加上encodingutf-8。执行后你会看到AI开始工作自动截取手机当前屏幕将截图文字指令一起发给智谱模型模型返回结构化操作步骤如“点击坐标(520, 180)”“输入文字‘龙井虾仁’”ADB自动执行手机屏幕实时响应。整个过程无需你干预就像看着另一个人在帮你操作。3.2 进阶用法交互模式像聊天一样下指令不想每次改命令用交互模式python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey sk-你的API密钥运行后会出现提示Enter your task:这时你就可以像跟朋友说话一样输入→ “打开抖音搜‘健身餐食谱’关注前三个博主”→ “进微信把昨天那张猫图发给‘同事小王’”→ “打开高德导航到最近的瑞幸咖啡避开拥堵”每输一条AI立刻执行结果实时反馈在终端。适合反复测试、快速验证想法。3.3 真实效果它真的点成了吗我们实测了“点外卖”全流程手机vivo S20电脑MacBook Pro M1指令“打开饿了么搜‘上海静安寺附近生煎’选‘大壶春’点单‘鲜肉生煎豆浆’备注‘不要葱’下单”实际耗时约82秒含截图分析、模型推理、ADB执行延迟成功节点✓ 自动识别饿了么首页搜索框并点击✓ 准确输入“上海静安寺附近生煎”并触发搜索✓ 在结果页精准定位“大壶春”店铺卡片并点击进入✓ 识别菜品列表“鲜肉生煎”和“豆浆”按钮坐标无误✓ 在备注栏输入“不要葱”未误触其他选项✓ 最终跳转至支付页显示“待支付”状态。当前限制坦诚告知遇到图形验证码、短信验证、人脸识别等强安全环节AI会主动暂停并提示“需人工接管”部分App深度定制UI如某些银行App控件识别率略低建议优先用于美团、抖音、微信、高德等主流应用WiFi连接稳定性影响执行流畅度首次建议用USB线直连。但请记住这不是一个“完美无缺”的工具而是一个已能稳定完成真实任务的AI Agent原型——它的价值不在100%成功率而在把“重复性手机操作”这件事第一次交给了AI。4. 为什么它能看懂屏幕、还能点准一句话讲清原理很多教程一上来就讲VLM、RLHF、Action Space反而让人更懵。我们换种说法想象你教一个刚来中国的朋友点外卖你先给他手机让他自己看屏幕截图 → 视觉输入你告诉他“现在你要找一个放大镜图标它通常在右上角点一下”文字指令 → 语言输入他眯着眼找终于看到——但不确定是不是于是拍张照发给你多模态对齐图文联合理解你一看“对就是它坐标大概x920, y120”模型输出像素级操作坐标他伸手过去稳稳点中ADB执行真实点击。Open-AutoGLM做的就是把“你”换成了智谱的视觉语言模型把“他”换成了你的手机。它不靠预设规则比如“所有App的搜索框都在右上角”而是每次根据当前截图动态推理出最可能的操作——这才是真正的“智能”而不是“脚本”。所以它不怕App更新界面变了没关系AI重新看图分析所以它能跨App从微信跳到美团没问题模型理解的是“任务流”不是单个App。你不需要懂Transformer只需要知道它看的是真截图点的是真屏幕干的是真事情。5. 常见问题速查卡住时先看这5条问题现象最可能原因一句话解决adb devices不显示设备USB调试未开 / 数据线仅充电换线、重启手机、重开USB调试、检查电脑驱动运行报错Connection refused智谱API Key错误 / URL拼错检查Key是否复制完整、URL末尾是否有斜杠、是否用了中文引号AI一直“思考中”无响应网络慢 / API限流 / 指令太模糊换WiFi、检查智谱控制台剩余token、把“那个店”改成“评分4.8分的‘南翔馒头店’”点错了位置或输错字截图模糊 / 屏幕亮度低 / 字体太小调高手机亮度、清理屏幕指纹、确保截图清晰可手动截一张看执行到一半停住提示“需人工确认”遇到登录页、支付密码、验证码这是安全设计此时你只需手动输密码AI会继续后续流程终极技巧如果某条指令总失败把它拆成两句。比如❌ “打开小红书搜‘北京胡同咖啡’收藏前五篇”先输“打开小红书搜索‘北京胡同咖啡’”等它完成搜索页后再输“点击第一篇笔记点收藏按钮”分步执行成功率飙升。6. 总结你已经拥有了一个会动手的AI伙伴回顾这一路我们没编一行业务逻辑没调一个模型参数没配一个GPU驱动只做了三件事✔ 在手机上打开“眼睛”USB调试和“手”ADB Keyboard✔ 在电脑上装好“遥控器”ADB和“通信协议”Python环境✔ 向智谱借来“大脑”API Key用一句话下达任务。结果呢AI替你完成了从打开App、搜索、浏览、选择、填写、到下单的全链路操作。它不完美但足够真实它有延迟但省下了你划屏的3分钟它会卡在验证码但之后的10步它全包了。这不是科幻是今天就能跑起来的技术。它背后的意义远不止“点外卖”对个人把手机上重复、机械、费眼的操作交给AI对开发者提供了一个开箱即用的Phone Agent框架可基于它快速构建垂类助手如“老人手机管家”“跨境购物比价助手”对产品人验证了“多模态Agent 真机操控”这条技术路径的可行性。下一步你可以→ 尝试更复杂的指令比如“对比美团和饿了么上同一家店的配送费选便宜的下单”→ 把指令写成批处理脚本每天早上自动领咖啡券→ 查看main.py源码修改提示词prompt让它更懂你的表达习惯→ 甚至用它自动化测试App UI——这才是工程师的隐藏玩法。技术的价值从来不在多炫酷而在多实在。当你第一次看着AI替你点好外卖手机弹出“订单已提交”那一刻你会明白它不是替代你而是把那些本不该消耗你注意力的小事轻轻接了过去。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询