ChatGPT Agent 怎么用?让 AI 自己点鼠标订机票
ChatGPT Agent 怎么用:手把手开启 Agent 模式,让 AI 自己开浏览器、点按钮、跑终端、订机票、改表格,一篇讲清能干什么、不能干什么、怎么避开授权陷阱。
ChatGPT Agent 怎么用,2026 年这个问题终于不再是「等灰度」的状态——OpenAI 把它从 feature flag 推成了 Pro、Plus、Team 用户的默认能力。简单说,Agent 模式就是给 ChatGPT 装了一台属于它自己的电脑:有浏览器、有终端、有文件系统,你下达任务,它真的会去打开网页、点按钮、填表单、下载文件、跑命令,最后把结果交给你。
这篇手把手讲清楚 ChatGPT Agent 是什么、怎么开、第一个任务怎么跑、5 个真实场景能干什么、以及最容易踩的 4 个坑。
30 秒了解 ChatGPT Agent
ChatGPT Agent 是一个让 ChatGPT 在虚拟电脑上替你操作的模式。 它能开浏览器看网页、点按钮、填表单、跑终端命令、下载文件,然后把结果整理给你。
它和 Deep Research 最大的区别:Deep Research 只「读」——读海量网页给你写报告;Agent 既能读也能「写」,能真的点提交按钮、能真的把表格存到云端、能真的发那封邮件(在你点同意之后)。
适合谁用:
- 想让 AI 替自己完成跨网站、跨工具的连贯任务的人(订行程、跑竞品调研、批量整理资料)
- 已经习惯用 ChatGPT 做信息工作、希望再省一截手动操作时间的人
- 对 ChatGPT Tasks 这种定时任务玩腻了、想往「真自动化」走一步的人
不适合谁:要求 100% 不出错的关键任务(涉及付款、合同、对外发送的邮件),它会请求授权但仍可能误点;建议老老实实自己来。
准备工作
开始前先确认这几件事,少走弯路:
- 账号要 Plus、Pro 或 Team。免费账号目前还看不到 Agent 入口。怎么订阅看 ChatGPT Plus 值不值得。
- 平台支持:Web 网页版、macOS 桌面端体验最完整;iOS、Android 也能用,但虚拟桌面在小屏上看起来挤。
- 国内用户:ChatGPT 在中国大陆不开放服务,得自己解决网络与支付。不想折腾的话,可看国产 AI 大全里类似方向的智能体,扣子和 Manus 这类国内 Agent 平台思路相近。
- 预留时间:Agent 跑一个任务通常 3-20 分钟,别在它干活的时候关掉标签页。
详细操作步骤
第 1 步:在对话框里调出 Agent 模式
打开 ChatGPT,在输入框左边点 + 号,下拉菜单里选 Agent mode。或者更快——直接在输入框里敲 /agent,回车确认。
[此处放截图:ChatGPT 输入框 + 号展开菜单,红框标注 Agent mode 选项]
看不到 Agent mode?两种可能:1)你不是 Plus/Pro/Team;2)灰度还没到你账号上。等 1-2 天再看,或者切到 Web 端试试。
第 2 步:把任务说清楚
进入 Agent 模式之后,对话框上方会出现一个「Agent」标识。你直接用人话描述要完成的任务,关键是把 3 件事说清楚:要达成的目标、必须遵守的约束、最终交付物是什么。
例子:
帮我在去哪儿网搜下周一从上海到北京的机票,找出早上 9 点之前起飞、价格最低的 3 个航班,整理成表格给我。
Agent 会先生成一个执行计划,类似「我会先打开去哪儿网首页 → 输入出发到达城市 → 选择日期 → 筛选时段 → 比对价格」。你可以点 Approve 让它开干,也可以打断、修改计划。
第 3 步:边看边监督
任务跑起来之后,界面会分成两边:左边是对话流,右边是 Agent 的「虚拟桌面」。你能实时看到它打开了哪个网页、鼠标点到了哪里、终端输出了什么。
[此处放截图:Agent 运行界面,左侧对话流右侧虚拟桌面浏览器]
想看具体逻辑?把右边切到 Activity 视图,能看到每一步的推理过程,类似 Deep Research 的思考链。
第 4 步:在敏感动作出现时主动介入
Agent 默认会在做以下动作前停下来请求授权:
- 发送邮件、提交表单、付款
- 填写登录账号密码(这一步它根本不会偷看你输入的内容,桌面会自动模糊)
- 下载大文件、安装插件
- 修改云端文件(如 Google Drive、Notion)
弹出授权时认真读一眼描述,确认要做的事再点 Allow。犹豫就拒——拒绝后你可以接管浏览器,自己点完那一步再让 Agent 继续。
第 5 步:让 Agent 接住交付物
任务完成后,Agent 会把结果以下面几种形式之一交给你:
- 对话内 Markdown 总结:最常见,方便复制
- 可下载的文件:CSV、PDF、Word、PNG
- Canvas 画布:长文本和代码会落到 Canvas 里方便后续编辑(见 ChatGPT Canvas 怎么用)
[此处放截图:Agent 任务完成后的交付物界面,含下载按钮]
不满意?直接在对话里说「重新做第 3 步,把价格筛选条件改成 800 元以内」,它会从你指定的步骤接着跑,不必从头来过。
第 6 步:复盘和复用
每次 Agent 跑完,对话会自动保存在左侧列表里。好用的任务记得给它起个清晰的对话名,下次直接进去说「按上次的方式再跑一次,把日期换成下周二」就行,省一截描述时间。
5 个 ChatGPT Agent 真实可用场景
第一个任务跑通之后,下面这 5 个场景能真正帮你省时间。
1. 跨网站资料汇总
让 Agent 去 5 个竞品官网各抓一遍最新产品页 + 价格 + 主打功能,然后拼成一张对比表。以前一个人做要 1-2 小时,Agent 大概 8-15 分钟跑完。
2. 复杂订票订房
「下周三飞东京、住新宿、预算 800/晚、含早餐、有健身房,给我 3 个备选」——这类带多个约束的搜索 Agent 比人快,因为它能并行打开多个网站对比。
3. 简单数据处理
让它打开你云端的某个 Google Sheet,把 A 列里所有「待跟进」状态的行复制到新 sheet 并按日期排序。需要先连接 Google Drive。
4. 资料整理与归档
「这是 20 张发票图片,按月份分类、命名、汇总金额,导出 Excel」——Agent 在终端里跑 Python 就能搞定,过去这种事得自己开 Jupyter。
5. 信息监控类巡检
每周一让 Agent 跑一次「我的 5 家关注公司 GitHub 仓库本周新 release」,配合 ChatGPT Tasks 还能定时触发。
常见坑 + 解决办法
| 现象 | 原因 | 解决 |
|---|---|---|
| 找不到 Agent mode 入口 | 灰度未到 / 账号是 Free | 等 1-2 天;升级 Plus 以上 |
| 任务跑到一半卡住 | 网页加载超时 / 弹出验证码 | 点 Take over 自己过验证码再让它继续 |
| 在登录页前停住反复要密码 | Agent 不会保存账号 | 自己接管登录,登录后还给它 |
| 跑完结果不对 | 描述太模糊 / 网页改版 | 把目标、约束、交付物写得更具体;换二级网站重试 |
| 授权弹窗一闪而过 | Agent 自动确认开了 | 在设置里关掉「Auto-approve safe actions」 |
| 跑了很久也不出结果 | 任务超出能力(如视频生成) | 拆成更小任务;该用专用工具的别硬塞给 Agent |
| 跨网站登录失败 | Cookies 未保存 | 同一会话里跑完任务别关;下次重新登 |
实战案例:一个真能用的 Agent prompt
下面这个 prompt 已经在我自己账号上跑成功过 3 次。目标是自动整理本周 AI 行业大事,跑一次大概 12-18 分钟。
把对话切到 Agent mode,复制粘贴这段:
请帮我做一份本周 AI 行业大事汇总。
任务要求:
- 打开 TechCrunch、The Verge、Hacker News 这三个站
- 找出过去 7 天里和「AI」「大模型」「OpenAI」「Anthropic」「Google DeepMind」「Meta AI」相关的报道
- 每个站挑出阅读量或讨论量最高的 3 条,共 9 条
- 每条用中文写 50 字以内的摘要,附原文链接
- 最后用一张表格汇总:标题、来源、日期、链接、一句话点评
- 整理成 Markdown,直接放到对话里
约束:
- 不要进收费墙后面的文章
- 中文摘要要客观,不要堆形容词
- 如果某站当天打不开,跳过并在末尾注明
执行前请先把计划告诉我,我确认后再开始。
发送之后 Agent 会先输出执行计划,确认无误点 Approve。期间它会切换浏览器、滚动页面、点入文章——你能全程看到。第一次跑务必盯着前 2-3 分钟,确认浏览方向对了再去做别的事。
跑通这个之后,你大概率会对接下来的两个高阶玩法上瘾。
进阶 prompt:让 Agent 做你的「周报数据搬运工」
下面这个稍微复杂一点,适合已经把上面的晨报跑顺、想让 Agent 把数据搬到自己工具里的人。
请帮我做一项周报准备工作。
任务:
- 打开我连接的 Google Drive,进入「2026 周报」文件夹
- 找到「本周数据源.xlsx」这个文件,下载
- 读出其中「销售」sheet 的 A、B、E 三列(产品名 / 销量 / 客户名)
- 按客户名分组求和销量,按销量降序排
- 用 Python 在终端里把结果画成一张柱状图(matplotlib 即可)
- 把图保存为 PNG,连同前 10 名的明细表格一起放到对话里
- 顺手在对话里给我写一段 200 字的「本周销售口述稿」,重点是 Top 3 客户和环比变化
约束:
- 数字要从表格直接读,不要估算
- 客户名如果有英文写法保留英文
- 写口述稿要像人话,别用「值得注意的是」这种官腔
请先告诉我你打算怎么做,等我点 Approve 再开始。
这个任务对 Agent 的「读表 + 算数 + 画图」能力是个综合考验,跑通一次基本能定型,每周复用只换数据源文件名就行。
完整项目实战:让 Agent 抓 5 家 AI Coding 工具竞品定价 + 招聘信息
上面的 prompt 都是单点演示,下面这个是我真的从头到尾跑完一遍的项目。目标:让 ChatGPT Agent 一次性完成 5 家竞品的官网定价抓取 + LinkedIn / Boss 直聘上的招聘岗位数统计,最终输出一张 Excel 对比表。这种活原本我自己干要 3-4 小时(开 10 个 tab 来回切,复制粘贴到表格),Agent 跑下来一共 47 分钟(其中我盯着 + 干预了 3 次),真的省了一大截时间。
项目目标
我手里要做一份「2026 年 Q2 AI 编程工具竞品监测表」,给团队周会用。需要抓 5 家:Cursor、Windsurf、GitHub Copilot、Tabnine、JetBrains AI。每家收集:
- 当前最低付费档价格(美元 / 月)
- 当前最高付费档价格
- 是否有免费版
- 公司在 LinkedIn 上「工程师」相关岗位的开放数量(粗估扩张速度)
最后导出成 Excel,列名固定,一行一家公司。
步骤 1:准备工作(5 分钟)
打开 ChatGPT 网页版(Agent 在桌面端体验最好),左上角对话切到「New chat」,输入框左边点 + 号,选 Agent mode。如果你还没开启 Google Drive 连接,去 Settings → Connected apps → Google Drive → Connect,等会儿 Agent 要把 Excel 存到你的云盘里。
准备工作里最容易忘的一件事:把要抓的 5 家公司官网准确网址先在记事本里列好。Agent 自己 Google 搜也行,但有时候会搜到二级页(折扣页 / 旧版页),不如你直接喂主域名稳。
步骤 2:第一次跑(12 分钟)
切到 Agent mode,贴这段 prompt:
请帮我做一份 AI 编程工具竞品监测表。
任务:
- 依次访问以下 5 家公司的官网定价页:
- Cursor: https://cursor.com/pricing
- Windsurf: https://codeium.com/windsurf/pricing
- GitHub Copilot: https://github.com/features/copilot/plans
- Tabnine: https://www.tabnine.com/pricing
- JetBrains AI: https://www.jetbrains.com/ai-ide/buy/
- 每家提取:最低付费档价格(美元 / 月)、最高付费档价格、是否有免费版(是 / 否)
- 然后去 LinkedIn 搜索每家公司当前开放的「Software Engineer」相关职位数(不用进具体职位页,搜索结果页顶部的数字就行)
- 把所有数据整理成一张表格,列名固定为:公司名、最低档价格、最高档价格、有无免费版、工程师岗位数、抓取时间
- 表格导出为 xlsx,文件名
ai-coding-competitors-2026Q2.xlsx,存到我连接的 Google Drive 根目录约束:
- 价格如果有年付折扣,优先用月付价
- LinkedIn 搜不到(被墙 / 要登录)就在那一格填「N/A」并在最后说明
- 中间任何一步报错都先告诉我,不要自己瞎填数据
执行前先把计划告诉我,我确认后再开始。
Agent 会先输出执行计划(大概 9 步),点 Approve 让它跑。我第一次跑的时候,前 6 分钟它顺利抓完了 Cursor、Windsurf、Tabnine 三家——能在右边虚拟桌面看到它打开页面、滚到价格区、把数字读出来。
步骤 3:处理第一次失败(18 分钟)
跑到 GitHub Copilot 那一步第一次出问题:Agent 把价格读成了「$10」,但实际上 Copilot Pro 是 $10 / 月、Business 是 $19 / 月、Enterprise 是 $39 / 月——它只读了第一档就以为是「最高档」。
LinkedIn 那一步第二次出问题:因为没登录,搜索结果页直接跳了登录墙,Agent 停下来问我要不要授权登录。我选了 Deny(不想让 Agent 拿我账号),让它跳过。
打断 Agent,发这段修正 prompt:
停一下。两个问题要修:
GitHub Copilot 的「最高档价格」你只读了 Pro 的 $10,实际上还有 Business($19)和 Enterprise($39)。请重新打开 https://github.com/features/copilot/plans,把页面整个滚到底,找到 Enterprise 档的价格,更新到表格里。
LinkedIn 跳登录墙的问题,不要让我登录。改用 Google 搜索 site:linkedin.com/company/[公司名] jobs,从搜索结果摘要里能看到岗位数的就用,看不到的填 N/A。
修完这两处再继续后面没跑完的(Tabnine 的 LinkedIn 数 + 导出 Excel)。
Agent 接收到修正后,重新跑了 Copilot 那一步(这次正确读到了 Enterprise $39),LinkedIn 改用 Google 搜索的迂回方式拿到了 3 家的粗估数(其中 2 家还是 N/A)。
步骤 4:拿到最终结果(12 分钟)
第二次跑完,Agent 输出了完整表格预览,然后把 xlsx 推到了我的 Google Drive 根目录。我去 Drive 验证文件确实在那(文件名跟我指定的一致),下载下来打开,6 行 6 列,数字跟我自己抽查的 Cursor、Windsurf 两家完全对得上。
最后我让 Agent 顺手写了 200 字的总结:
基于刚才抓到的表格,用中文写 200 字以内的「本周竞品观察」,重点回答两个问题:
- 5 家里哪家最贵、哪家最便宜,价格梯度大不大
- 哪家从招聘数能看出明显在扩张(如果数据不够就直说)
写完直接放在对话里,不用存文件。
项目总耗时 + 成果
- 总耗时:47 分钟(其中我主动盯着 + 干预约 12 分钟,剩下 35 分钟 Agent 自己跑)
- 省下时间:vs 我自己手动开 10 个 tab 抓数据,至少省 2.5 小时
- 数据准确率:5 家定价数据全对(自己抽查了 3 家),LinkedIn 岗位数粗估只能算「方向参考」
- 复用价值:这套 prompt 我直接存到一个 ChatGPT Project 里,下个季度换日期再跑一次就行
5 个我踩过的坑(你别再踩)
下面这 5 个坑是我自己跑 Agent 大概 20 次之后总结的,每个都让我多花了至少 15 分钟才搞明白。
坑 1:让 Agent 一次性干太多不相关的事
症状:你写了一个 prompt,里面塞了 8 件事——抓数据、做表格、发邮件、画图、写文档、上传到 Notion……Agent 跑到第 4-5 件事就开始「失忆」,要么忘掉前面的约束,要么把后面的步骤跳过。
原因:Agent 的上下文窗口跟普通 ChatGPT 一样有限,每次浏览器跳转、终端输出都在吃 token。任务越长,越靠后的步骤越容易被「挤掉」。
解决:拆任务。一次只让 Agent 干一类事——「抓数据 → 整理成表格」是一个会话,「发周报邮件」是另一个会话。中间数据通过文件(Excel / CSV)传递。或者用下面这个「分段确认」prompt 模板:
这个任务分 3 段。每段做完先告诉我结果,等我说「下一段」你再继续。不要一次跑完。
第 1 段:[具体描述] 第 2 段:[具体描述] 第 3 段:[具体描述]
现在从第 1 段开始。
坑 2:Agent 在登录墙前反复要密码
症状:让 Agent 打开 LinkedIn / 你的 Notion / 你的 Gmail,它走到登录页停住,弹窗问你「要不要在这里输账号密码」,你输了之后它过 2 分钟又被踢回登录页再问一次,循环没完。
原因:Agent 的虚拟桌面默认不保留 cookies——每次任务结束环境就被清理。你这一会话里登录过的网站,过 10 分钟可能就掉登录了。
解决:两个办法。① 临时性任务(一次性的):你直接点 Agent 弹窗的 Take over,自己接管浏览器输密码 + 完成登录,登完点 Give back 还给 Agent。② 长期重复任务:用「不需要登录的迂回路径」,比如 LinkedIn 数据走 Google 搜索 site:linkedin.com、Gmail 数据走你导出的 mbox 文件、Notion 数据走你导出的 markdown。
坑 3:授权弹窗一闪而过没看清就过了
症状:Agent 跑到敏感动作前弹窗请求授权,你正在做别的事眼睛没盯着,等回过神来发现弹窗已经被你不小心 Enter 掉了,Agent 已经发出了那封邮件 / 提交了那个表单。
原因:默认 Enter 键会触发 Allow(设计上的可用性优化,但对粗心用户不友好)。另外 Agent 设置里如果开了 Auto-approve safe actions,部分「它认为安全」的动作会跳过弹窗直接执行。
解决:去 Settings → Agent → Authorization 关掉「Auto-approve safe actions」,并且把默认按钮改成 Deny(如果你的 ChatGPT 版本支持)。最关键的还是养成习惯:Agent 在跑的时候,浏览器别切到别的 tab,看着它干。这听起来废话,但是真能救你。
坑 4:以为 Agent 出错会自动重试,结果它直接编了一个数
症状:Agent 抓某个网页报 404 / 超时,但它没告诉你,而是「根据它已知的训练数据」给你编了一个看起来合理的数字。你拿去做汇报,被领导抓到错误,回头查才发现 Agent 当时根本没抓到数据。
原因:大模型的「幻觉」在 Agent 模式里依然存在——它在数据缺失的时候有时候会优先「补全任务」而不是「报告失败」。
解决:在 prompt 里强制要求 Agent 报告失败。这条规则我现在每个 Agent prompt 都加:
重要约束:
- 任何一步如果网页打不开、数据读不到、API 报错,立刻停下来告诉我具体哪一步、报什么错,等我决策再继续。
- 严禁根据「常识」或「训练数据」补全任何数字、价格、日期、链接。所有数据必须来自当次浏览器实际看到的内容。
- 表格里有任何一格是你「估」的,必须在那一格末尾加
(估算)标记,不能跟实抓数据混在一起。
坑 5:跑完不看 Activity 时间线,错过 Agent 自作主张的部分
症状:Agent 给你交付了一份漂亮的报告,你看着挺好,过两天才发现里面某段引用的「数据来源」其实是 Agent 跳过了你指定的 A 网站、自己换了 B 网站抓的,而 B 网站的数据口径跟 A 完全不一样。
原因:Agent 在某个网站打不开 / 加载慢的时候,会「智能地」换一个它认为类似的源继续——这不一定是坏事,但你没监督就完全不知道它换了。
解决:任务跑完后强制自己花 2 分钟看一遍 Activity 时间线(界面右侧切到 Activity 视图)。重点看:① 它实际访问的 URL 列表跟你 prompt 里指定的是不是一一对应;② 有没有出现你没要求的网站;③ 哪些步骤花了异常长的时间(往往是出问题的信号)。养成这个习惯之后,Agent 偶尔的「自作主张」一眼就能抓到。
安全须知:Agent 不是无脑放手的工具
Agent 强是真强,但有几条底线必须守,省得出事:
- 不要让它直接付款:哪怕你信任它,让它走到付款页就主动接管,自己输卡号。
- 不要让它代发对外邮件:让它起草,你自己点发送。代发出错的政治后果通常比省的那点时间贵得多。
- 重要账号开二步验证:万一 Agent 误操作,2FA 是最后一道防线。
- 跑完看一遍 Activity 时间线:Agent 偶尔会自作主张走捷径,看时间线能发现哪一步偏离了。
下一步:把 Agent 串进你的 AI 工作流
Agent 是 ChatGPT 从「问答工具」走向「真助理」的拐点。如果你想把它和其他能力组合起来,下面几个方向值得继续看:
- 想让 AI 定时主动给你推送 → ChatGPT Tasks 怎么用
- 想让 AI 替你写深度调研报告 → ChatGPT Deep Research 怎么用
- 想把对话沉到知识库里反复用 → ChatGPT Projects 怎么用
- 想知道 ChatGPT vs Claude 在 Agent 上谁更强 → ChatGPT vs Claude
- 想从零了解 AI Agent 这一整个赛道 → AI Agent 教程入口
一句实话:Agent 现在还会犯错,但它是你能用最低成本体验「AI 替你做事」的入口,先用起来,半年后你会感谢现在的自己。