ChatGPT Agent 怎么用?让 AI 自己点鼠标订机票

ChatGPT Agent 怎么用:手把手开启 Agent 模式,让 AI 自己开浏览器、点按钮、跑终端、订机票、改表格,一篇讲清能干什么、不能干什么、怎么避开授权陷阱。

ChatGPT Agent 怎么用,2026 年这个问题终于不再是「等灰度」的状态——OpenAI 把它从 feature flag 推成了 Pro、Plus、Team 用户的默认能力。简单说,Agent 模式就是给 ChatGPT 装了一台属于它自己的电脑:有浏览器、有终端、有文件系统,你下达任务,它真的会去打开网页、点按钮、填表单、下载文件、跑命令,最后把结果交给你。

这篇手把手讲清楚 ChatGPT Agent 是什么、怎么开、第一个任务怎么跑、5 个真实场景能干什么、以及最容易踩的 4 个坑。

30 秒了解 ChatGPT Agent

ChatGPT Agent 是一个让 ChatGPT 在虚拟电脑上替你操作的模式。 它能开浏览器看网页、点按钮、填表单、跑终端命令、下载文件,然后把结果整理给你。

它和 Deep Research 最大的区别:Deep Research 只「读」——读海量网页给你写报告;Agent 既能读也能「写」,能真的点提交按钮、能真的把表格存到云端、能真的发那封邮件(在你点同意之后)。

适合谁用:

  • 想让 AI 替自己完成跨网站、跨工具的连贯任务的人(订行程、跑竞品调研、批量整理资料)
  • 已经习惯用 ChatGPT 做信息工作、希望再省一截手动操作时间的人
  • ChatGPT Tasks 这种定时任务玩腻了、想往「真自动化」走一步的人

不适合谁:要求 100% 不出错的关键任务(涉及付款、合同、对外发送的邮件),它会请求授权但仍可能误点;建议老老实实自己来。

准备工作

开始前先确认这几件事,少走弯路:

  • 账号要 Plus、Pro 或 Team。免费账号目前还看不到 Agent 入口。怎么订阅看 ChatGPT Plus 值不值得
  • 平台支持:Web 网页版、macOS 桌面端体验最完整;iOS、Android 也能用,但虚拟桌面在小屏上看起来挤。
  • 国内用户:ChatGPT 在中国大陆不开放服务,得自己解决网络与支付。不想折腾的话,可看国产 AI 大全里类似方向的智能体,扣子和 Manus 这类国内 Agent 平台思路相近。
  • 预留时间:Agent 跑一个任务通常 3-20 分钟,别在它干活的时候关掉标签页。

详细操作步骤

第 1 步:在对话框里调出 Agent 模式

打开 ChatGPT,在输入框左边点 + 号,下拉菜单里选 Agent mode。或者更快——直接在输入框里敲 /agent,回车确认。

[此处放截图:ChatGPT 输入框 + 号展开菜单,红框标注 Agent mode 选项]

看不到 Agent mode?两种可能:1)你不是 Plus/Pro/Team;2)灰度还没到你账号上。等 1-2 天再看,或者切到 Web 端试试。

第 2 步:把任务说清楚

进入 Agent 模式之后,对话框上方会出现一个「Agent」标识。你直接用人话描述要完成的任务,关键是把 3 件事说清楚:要达成的目标、必须遵守的约束、最终交付物是什么

例子:

帮我在去哪儿网搜下周一从上海到北京的机票,找出早上 9 点之前起飞、价格最低的 3 个航班,整理成表格给我。

Agent 会先生成一个执行计划,类似「我会先打开去哪儿网首页 → 输入出发到达城市 → 选择日期 → 筛选时段 → 比对价格」。你可以点 Approve 让它开干,也可以打断、修改计划。

第 3 步:边看边监督

任务跑起来之后,界面会分成两边:左边是对话流,右边是 Agent 的「虚拟桌面」。你能实时看到它打开了哪个网页、鼠标点到了哪里、终端输出了什么。

[此处放截图:Agent 运行界面,左侧对话流右侧虚拟桌面浏览器]

想看具体逻辑?把右边切到 Activity 视图,能看到每一步的推理过程,类似 Deep Research 的思考链。

第 4 步:在敏感动作出现时主动介入

Agent 默认会在做以下动作前停下来请求授权

  • 发送邮件、提交表单、付款
  • 填写登录账号密码(这一步它根本不会偷看你输入的内容,桌面会自动模糊)
  • 下载大文件、安装插件
  • 修改云端文件(如 Google Drive、Notion)

弹出授权时认真读一眼描述,确认要做的事再点 Allow犹豫就拒——拒绝后你可以接管浏览器,自己点完那一步再让 Agent 继续。

第 5 步:让 Agent 接住交付物

任务完成后,Agent 会把结果以下面几种形式之一交给你:

  • 对话内 Markdown 总结:最常见,方便复制
  • 可下载的文件:CSV、PDF、Word、PNG
  • Canvas 画布:长文本和代码会落到 Canvas 里方便后续编辑(见 ChatGPT Canvas 怎么用

[此处放截图:Agent 任务完成后的交付物界面,含下载按钮]

不满意?直接在对话里说「重新做第 3 步,把价格筛选条件改成 800 元以内」,它会从你指定的步骤接着跑,不必从头来过。

第 6 步:复盘和复用

每次 Agent 跑完,对话会自动保存在左侧列表里。好用的任务记得给它起个清晰的对话名,下次直接进去说「按上次的方式再跑一次,把日期换成下周二」就行,省一截描述时间。

5 个 ChatGPT Agent 真实可用场景

第一个任务跑通之后,下面这 5 个场景能真正帮你省时间。

1. 跨网站资料汇总

让 Agent 去 5 个竞品官网各抓一遍最新产品页 + 价格 + 主打功能,然后拼成一张对比表。以前一个人做要 1-2 小时,Agent 大概 8-15 分钟跑完。

2. 复杂订票订房

「下周三飞东京、住新宿、预算 800/晚、含早餐、有健身房,给我 3 个备选」——这类带多个约束的搜索 Agent 比人快,因为它能并行打开多个网站对比。

3. 简单数据处理

让它打开你云端的某个 Google Sheet,把 A 列里所有「待跟进」状态的行复制到新 sheet 并按日期排序。需要先连接 Google Drive。

4. 资料整理与归档

「这是 20 张发票图片,按月份分类、命名、汇总金额,导出 Excel」——Agent 在终端里跑 Python 就能搞定,过去这种事得自己开 Jupyter。

5. 信息监控类巡检

每周一让 Agent 跑一次「我的 5 家关注公司 GitHub 仓库本周新 release」,配合 ChatGPT Tasks 还能定时触发。

常见坑 + 解决办法

现象原因解决
找不到 Agent mode 入口灰度未到 / 账号是 Free等 1-2 天;升级 Plus 以上
任务跑到一半卡住网页加载超时 / 弹出验证码点 Take over 自己过验证码再让它继续
在登录页前停住反复要密码Agent 不会保存账号自己接管登录,登录后还给它
跑完结果不对描述太模糊 / 网页改版把目标、约束、交付物写得更具体;换二级网站重试
授权弹窗一闪而过Agent 自动确认开了在设置里关掉「Auto-approve safe actions」
跑了很久也不出结果任务超出能力(如视频生成)拆成更小任务;该用专用工具的别硬塞给 Agent
跨网站登录失败Cookies 未保存同一会话里跑完任务别关;下次重新登

实战案例:一个真能用的 Agent prompt

下面这个 prompt 已经在我自己账号上跑成功过 3 次。目标是自动整理本周 AI 行业大事,跑一次大概 12-18 分钟。

把对话切到 Agent mode,复制粘贴这段:

Prompt 模板

请帮我做一份本周 AI 行业大事汇总。

任务要求:

  1. 打开 TechCrunch、The Verge、Hacker News 这三个站
  2. 找出过去 7 天里和「AI」「大模型」「OpenAI」「Anthropic」「Google DeepMind」「Meta AI」相关的报道
  3. 每个站挑出阅读量或讨论量最高的 3 条,共 9 条
  4. 每条用中文写 50 字以内的摘要,附原文链接
  5. 最后用一张表格汇总:标题、来源、日期、链接、一句话点评
  6. 整理成 Markdown,直接放到对话里

约束:

  • 不要进收费墙后面的文章
  • 中文摘要要客观,不要堆形容词
  • 如果某站当天打不开,跳过并在末尾注明

执行前请先把计划告诉我,我确认后再开始。

发送之后 Agent 会先输出执行计划,确认无误点 Approve。期间它会切换浏览器、滚动页面、点入文章——你能全程看到。第一次跑务必盯着前 2-3 分钟,确认浏览方向对了再去做别的事。

跑通这个之后,你大概率会对接下来的两个高阶玩法上瘾。

进阶 prompt:让 Agent 做你的「周报数据搬运工」

下面这个稍微复杂一点,适合已经把上面的晨报跑顺、想让 Agent 把数据搬到自己工具里的人。

Prompt 模板

请帮我做一项周报准备工作。

任务:

  1. 打开我连接的 Google Drive,进入「2026 周报」文件夹
  2. 找到「本周数据源.xlsx」这个文件,下载
  3. 读出其中「销售」sheet 的 A、B、E 三列(产品名 / 销量 / 客户名)
  4. 按客户名分组求和销量,按销量降序排
  5. 用 Python 在终端里把结果画成一张柱状图(matplotlib 即可)
  6. 把图保存为 PNG,连同前 10 名的明细表格一起放到对话里
  7. 顺手在对话里给我写一段 200 字的「本周销售口述稿」,重点是 Top 3 客户和环比变化

约束:

  • 数字要从表格直接读,不要估算
  • 客户名如果有英文写法保留英文
  • 写口述稿要像人话,别用「值得注意的是」这种官腔

请先告诉我你打算怎么做,等我点 Approve 再开始。

这个任务对 Agent 的「读表 + 算数 + 画图」能力是个综合考验,跑通一次基本能定型,每周复用只换数据源文件名就行。

完整项目实战:让 Agent 抓 5 家 AI Coding 工具竞品定价 + 招聘信息

上面的 prompt 都是单点演示,下面这个是我真的从头到尾跑完一遍的项目。目标:让 ChatGPT Agent 一次性完成 5 家竞品的官网定价抓取 + LinkedIn / Boss 直聘上的招聘岗位数统计,最终输出一张 Excel 对比表。这种活原本我自己干要 3-4 小时(开 10 个 tab 来回切,复制粘贴到表格),Agent 跑下来一共 47 分钟(其中我盯着 + 干预了 3 次),真的省了一大截时间。

项目目标

我手里要做一份「2026 年 Q2 AI 编程工具竞品监测表」,给团队周会用。需要抓 5 家:Cursor、Windsurf、GitHub Copilot、Tabnine、JetBrains AI。每家收集:

  • 当前最低付费档价格(美元 / 月)
  • 当前最高付费档价格
  • 是否有免费版
  • 公司在 LinkedIn 上「工程师」相关岗位的开放数量(粗估扩张速度)

最后导出成 Excel,列名固定,一行一家公司。

步骤 1:准备工作(5 分钟)

打开 ChatGPT 网页版(Agent 在桌面端体验最好),左上角对话切到「New chat」,输入框左边点 + 号,选 Agent mode。如果你还没开启 Google Drive 连接,去 Settings → Connected apps → Google Drive → Connect,等会儿 Agent 要把 Excel 存到你的云盘里。

准备工作里最容易忘的一件事:把要抓的 5 家公司官网准确网址先在记事本里列好。Agent 自己 Google 搜也行,但有时候会搜到二级页(折扣页 / 旧版页),不如你直接喂主域名稳。

步骤 2:第一次跑(12 分钟)

切到 Agent mode,贴这段 prompt:

Prompt 模板

请帮我做一份 AI 编程工具竞品监测表。

任务:

  1. 依次访问以下 5 家公司的官网定价页:
  2. 每家提取:最低付费档价格(美元 / 月)、最高付费档价格、是否有免费版(是 / 否)
  3. 然后去 LinkedIn 搜索每家公司当前开放的「Software Engineer」相关职位数(不用进具体职位页,搜索结果页顶部的数字就行)
  4. 把所有数据整理成一张表格,列名固定为:公司名、最低档价格、最高档价格、有无免费版、工程师岗位数、抓取时间
  5. 表格导出为 xlsx,文件名 ai-coding-competitors-2026Q2.xlsx,存到我连接的 Google Drive 根目录

约束:

  • 价格如果有年付折扣,优先用月付价
  • LinkedIn 搜不到(被墙 / 要登录)就在那一格填「N/A」并在最后说明
  • 中间任何一步报错都先告诉我,不要自己瞎填数据

执行前先把计划告诉我,我确认后再开始。

Agent 会先输出执行计划(大概 9 步),点 Approve 让它跑。我第一次跑的时候,前 6 分钟它顺利抓完了 Cursor、Windsurf、Tabnine 三家——能在右边虚拟桌面看到它打开页面、滚到价格区、把数字读出来。

步骤 3:处理第一次失败(18 分钟)

跑到 GitHub Copilot 那一步第一次出问题:Agent 把价格读成了「$10」,但实际上 Copilot Pro 是 $10 / 月、Business 是 $19 / 月、Enterprise 是 $39 / 月——它只读了第一档就以为是「最高档」。

LinkedIn 那一步第二次出问题:因为没登录,搜索结果页直接跳了登录墙,Agent 停下来问我要不要授权登录。我选了 Deny(不想让 Agent 拿我账号),让它跳过。

打断 Agent,发这段修正 prompt:

Prompt 模板

停一下。两个问题要修:

  1. GitHub Copilot 的「最高档价格」你只读了 Pro 的 $10,实际上还有 Business($19)和 Enterprise($39)。请重新打开 https://github.com/features/copilot/plans,把页面整个滚到底,找到 Enterprise 档的价格,更新到表格里。

  2. LinkedIn 跳登录墙的问题,不要让我登录。改用 Google 搜索 site:linkedin.com/company/[公司名] jobs,从搜索结果摘要里能看到岗位数的就用,看不到的填 N/A。

修完这两处再继续后面没跑完的(Tabnine 的 LinkedIn 数 + 导出 Excel)。

Agent 接收到修正后,重新跑了 Copilot 那一步(这次正确读到了 Enterprise $39),LinkedIn 改用 Google 搜索的迂回方式拿到了 3 家的粗估数(其中 2 家还是 N/A)。

步骤 4:拿到最终结果(12 分钟)

第二次跑完,Agent 输出了完整表格预览,然后把 xlsx 推到了我的 Google Drive 根目录。我去 Drive 验证文件确实在那(文件名跟我指定的一致),下载下来打开,6 行 6 列,数字跟我自己抽查的 Cursor、Windsurf 两家完全对得上。

最后我让 Agent 顺手写了 200 字的总结:

Prompt 模板

基于刚才抓到的表格,用中文写 200 字以内的「本周竞品观察」,重点回答两个问题:

  1. 5 家里哪家最贵、哪家最便宜,价格梯度大不大
  2. 哪家从招聘数能看出明显在扩张(如果数据不够就直说)

写完直接放在对话里,不用存文件。

项目总耗时 + 成果

  • 总耗时:47 分钟(其中我主动盯着 + 干预约 12 分钟,剩下 35 分钟 Agent 自己跑)
  • 省下时间:vs 我自己手动开 10 个 tab 抓数据,至少省 2.5 小时
  • 数据准确率:5 家定价数据全对(自己抽查了 3 家),LinkedIn 岗位数粗估只能算「方向参考」
  • 复用价值:这套 prompt 我直接存到一个 ChatGPT Project 里,下个季度换日期再跑一次就行

5 个我踩过的坑(你别再踩)

下面这 5 个坑是我自己跑 Agent 大概 20 次之后总结的,每个都让我多花了至少 15 分钟才搞明白。

坑 1:让 Agent 一次性干太多不相关的事

症状:你写了一个 prompt,里面塞了 8 件事——抓数据、做表格、发邮件、画图、写文档、上传到 Notion……Agent 跑到第 4-5 件事就开始「失忆」,要么忘掉前面的约束,要么把后面的步骤跳过。

原因:Agent 的上下文窗口跟普通 ChatGPT 一样有限,每次浏览器跳转、终端输出都在吃 token。任务越长,越靠后的步骤越容易被「挤掉」。

解决:拆任务。一次只让 Agent 干一类事——「抓数据 → 整理成表格」是一个会话,「发周报邮件」是另一个会话。中间数据通过文件(Excel / CSV)传递。或者用下面这个「分段确认」prompt 模板:

Prompt 模板

这个任务分 3 段。每段做完先告诉我结果,等我说「下一段」你再继续。不要一次跑完。

第 1 段:[具体描述] 第 2 段:[具体描述] 第 3 段:[具体描述]

现在从第 1 段开始。

坑 2:Agent 在登录墙前反复要密码

症状:让 Agent 打开 LinkedIn / 你的 Notion / 你的 Gmail,它走到登录页停住,弹窗问你「要不要在这里输账号密码」,你输了之后它过 2 分钟又被踢回登录页再问一次,循环没完。

原因:Agent 的虚拟桌面默认不保留 cookies——每次任务结束环境就被清理。你这一会话里登录过的网站,过 10 分钟可能就掉登录了。

解决:两个办法。① 临时性任务(一次性的):你直接点 Agent 弹窗的 Take over,自己接管浏览器输密码 + 完成登录,登完点 Give back 还给 Agent。② 长期重复任务:用「不需要登录的迂回路径」,比如 LinkedIn 数据走 Google 搜索 site:linkedin.com、Gmail 数据走你导出的 mbox 文件、Notion 数据走你导出的 markdown。

坑 3:授权弹窗一闪而过没看清就过了

症状:Agent 跑到敏感动作前弹窗请求授权,你正在做别的事眼睛没盯着,等回过神来发现弹窗已经被你不小心 Enter 掉了,Agent 已经发出了那封邮件 / 提交了那个表单。

原因:默认 Enter 键会触发 Allow(设计上的可用性优化,但对粗心用户不友好)。另外 Agent 设置里如果开了 Auto-approve safe actions,部分「它认为安全」的动作会跳过弹窗直接执行。

解决:去 Settings → Agent → Authorization 关掉「Auto-approve safe actions」,并且把默认按钮改成 Deny(如果你的 ChatGPT 版本支持)。最关键的还是养成习惯:Agent 在跑的时候,浏览器别切到别的 tab,看着它干。这听起来废话,但是真能救你。

坑 4:以为 Agent 出错会自动重试,结果它直接编了一个数

症状:Agent 抓某个网页报 404 / 超时,但它没告诉你,而是「根据它已知的训练数据」给你编了一个看起来合理的数字。你拿去做汇报,被领导抓到错误,回头查才发现 Agent 当时根本没抓到数据。

原因:大模型的「幻觉」在 Agent 模式里依然存在——它在数据缺失的时候有时候会优先「补全任务」而不是「报告失败」。

解决:在 prompt 里强制要求 Agent 报告失败。这条规则我现在每个 Agent prompt 都加:

Prompt 模板

重要约束:

  • 任何一步如果网页打不开、数据读不到、API 报错,立刻停下来告诉我具体哪一步、报什么错,等我决策再继续。
  • 严禁根据「常识」或「训练数据」补全任何数字、价格、日期、链接。所有数据必须来自当次浏览器实际看到的内容。
  • 表格里有任何一格是你「估」的,必须在那一格末尾加 (估算) 标记,不能跟实抓数据混在一起。

坑 5:跑完不看 Activity 时间线,错过 Agent 自作主张的部分

症状:Agent 给你交付了一份漂亮的报告,你看着挺好,过两天才发现里面某段引用的「数据来源」其实是 Agent 跳过了你指定的 A 网站、自己换了 B 网站抓的,而 B 网站的数据口径跟 A 完全不一样。

原因:Agent 在某个网站打不开 / 加载慢的时候,会「智能地」换一个它认为类似的源继续——这不一定是坏事,但你没监督就完全不知道它换了。

解决:任务跑完后强制自己花 2 分钟看一遍 Activity 时间线(界面右侧切到 Activity 视图)。重点看:① 它实际访问的 URL 列表跟你 prompt 里指定的是不是一一对应;② 有没有出现你没要求的网站;③ 哪些步骤花了异常长的时间(往往是出问题的信号)。养成这个习惯之后,Agent 偶尔的「自作主张」一眼就能抓到。

安全须知:Agent 不是无脑放手的工具

Agent 强是真强,但有几条底线必须守,省得出事:

  1. 不要让它直接付款:哪怕你信任它,让它走到付款页就主动接管,自己输卡号。
  2. 不要让它代发对外邮件:让它起草,你自己点发送。代发出错的政治后果通常比省的那点时间贵得多。
  3. 重要账号开二步验证:万一 Agent 误操作,2FA 是最后一道防线。
  4. 跑完看一遍 Activity 时间线:Agent 偶尔会自作主张走捷径,看时间线能发现哪一步偏离了。

下一步:把 Agent 串进你的 AI 工作流

Agent 是 ChatGPT 从「问答工具」走向「真助理」的拐点。如果你想把它和其他能力组合起来,下面几个方向值得继续看:

一句实话:Agent 现在还会犯错,但它是你能用最低成本体验「AI 替你做事」的入口,先用起来,半年后你会感谢现在的自己。