ChatGPT Agent 怎么用？让 AI 自己点鼠标订机票

ChatGPT Agent 怎么用，2026 年这个问题终于不再是「等灰度」的状态——OpenAI 把它从 feature flag 推成了 Pro、Plus、Team 用户的默认能力。简单说，Agent 模式就是给 ChatGPT 装了一台属于它自己的电脑：有浏览器、有终端、有文件系统，你下达任务，它真的会去打开网页、点按钮、填表单、下载文件、跑命令，最后把结果交给你。

这篇手把手讲清楚 ChatGPT Agent 是什么、怎么开、第一个任务怎么跑、5 个真实场景能干什么、以及最容易踩的 4 个坑。

30 秒了解 ChatGPT Agent

ChatGPT Agent 是一个让 ChatGPT 在虚拟电脑上替你操作的模式。 它能开浏览器看网页、点按钮、填表单、跑终端命令、下载文件，然后把结果整理给你。

它和 Deep Research 最大的区别：Deep Research 只「读」——读海量网页给你写报告；Agent 既能读也能「写」，能真的点提交按钮、能真的把表格存到云端、能真的发那封邮件（在你点同意之后）。

适合谁用：

想让 AI 替自己完成跨网站、跨工具的连贯任务的人（订行程、跑竞品调研、批量整理资料）
已经习惯用 ChatGPT 做信息工作、希望再省一截手动操作时间的人
对 ChatGPT Tasks 这种定时任务玩腻了、想往「真自动化」走一步的人

不适合谁：要求 100% 不出错的关键任务（涉及付款、合同、对外发送的邮件），它会请求授权但仍可能误点；建议老老实实自己来。

准备工作

开始前先确认这几件事，少走弯路：

账号要 Plus、Pro 或 Team。免费账号目前还看不到 Agent 入口。怎么订阅看 ChatGPT Plus 值不值得。
平台支持：Web 网页版、macOS 桌面端体验最完整；iOS、Android 也能用，但虚拟桌面在小屏上看起来挤。
国内用户：ChatGPT 在中国大陆不开放服务，得自己解决网络与支付。不想折腾的话，可看国产 AI 大全里类似方向的智能体，扣子和 Manus 这类国内 Agent 平台思路相近。
预留时间：Agent 跑一个任务通常 3-20 分钟，别在它干活的时候关掉标签页。

详细操作步骤

第 1 步：在对话框里调出 Agent 模式

打开 ChatGPT，在输入框左边点 + 号，下拉菜单里选 Agent mode。或者更快——直接在输入框里敲 /agent，回车确认。

[此处放截图：ChatGPT 输入框 + 号展开菜单，红框标注 Agent mode 选项]

看不到 Agent mode？两种可能：1）你不是 Plus/Pro/Team；2）灰度还没到你账号上。等 1-2 天再看，或者切到 Web 端试试。

第 2 步：把任务说清楚

进入 Agent 模式之后，对话框上方会出现一个「Agent」标识。你直接用人话描述要完成的任务，关键是把 3 件事说清楚：要达成的目标、必须遵守的约束、最终交付物是什么。

例子：

帮我在去哪儿网搜下周一从上海到北京的机票，找出早上 9 点之前起飞、价格最低的 3 个航班，整理成表格给我。

Agent 会先生成一个执行计划，类似「我会先打开去哪儿网首页 → 输入出发到达城市 → 选择日期 → 筛选时段 → 比对价格」。你可以点 Approve 让它开干，也可以打断、修改计划。

第 3 步：边看边监督

任务跑起来之后，界面会分成两边：左边是对话流，右边是 Agent 的「虚拟桌面」。你能实时看到它打开了哪个网页、鼠标点到了哪里、终端输出了什么。

[此处放截图：Agent 运行界面，左侧对话流右侧虚拟桌面浏览器]

想看具体逻辑？把右边切到 Activity 视图，能看到每一步的推理过程，类似 Deep Research 的思考链。

第 4 步：在敏感动作出现时主动介入

Agent 默认会在做以下动作前停下来请求授权：

发送邮件、提交表单、付款
填写登录账号密码（这一步它根本不会偷看你输入的内容，桌面会自动模糊）
下载大文件、安装插件
修改云端文件（如 Google Drive、Notion）

弹出授权时认真读一眼描述，确认要做的事再点 Allow。犹豫就拒——拒绝后你可以接管浏览器，自己点完那一步再让 Agent 继续。

第 5 步：让 Agent 接住交付物

任务完成后，Agent 会把结果以下面几种形式之一交给你：

对话内 Markdown 总结：最常见，方便复制
可下载的文件：CSV、PDF、Word、PNG
Canvas 画布：长文本和代码会落到 Canvas 里方便后续编辑（见 ChatGPT Canvas 怎么用）

[此处放截图：Agent 任务完成后的交付物界面，含下载按钮]

不满意？直接在对话里说「重新做第 3 步，把价格筛选条件改成 800 元以内」，它会从你指定的步骤接着跑，不必从头来过。

第 6 步：复盘和复用

每次 Agent 跑完，对话会自动保存在左侧列表里。好用的任务记得给它起个清晰的对话名，下次直接进去说「按上次的方式再跑一次，把日期换成下周二」就行，省一截描述时间。

5 个 ChatGPT Agent 真实可用场景

第一个任务跑通之后，下面这 5 个场景能真正帮你省时间。

1. 跨网站资料汇总

让 Agent 去 5 个竞品官网各抓一遍最新产品页 + 价格 + 主打功能，然后拼成一张对比表。以前一个人做要 1-2 小时，Agent 大概 8-15 分钟跑完。

2. 复杂订票订房

「下周三飞东京、住新宿、预算 800/晚、含早餐、有健身房，给我 3 个备选」——这类带多个约束的搜索 Agent 比人快，因为它能并行打开多个网站对比。

3. 简单数据处理

让它打开你云端的某个 Google Sheet，把 A 列里所有「待跟进」状态的行复制到新 sheet 并按日期排序。需要先连接 Google Drive。

4. 资料整理与归档

「这是 20 张发票图片，按月份分类、命名、汇总金额，导出 Excel」——Agent 在终端里跑 Python 就能搞定，过去这种事得自己开 Jupyter。

5. 信息监控类巡检

每周一让 Agent 跑一次「我的 5 家关注公司 GitHub 仓库本周新 release」，配合 ChatGPT Tasks 还能定时触发。

常见坑 + 解决办法

现象	原因	解决
找不到 Agent mode 入口	灰度未到 / 账号是 Free	等 1-2 天；升级 Plus 以上
任务跑到一半卡住	网页加载超时 / 弹出验证码	点 Take over 自己过验证码再让它继续
在登录页前停住反复要密码	Agent 不会保存账号	自己接管登录，登录后还给它
跑完结果不对	描述太模糊 / 网页改版	把目标、约束、交付物写得更具体；换二级网站重试
授权弹窗一闪而过	Agent 自动确认开了	在设置里关掉「Auto-approve safe actions」
跑了很久也不出结果	任务超出能力（如视频生成）	拆成更小任务；该用专用工具的别硬塞给 Agent
跨网站登录失败	Cookies 未保存	同一会话里跑完任务别关；下次重新登

实战案例：一个真能用的 Agent prompt

下面这个 prompt 已经在我自己账号上跑成功过 3 次。目标是自动整理本周 AI 行业大事，跑一次大概 12-18 分钟。

把对话切到 Agent mode，复制粘贴这段：

请帮我做一份本周 AI 行业大事汇总。

任务要求：

打开 TechCrunch、The Verge、Hacker News 这三个站
找出过去 7 天里和「AI」「大模型」「OpenAI」「Anthropic」「Google DeepMind」「Meta AI」相关的报道
每个站挑出阅读量或讨论量最高的 3 条，共 9 条
每条用中文写 50 字以内的摘要，附原文链接
最后用一张表格汇总：标题、来源、日期、链接、一句话点评
整理成 Markdown，直接放到对话里

约束：

不要进收费墙后面的文章
中文摘要要客观，不要堆形容词
如果某站当天打不开，跳过并在末尾注明

执行前请先把计划告诉我，我确认后再开始。

发送之后 Agent 会先输出执行计划，确认无误点 Approve。期间它会切换浏览器、滚动页面、点入文章——你能全程看到。第一次跑务必盯着前 2-3 分钟，确认浏览方向对了再去做别的事。

跑通这个之后，你大概率会对接下来的两个高阶玩法上瘾。

进阶 prompt：让 Agent 做你的「周报数据搬运工」

下面这个稍微复杂一点，适合已经把上面的晨报跑顺、想让 Agent 把数据搬到自己工具里的人。

请帮我做一项周报准备工作。

任务：

打开我连接的 Google Drive，进入「2026 周报」文件夹
找到「本周数据源.xlsx」这个文件，下载
读出其中「销售」sheet 的 A、B、E 三列（产品名 / 销量 / 客户名）
按客户名分组求和销量，按销量降序排
用 Python 在终端里把结果画成一张柱状图（matplotlib 即可）
把图保存为 PNG，连同前 10 名的明细表格一起放到对话里
顺手在对话里给我写一段 200 字的「本周销售口述稿」，重点是 Top 3 客户和环比变化

约束：

数字要从表格直接读，不要估算
客户名如果有英文写法保留英文
写口述稿要像人话，别用「值得注意的是」这种官腔

请先告诉我你打算怎么做，等我点 Approve 再开始。

这个任务对 Agent 的「读表 + 算数 + 画图」能力是个综合考验，跑通一次基本能定型，每周复用只换数据源文件名就行。

完整项目实战：让 Agent 抓 5 家 AI Coding 工具竞品定价 + 招聘信息

上面的 prompt 都是单点演示，下面这个是我真的从头到尾跑完一遍的项目。目标：让 ChatGPT Agent 一次性完成 5 家竞品的官网定价抓取 + LinkedIn / Boss 直聘上的招聘岗位数统计，最终输出一张 Excel 对比表。这种活原本我自己干要 3-4 小时（开 10 个 tab 来回切，复制粘贴到表格），Agent 跑下来一共 47 分钟（其中我盯着 + 干预了 3 次），真的省了一大截时间。

项目目标

我手里要做一份「2026 年 Q2 AI 编程工具竞品监测表」，给团队周会用。需要抓 5 家：Cursor、Windsurf、GitHub Copilot、Tabnine、JetBrains AI。每家收集：

当前最低付费档价格（美元 / 月）
当前最高付费档价格
是否有免费版
公司在 LinkedIn 上「工程师」相关岗位的开放数量（粗估扩张速度）

最后导出成 Excel，列名固定，一行一家公司。

步骤 1：准备工作（5 分钟）

打开 ChatGPT 网页版（Agent 在桌面端体验最好），左上角对话切到「New chat」，输入框左边点 + 号，选 Agent mode。如果你还没开启 Google Drive 连接，去 Settings → Connected apps → Google Drive → Connect，等会儿 Agent 要把 Excel 存到你的云盘里。

准备工作里最容易忘的一件事：把要抓的 5 家公司官网准确网址先在记事本里列好。Agent 自己 Google 搜也行，但有时候会搜到二级页（折扣页 / 旧版页），不如你直接喂主域名稳。

步骤 2：第一次跑（12 分钟）

切到 Agent mode，贴这段 prompt：

请帮我做一份 AI 编程工具竞品监测表。

任务：

依次访问以下 5 家公司的官网定价页：
- Cursor: https://cursor.com/pricing
- Windsurf: https://codeium.com/windsurf/pricing
- GitHub Copilot: https://github.com/features/copilot/plans
- Tabnine: https://www.tabnine.com/pricing
- JetBrains AI: https://www.jetbrains.com/ai-ide/buy/
每家提取：最低付费档价格（美元 / 月）、最高付费档价格、是否有免费版（是 / 否）
然后去 LinkedIn 搜索每家公司当前开放的「Software Engineer」相关职位数（不用进具体职位页，搜索结果页顶部的数字就行）
把所有数据整理成一张表格，列名固定为：公司名、最低档价格、最高档价格、有无免费版、工程师岗位数、抓取时间
表格导出为 xlsx，文件名 ai-coding-competitors-2026Q2.xlsx，存到我连接的 Google Drive 根目录

约束：

价格如果有年付折扣，优先用月付价
LinkedIn 搜不到（被墙 / 要登录）就在那一格填「N/A」并在最后说明
中间任何一步报错都先告诉我，不要自己瞎填数据

执行前先把计划告诉我，我确认后再开始。

Agent 会先输出执行计划（大概 9 步），点 Approve 让它跑。我第一次跑的时候，前 6 分钟它顺利抓完了 Cursor、Windsurf、Tabnine 三家——能在右边虚拟桌面看到它打开页面、滚到价格区、把数字读出来。

步骤 3：处理第一次失败（18 分钟）

跑到 GitHub Copilot 那一步第一次出问题：Agent 把价格读成了「$10」，但实际上 Copilot Pro 是 $10 / 月、Business 是 $19 / 月、Enterprise 是 $39 / 月——它只读了第一档就以为是「最高档」。

LinkedIn 那一步第二次出问题：因为没登录，搜索结果页直接跳了登录墙，Agent 停下来问我要不要授权登录。我选了 Deny（不想让 Agent 拿我账号），让它跳过。

打断 Agent，发这段修正 prompt：

停一下。两个问题要修：

GitHub Copilot 的「最高档价格」你只读了 Pro 的 $10，实际上还有 Business（$19）和 Enterprise（$39）。请重新打开 https://github.com/features/copilot/plans，把页面整个滚到底，找到 Enterprise 档的价格，更新到表格里。
LinkedIn 跳登录墙的问题，不要让我登录。改用 Google 搜索 site:linkedin.com/company/[公司名] jobs，从搜索结果摘要里能看到岗位数的就用，看不到的填 N/A。

修完这两处再继续后面没跑完的（Tabnine 的 LinkedIn 数 + 导出 Excel）。

Agent 接收到修正后，重新跑了 Copilot 那一步（这次正确读到了 Enterprise $39），LinkedIn 改用 Google 搜索的迂回方式拿到了 3 家的粗估数（其中 2 家还是 N/A）。

步骤 4：拿到最终结果（12 分钟）

第二次跑完，Agent 输出了完整表格预览，然后把 xlsx 推到了我的 Google Drive 根目录。我去 Drive 验证文件确实在那（文件名跟我指定的一致），下载下来打开，6 行 6 列，数字跟我自己抽查的 Cursor、Windsurf 两家完全对得上。

最后我让 Agent 顺手写了 200 字的总结：

基于刚才抓到的表格，用中文写 200 字以内的「本周竞品观察」，重点回答两个问题：

5 家里哪家最贵、哪家最便宜，价格梯度大不大
哪家从招聘数能看出明显在扩张（如果数据不够就直说）

写完直接放在对话里，不用存文件。

项目总耗时 + 成果

总耗时：47 分钟（其中我主动盯着 + 干预约 12 分钟，剩下 35 分钟 Agent 自己跑）
省下时间：vs 我自己手动开 10 个 tab 抓数据，至少省 2.5 小时
数据准确率：5 家定价数据全对（自己抽查了 3 家），LinkedIn 岗位数粗估只能算「方向参考」
复用价值：这套 prompt 我直接存到一个 ChatGPT Project 里，下个季度换日期再跑一次就行

5 个我踩过的坑（你别再踩）

下面这 5 个坑是我自己跑 Agent 大概 20 次之后总结的，每个都让我多花了至少 15 分钟才搞明白。

坑 1：让 Agent 一次性干太多不相关的事

症状：你写了一个 prompt，里面塞了 8 件事——抓数据、做表格、发邮件、画图、写文档、上传到 Notion……Agent 跑到第 4-5 件事就开始「失忆」，要么忘掉前面的约束，要么把后面的步骤跳过。

原因：Agent 的上下文窗口跟普通 ChatGPT 一样有限，每次浏览器跳转、终端输出都在吃 token。任务越长，越靠后的步骤越容易被「挤掉」。

解决：拆任务。一次只让 Agent 干一类事——「抓数据 → 整理成表格」是一个会话，「发周报邮件」是另一个会话。中间数据通过文件（Excel / CSV）传递。或者用下面这个「分段确认」prompt 模板：

这个任务分 3 段。每段做完先告诉我结果，等我说「下一段」你再继续。不要一次跑完。
第 1 段：[具体描述]
第 2 段：[具体描述]
第 3 段：[具体描述]
现在从第 1 段开始。

坑 2：Agent 在登录墙前反复要密码

症状：让 Agent 打开 LinkedIn / 你的 Notion / 你的 Gmail，它走到登录页停住，弹窗问你「要不要在这里输账号密码」，你输了之后它过 2 分钟又被踢回登录页再问一次，循环没完。

原因：Agent 的虚拟桌面默认不保留 cookies——每次任务结束环境就被清理。你这一会话里登录过的网站，过 10 分钟可能就掉登录了。

解决：两个办法。① 临时性任务（一次性的）：你直接点 Agent 弹窗的 Take over，自己接管浏览器输密码 + 完成登录，登完点 Give back 还给 Agent。② 长期重复任务：用「不需要登录的迂回路径」，比如 LinkedIn 数据走 Google 搜索 site:linkedin.com、Gmail 数据走你导出的 mbox 文件、Notion 数据走你导出的 markdown。

坑 3：授权弹窗一闪而过没看清就过了

症状：Agent 跑到敏感动作前弹窗请求授权，你正在做别的事眼睛没盯着，等回过神来发现弹窗已经被你不小心 Enter 掉了，Agent 已经发出了那封邮件 / 提交了那个表单。

原因：默认 Enter 键会触发 Allow（设计上的可用性优化，但对粗心用户不友好）。另外 Agent 设置里如果开了 Auto-approve safe actions，部分「它认为安全」的动作会跳过弹窗直接执行。

解决：去 Settings → Agent → Authorization 关掉「Auto-approve safe actions」，并且把默认按钮改成 Deny（如果你的 ChatGPT 版本支持）。最关键的还是养成习惯：Agent 在跑的时候，浏览器别切到别的 tab，看着它干。这听起来废话，但是真能救你。

坑 4：以为 Agent 出错会自动重试，结果它直接编了一个数

症状：Agent 抓某个网页报 404 / 超时，但它没告诉你，而是「根据它已知的训练数据」给你编了一个看起来合理的数字。你拿去做汇报，被领导抓到错误，回头查才发现 Agent 当时根本没抓到数据。

原因：大模型的「幻觉」在 Agent 模式里依然存在——它在数据缺失的时候有时候会优先「补全任务」而不是「报告失败」。

解决：在 prompt 里强制要求 Agent 报告失败。这条规则我现在每个 Agent prompt 都加：

重要约束：

任何一步如果网页打不开、数据读不到、API 报错，立刻停下来告诉我具体哪一步、报什么错，等我决策再继续。
严禁根据「常识」或「训练数据」补全任何数字、价格、日期、链接。所有数据必须来自当次浏览器实际看到的内容。
表格里有任何一格是你「估」的，必须在那一格末尾加 (估算) 标记，不能跟实抓数据混在一起。

坑 5：跑完不看 Activity 时间线，错过 Agent 自作主张的部分

症状：Agent 给你交付了一份漂亮的报告，你看着挺好，过两天才发现里面某段引用的「数据来源」其实是 Agent 跳过了你指定的 A 网站、自己换了 B 网站抓的，而 B 网站的数据口径跟 A 完全不一样。

原因：Agent 在某个网站打不开 / 加载慢的时候，会「智能地」换一个它认为类似的源继续——这不一定是坏事，但你没监督就完全不知道它换了。

解决：任务跑完后强制自己花 2 分钟看一遍 Activity 时间线（界面右侧切到 Activity 视图）。重点看：① 它实际访问的 URL 列表跟你 prompt 里指定的是不是一一对应；② 有没有出现你没要求的网站；③ 哪些步骤花了异常长的时间（往往是出问题的信号）。养成这个习惯之后，Agent 偶尔的「自作主张」一眼就能抓到。

安全须知：Agent 不是无脑放手的工具

Agent 强是真强，但有几条底线必须守，省得出事：

不要让它直接付款：哪怕你信任它，让它走到付款页就主动接管，自己输卡号。
不要让它代发对外邮件：让它起草，你自己点发送。代发出错的政治后果通常比省的那点时间贵得多。
重要账号开二步验证：万一 Agent 误操作，2FA 是最后一道防线。
跑完看一遍 Activity 时间线：Agent 偶尔会自作主张走捷径，看时间线能发现哪一步偏离了。

下一步：把 Agent 串进你的 AI 工作流

Agent 是 ChatGPT 从「问答工具」走向「真助理」的拐点。如果你想把它和其他能力组合起来，下面几个方向值得继续看：

想让 AI 定时主动给你推送 → ChatGPT Tasks 怎么用
想让 AI 替你写深度调研报告 → ChatGPT Deep Research 怎么用
想把对话沉到知识库里反复用 → ChatGPT Projects 怎么用
想知道 ChatGPT vs Claude 在 Agent 上谁更强 → ChatGPT vs Claude
想从零了解 AI Agent 这一整个赛道 → AI Agent 教程入口

一句实话：Agent 现在还会犯错，但它是你能用最低成本体验「AI 替你做事」的入口，先用起来，半年后你会感谢现在的自己。