AI 快讯 编译自 simon_willison #工具评测#LLM#速度模拟

10 tokens per second 到底多快?一个网页工具让你直观感受 LLM 输出速度

Mike Veerman 开发了一个 HTML 小工具,模拟 5-800 tokens/second 的 LLM 输出速度。帮你直观理解模型广告中的速度参数,对中文用户选购模型或调优 prompt 有参考价值。

编译发布 2026/05/24 原文发布 2026/05/20

一句话看懂

一个免费网页工具,模拟 LLM 从 5 到 800 tokens/second 的输出速度,让你直观感受“30 tokens/s”到底有多快。

详细发生了什么

开发者 Mike Veerman 发布了一个轻量级 HTML 应用(在线体验源码),专门用来模拟大语言模型在不同 token 输出速度下的实时效果。

你可以在滑块上选择 5、10、20、30、50、100、200、400、800 tokens/second 等档位,页面会以逐字出现的方式展示一段文本,让你亲眼看到不同速度下的“打字”节奏。比如 10 tokens/s 大约相当于每秒钟蹦出 7-8 个英文单词,而 100 tokens/s 则快到几乎瞬间完成一句话。

这个工具被 Simon Willison 在博客中推荐,并登上了 Hacker News 热榜。它的价值在于:当模型厂商宣传“30 tokens/s”时,普通用户很难想象这个数字的实际体验——是流畅还是卡顿?这个工具给出了直观答案。

中文圈视角

对中文用户来说,这个工具同样有用,但需要注意两点:

  1. token 不等于汉字。英文中 1 token 约 0.75 个单词,而中文因分词方式不同,1 token 大约对应 1-2 个汉字。所以 30 tokens/s 在中文场景下大约是每秒输出 30-60 个汉字,比英文看起来“慢”一些。这个工具目前只模拟英文文本,但你可以用中文内容替换源码中的示例文本来测试。

  2. 国内模型的速度对比。目前国产模型如 DeepSeek-V2、Qwen2 等,在 API 调用时通常宣称 20-50 tokens/s。但实际体验受网络延迟、并发量影响。这个工具可以作为基准参考:比如你感觉某个模型“输出慢”,可以用它对比 10 tokens/s 和 30 tokens/s 的差异,从而判断是否真的需要换模型。

  3. 没有平替工具。目前中文社区还没有类似的直观模拟器。如果你懂一点 HTML,可以直接下载源码修改成中文演示,适合做技术分享或教学。

几条值得记住的细节

  • 工具支持 5、10、20、30、50、100、200、400、800 tokens/s 共 9 档速度模拟。
  • 完全离线可用,无需网络,所有代码在单个 HTML 文件中。
  • 默认展示一段英文示例文本,你可以修改源码中的 text 变量来替换内容。
  • 速度切换是实时的,拖动滑块立即生效。
  • 源码在 GitHub 上开源,MIT 许可证,可自由修改。

一句话总结

下次看到模型广告里的“30 tokens/s”,先打开这个工具感受一下,再决定它是不是真的够快。