10 tokens per second 到底多快？一个网页工具让你直观感受 LLM 输出速度

一句话看懂

一个免费网页工具，模拟 LLM 从 5 到 800 tokens/second 的输出速度，让你直观感受“30 tokens/s”到底有多快。

详细发生了什么

开发者 Mike Veerman 发布了一个轻量级 HTML 应用（在线体验，源码），专门用来模拟大语言模型在不同 token 输出速度下的实时效果。

你可以在滑块上选择 5、10、20、30、50、100、200、400、800 tokens/second 等档位，页面会以逐字出现的方式展示一段文本，让你亲眼看到不同速度下的“打字”节奏。比如 10 tokens/s 大约相当于每秒钟蹦出 7-8 个英文单词，而 100 tokens/s 则快到几乎瞬间完成一句话。

这个工具被 Simon Willison 在博客中推荐，并登上了 Hacker News 热榜。它的价值在于：当模型厂商宣传“30 tokens/s”时，普通用户很难想象这个数字的实际体验——是流畅还是卡顿？这个工具给出了直观答案。

中文圈视角

对中文用户来说，这个工具同样有用，但需要注意两点：

token 不等于汉字。英文中 1 token 约 0.75 个单词，而中文因分词方式不同，1 token 大约对应 1-2 个汉字。所以 30 tokens/s 在中文场景下大约是每秒输出 30-60 个汉字，比英文看起来“慢”一些。这个工具目前只模拟英文文本，但你可以用中文内容替换源码中的示例文本来测试。
国内模型的速度对比。目前国产模型如 DeepSeek-V2、Qwen2 等，在 API 调用时通常宣称 20-50 tokens/s。但实际体验受网络延迟、并发量影响。这个工具可以作为基准参考：比如你感觉某个模型“输出慢”，可以用它对比 10 tokens/s 和 30 tokens/s 的差异，从而判断是否真的需要换模型。
没有平替工具。目前中文社区还没有类似的直观模拟器。如果你懂一点 HTML，可以直接下载源码修改成中文演示，适合做技术分享或教学。

几条值得记住的细节

工具支持 5、10、20、30、50、100、200、400、800 tokens/s 共 9 档速度模拟。
完全离线可用，无需网络，所有代码在单个 HTML 文件中。
默认展示一段英文示例文本，你可以修改源码中的 text 变量来替换内容。
速度切换是实时的，拖动滑块立即生效。
源码在 GitHub 上开源，MIT 许可证，可自由修改。

一句话总结

下次看到模型广告里的“30 tokens/s”，先打开这个工具感受一下，再决定它是不是真的够快。