PyCon US 2026 闪电演讲:五分钟回顾 LLM 过去六个月,最佳模型五次易手
Simon Willison 在 PyCon US 2026 上用五分钟闪电演讲总结了 LLM 领域过去六个月的关键发展,包括 2025 年 11 月转折点、最佳模型在 Anthropic、OpenAI 和 Google 之间五次易手,以及编码能力飞跃。本文编译并加入中文圈视角,分析对国内用户的影响。
一句话看懂
Simon Willison 在 PyCon US 2026 闪电演讲中,用五分钟梳理了 LLM 过去六个月的关键变化,包括 2025 年 11 月转折点、最佳模型五次易手,以及编码能力质的飞跃。
详细发生了什么
在 PyCon US 2026 上,Simon Willison 用五分钟闪电演讲回顾了 LLM 领域过去六个月的发展。他特别强调了 2025 年 11 月这个转折点——那个月对 LLM 尤其是编码能力至关重要。
最引人注目的变化是“最佳”模型在 Anthropic、OpenAI 和 Google 之间易手了五次。这意味着竞争异常激烈,没有一家公司能长期保持领先。
演讲还提到了其他关键趋势:模型上下文窗口大幅扩展、工具调用(tool calling)能力增强、开源模型与闭源模型的差距缩小,以及推理成本持续下降。Willison 使用了其自制的注释演示工具来展示幻灯片,该工具的最新迭代版本可在其网站上获取。
中文圈视角
对中文用户来说,这场演讲揭示的几个趋势值得关注:
-
模型竞争白热化,国产模型有机会:最佳模型频繁易手,说明技术壁垒尚未固化。国内 DeepSeek、Kimi、智谱等团队完全有可能在某些维度(如中文理解、长上下文)实现超越。尤其是 DeepSeek 的 MoE 架构和开源策略,已经让它在编码和推理任务上接近国际顶尖水平。
-
编码能力成为核心战场:演讲特别提到 2025 年 11 月是编码能力的转折点。这对国内程序员是利好——无论是用 GitHub Copilot 还是国产的 CodeGeeX、通义灵码,都能获得更可靠的代码生成和调试辅助。
-
工具调用能力提升:这意味着 LLM 不再只是聊天机器人,而是能真正执行操作(如查询数据库、调用 API)。国内用户可以通过智谱的 GLM-4 或百度的文心一言体验类似功能,但部分高级 tool calling 仍需通过 API 访问海外模型。
-
监管与合规:国内用户使用海外模型仍需注意数据出境问题。好消息是,国产模型在中文场景的体验已大幅提升,且完全合规。
几条值得记住的细节
- 2025 年 11 月被定义为 LLM 编码能力的转折点,多项突破集中出现。
- “最佳”模型在 Anthropic、OpenAI 和 Google 之间易手五次,竞争空前激烈。
- 模型上下文窗口持续扩大,部分模型支持超过 1M token。
- 开源模型(如 Llama 3、Mistral)与闭源模型的差距在缩小,尤其在编码任务上。
- 推理成本在过去六个月下降了约 50%,使得大规模部署更可行。
一句话总结
过去半年 LLM 领域竞争白热化,编码能力飞跃,国产模型正迎头赶上,中文用户选择更多、成本更低。