Together AI 开源 OSCAR：注意力感知的 2-bit KV Cache 量化系统，长上下文推理提速 3 倍

一句话看懂

Together AI 开源 OSCAR，一种注意力感知的 2-bit KV Cache 量化系统，在长上下文推理中实现 8 倍内存压缩和 3 倍解码加速，精度损失极小。

详细发生了什么

长上下文推理时，KV Cache 会随序列长度、批大小和模型深度快速增长，成为 GPU 内存的主要消耗者。Together AI 开源的 OSCAR（Offline Spectral Covariance-Aware Rotation）是一种 INT2（2-bit）KV Cache 量化方法，专门解决此前 INT2 量化精度崩溃或无法兼容分页 KV Cache 系统的问题。

OSCAR 的核心创新在于：量化前的旋转矩阵不再使用数据无关的 Hadamard 变换，而是从注意力统计量中离线推导。对于 Key，旋转基于 Query 协方差矩阵的特征向量；对于 Value，旋转基于注意力分数加权的 Value 协方差矩阵。这种注意力感知的旋转将量化误差推向注意力不敏感的方向，从而在极低比特下保持模型质量。

在具体实现上，OSCAR 采用混合精度缓存布局：前 64 个 token（sink）和最近 256 个 token 以 BF16 存储，中间历史 token 以 INT2 存储。在 128K 上下文下，BF16 区域仅占 0.24%。OSCAR 已集成到 SGLang 生产服务栈，完全兼容分页注意力。

性能方面，在 Qwen3-8B 上，OSCAR 在 2.28 bits 下仅比 BF16 低 1.42 分（平均 69.42 vs 70.84），而 naive INT2 得分为 0，QuaRot-INT2 仅 10.14。在 100K 上下文下，OSCAR 实现约 3 倍解码加速（Qwen3-4B 达 3.08×），批大小为 32 时作业级吞吐提升 6-7 倍。

中文圈视角

OSCAR 开源对中文 AI 社区有直接价值。首先，它支持 Qwen3 系列（4B/8B/32B）和 GLM-4.7-FP8，这些都是国产模型。国内开发者可以直接在 SGLang 中启用 INT2 KV Cache 模式，降低长上下文推理的显存门槛。例如，在单张 H100 上运行 128K 上下文的 Qwen3-8B，KV 内存从约 16GB 降至 2GB，使得批处理更大、成本更低。

相比国内已有的 KV Cache 量化方案（如 KIVI、TurboQuant），OSCAR 的优势在于：一是精度更高（在 2.28 bits 下接近 BF16），二是完全兼容标准分页注意力，无需自定义内存布局，便于集成到现有服务框架。目前国内大模型服务商（如智谱、阿里云）多使用 vLLM 或 SGLang，OSCAR 可直接接入。

不过，OSCAR 的离线校准需要少量校准数据（约 128 条），且旋转矩阵的推导涉及特征分解，对非研究者可能有一定门槛。但 Together AI 已开源完整代码和预计算旋转矩阵，用户可直接使用。对于中文长文本场景（如文档分析、代码库理解、多轮对话），OSCAR 能显著降低推理成本，尤其适合需要高吞吐的 API 服务。

几条值得记住的细节

OSCAR 在 2.28 bits 下，Qwen3-8B 平均精度仅下降 1.42 分，而 naive INT2 完全失效（0 分）。
混合精度布局：前 64 token（sink）和最近 256 token 用 BF16，其余用 INT2，128K 下 BF16 占比仅 0.24%。
解码加速：100K 上下文下，Qwen3-4B 达 3.08×，GLM-4.7-FP8 达 2.83×；批大小 32 时吞吐提升 6-7 倍。
长上下文鲁棒性：在 RULER-NIAH 128K 测试中，Qwen3-8B 得分 45.0，而 QuaRot-INT2 为 0。
OSCAR 已集成到 SGLang，开源代码和预计算旋转矩阵可在 GitHub 获取。

一句话总结

OSCAR 让 2-bit KV Cache 量化首次实用，国产模型用户可直接在 SGLang 中实现 8 倍内存压缩和 3 倍加速，长上下文推理成本大幅降低。