Together AI 开源 OSCAR:注意力感知的 2-bit KV Cache 量化系统,长上下文推理提速 3 倍
Together AI 开源 OSCAR,一种基于注意力感知协方差旋转的 INT2 KV Cache 量化方法。相比传统 Hadamard 旋转,OSCAR 在 2.28 bits 精度下将 BF16 差距缩小至 1.42 分(Qwen3-8B),实现 8 倍 KV 内存压缩和 3 倍解码加速(100K 上下文)。本文详解技术原理、性能数据及对中文用户的实际价值。
一句话看懂
Together AI 开源 OSCAR,一种注意力感知的 2-bit KV Cache 量化系统,在长上下文推理中实现 8 倍内存压缩和 3 倍解码加速,精度损失极小。
详细发生了什么
长上下文推理时,KV Cache 会随序列长度、批大小和模型深度快速增长,成为 GPU 内存的主要消耗者。Together AI 开源的 OSCAR(Offline Spectral Covariance-Aware Rotation)是一种 INT2(2-bit)KV Cache 量化方法,专门解决此前 INT2 量化精度崩溃或无法兼容分页 KV Cache 系统的问题。
OSCAR 的核心创新在于:量化前的旋转矩阵不再使用数据无关的 Hadamard 变换,而是从注意力统计量中离线推导。对于 Key,旋转基于 Query 协方差矩阵的特征向量;对于 Value,旋转基于注意力分数加权的 Value 协方差矩阵。这种注意力感知的旋转将量化误差推向注意力不敏感的方向,从而在极低比特下保持模型质量。
在具体实现上,OSCAR 采用混合精度缓存布局:前 64 个 token(sink)和最近 256 个 token 以 BF16 存储,中间历史 token 以 INT2 存储。在 128K 上下文下,BF16 区域仅占 0.24%。OSCAR 已集成到 SGLang 生产服务栈,完全兼容分页注意力。
性能方面,在 Qwen3-8B 上,OSCAR 在 2.28 bits 下仅比 BF16 低 1.42 分(平均 69.42 vs 70.84),而 naive INT2 得分为 0,QuaRot-INT2 仅 10.14。在 100K 上下文下,OSCAR 实现约 3 倍解码加速(Qwen3-4B 达 3.08×),批大小为 32 时作业级吞吐提升 6-7 倍。
中文圈视角
OSCAR 开源对中文 AI 社区有直接价值。首先,它支持 Qwen3 系列(4B/8B/32B)和 GLM-4.7-FP8,这些都是国产模型。国内开发者可以直接在 SGLang 中启用 INT2 KV Cache 模式,降低长上下文推理的显存门槛。例如,在单张 H100 上运行 128K 上下文的 Qwen3-8B,KV 内存从约 16GB 降至 2GB,使得批处理更大、成本更低。
相比国内已有的 KV Cache 量化方案(如 KIVI、TurboQuant),OSCAR 的优势在于:一是精度更高(在 2.28 bits 下接近 BF16),二是完全兼容标准分页注意力,无需自定义内存布局,便于集成到现有服务框架。目前国内大模型服务商(如智谱、阿里云)多使用 vLLM 或 SGLang,OSCAR 可直接接入。
不过,OSCAR 的离线校准需要少量校准数据(约 128 条),且旋转矩阵的推导涉及特征分解,对非研究者可能有一定门槛。但 Together AI 已开源完整代码和预计算旋转矩阵,用户可直接使用。对于中文长文本场景(如文档分析、代码库理解、多轮对话),OSCAR 能显著降低推理成本,尤其适合需要高吞吐的 API 服务。
几条值得记住的细节
- OSCAR 在 2.28 bits 下,Qwen3-8B 平均精度仅下降 1.42 分,而 naive INT2 完全失效(0 分)。
- 混合精度布局:前 64 token(sink)和最近 256 token 用 BF16,其余用 INT2,128K 下 BF16 占比仅 0.24%。
- 解码加速:100K 上下文下,Qwen3-4B 达 3.08×,GLM-4.7-FP8 达 2.83×;批大小 32 时吞吐提升 6-7 倍。
- 长上下文鲁棒性:在 RULER-NIAH 128K 测试中,Qwen3-8B 得分 45.0,而 QuaRot-INT2 为 0。
- OSCAR 已集成到 SGLang,开源代码和预计算旋转矩阵可在 GitHub 获取。
一句话总结
OSCAR 让 2-bit KV Cache 量化首次实用,国产模型用户可直接在 SGLang 中实现 8 倍内存压缩和 3 倍加速,长上下文推理成本大幅降低。