SageMaker Feature Store 新增 Lake Formation 集成与 Iceberg 管理
AWS 宣布 SageMaker Python SDK v3.8.0 为 Feature Store 带来三项新能力:原生 Lake Formation 集成实现列/行/单元格级访问控制、Apache Iceberg 表属性管理控制元数据膨胀、以及 SDK v3 模块化升级。本文详解这些功能如何解决特征存储的安全与成本痛点,并提供代码示例。
一句话看懂
Amazon SageMaker Feature Store 新增原生 Lake Formation 集成和 Iceberg 表属性管理,让特征数据安全治理和存储成本控制自动化,无需手动配置。
详细发生了什么
Amazon SageMaker Feature Store 是一个全托管的 ML 特征存储服务,用于存储、共享和管理机器学习模型的特征数据。它已支持 Apache Iceberg 表格式、流式摄取、可扩展批量摄取,以及通过 AWS Lake Formation 实现细粒度访问控制。
随着组织将 ML 平台从实验推向生产,两个运营挑战日益突出:一是保护敏感特征数据的访问安全,但不想为每个新特征组手动配置;二是高频流式工作负载产生的 Iceberg 元数据不断增长,导致存储成本失控。例如,一个零售分析团队发现,基于 Iceberg 的离线存储一年内积累了超过 50 TB 的元数据文件,带来了意外的 S3 费用。
为此,AWS 在 SageMaker Python SDK v3.8.0 中推出三项新能力:
- 原生 Lake Formation 集成:在创建特征组时自动注册离线存储到 Lake Formation,实现列级、行级和单元格级访问控制,无需手动设置。
- 额外的 Iceberg 表属性:在创建或更新特征组时控制元数据保留和快照生命周期策略,防止元数据堆积,降低存储成本。
- SageMaker Python SDK v3 支持:v3.8.0 采用模块化架构,安装更快、体积更小,完整支持 Feature Store 所有功能。
中文圈视角
对于国内使用 AWS 的 ML 团队,这三项更新直接解决了两个常见痛点:
- 安全合规:金融、医疗等行业的特征数据通常包含敏感信息(如用户ID、交易金额),需要细粒度权限控制。此前需要手动注册 S3 位置、撤销 IAMAllowedPrincipals 组、配置数据过滤器,流程繁琐且易出错。现在通过 LakeFormationConfig 参数一键开启,自动完成注册和权限设置,大幅降低合规门槛。
- 成本控制:Iceberg 表格式虽然强大,但元数据文件膨胀是普遍问题。国内用户如果使用 AWS 的 Iceberg 离线存储,可设置
write.metadata.delete-after-commit.enabled和write.metadata.previous-versions-max等属性,自动清理历史元数据,避免类似 50TB 元数据的意外账单。
不过,这些功能依赖 AWS Lake Formation 和 Iceberg,国内用户若使用阿里云 MaxCompute、华为云 MRS 等替代方案,需关注其是否提供类似的自动化治理能力。对于自建 Kubernetes + 开源 Feature Store(如 Feast)的团队,这些功能可作为参考,但无法直接复用。
几条值得记住的细节
- SDK v3.8.0 发布日期:2026 年 4 月 16 日,可通过
pip install --upgrade "sagemaker>=3.8.0"安装。 - Lake Formation 集成:支持混合访问模式(
hybrid_access_mode_enabled=True),允许 IAM 和 Lake Formation 权限共存,适合逐步迁移。 - Iceberg 属性示例:
write.metadata.delete-after-commit.enabled=true和write.metadata.previous-versions-max=10可控制元数据保留。 - 现有特征组也可启用:使用
FeatureGroupManager.enable_lake_formation()对已有特征组激活 Lake Formation 控制。 - 前提条件:需要配置至少一个 Lake Formation 数据湖管理员,且拥有 S3、Glue 和 Lake Formation 权限。
一句话总结
如果你的 ML 特征存储面临安全合规或 Iceberg 元数据成本问题,SageMaker Feature Store 这次更新让你无需手动折腾,一键搞定。